Дадено a последователност от данни, един въпрос, който може да се чудим е дали последователността е възникнала от случайни явления или дали данните не са случайни. Случайността е трудно да се идентифицира, тъй като е много трудно просто да разгледаме данните и да определим дали са произведени или не случайно. Един метод, който може да се използва, за да се определи дали една последователност наистина е възникнала случайно, се нарича тест за изпълнение.
Тестът за бягане е тест за значимост или тест за хипотеза. Процедурата за този тест се основава на цикъл или последователност от данни, които имат определена черта. За да разберем как работи тестът за писти, първо трябва да проучим концепцията за изпълнение.
Поредици от данни
Ще започнем с разглеждане на пример за писти. Помислете за следната последователност от случайни цифри:
6 2 7 0 0 1 7 3 0 5 0 8 4 6 8 7 0 6 5 5
Един от начините за класифициране на тези цифри е разделянето им на две категории, четни (включително цифрите 0, 2, 4, 6 и 8) или нечетни (включително цифрите 1, 3, 5, 7 и 9). Ще разгледаме последователността на случайни цифри и ще обозначим четните числа като E, а нечетни числа като O:
E E O E E O O E O E E E E E O E E O O
Изпълненията са по-лесни за разглеждане, ако пренапишем това, така че всички О са заедно и всички Es са заедно:
EE O EE OO E O EEEEE O EE OO
Изброяваме броя на блоковете четни или нечетни числа и виждаме, че има общо десет цикъла за данните. Четири писти са с дължина една, пет са с дължина две и една е с дължина пет
условия
С всякакви тест за значимост, важно е да знаете какви условия са необходими за провеждането на теста. За теста на бягането ще можем да класифицираме всяка стойност на данните от извадката в една от двете категории. Ще преброим общия брой изпълнения спрямо броя на броя на стойностите на данните, които попадат във всяка категория.
Тестът ще бъде а двустранен тест. Причината за това е, че твърде малкото стартиране означава, че вероятно няма достатъчно вариации и броя на изпълненията, които биха възникнали от случаен процес. Прекалено много изпълнения ще доведат, когато процес се редува твърде често между категориите, за да бъде описан случайно.
Хипотези и P-стойности
Всеки тест за значимост има a нулева и алтернативна хипотеза. За теста на бягането нулевата хипотеза е, че последователността е произволна последователност. Алтернативната хипотеза е, че последователността на данните от извадката не е случайна.
Статистическият софтуер може да изчисли р-стойност което съответства на конкретна тестова статистика. Има и таблици, които дават критични числа на определен ниво на значимост за общия брой писти.
Изпълнява тестов пример
Ще работим по следния пример, за да видим как работи тестът за бягане. Да предположим, че за дадена задача студентът е помолен да обърне монета 16 пъти и да отбележи реда на главите и опашките, които се показаха. Ако приключим с този набор от данни:
H T H H H T T H T T H T H T H H
Може да попитаме дали ученикът действително е направил домашната си работа или е изневерил и написал серия от H и T, които изглеждат произволни? Тестът за писти може да ни помогне. Предположенията са изпълнени за теста на пистите, тъй като данните могат да бъдат класифицирани в две групи, като глава или опашка. Продължаваме, като броим броя писти. Прегрупирайки се, виждаме следното:
H T HHH TT H TT H T H T HH
Има десет писти за нашите данни със седем опашки са девет глави.
Нулевата хипотеза е, че данните са случайни. Алтернативата е, че не е случайна. За ниво на значимост на алфа, равно на 0,05, виждаме, като се консултираме с правилната таблица, че отхвърляме нулевата хипотеза, когато броят на изпълненията е по-малък от 4 или по-голям от 16. Тъй като в нашите данни има десет писти, ние не успее да отхвърли нулевата хипотеза H0.
Нормално приближение
Тестът за стартиране е полезен инструмент за определяне дали една последователност вероятно е случайна или не. За голям набор от данни понякога е възможно да се използва нормално приближение. Това нормално приближение изисква да използваме броя на елементите във всяка категория и след това да изчислим средното и стандартното отклонение на подходящото нормална дистрибуция.