Най- чи-квадрат доброта на тест за годни е полезно за сравняване на a теоретичен модел към наблюдаваните данни. Този тест е вид на по-общия хи-квадрат тест. Както при всяка тема от математиката или статистиката, може да бъде полезно да се работи чрез пример, за да се разбере какво се случва, чрез пример за тест за чисти квадрат на доброто приспособяване.
Помислете за стандартен пакет млечен шоколад M&M. Има шест различни цвята: червен, оранжев, жълт, зелен, син и кафяв. Да предположим, че сме любопитни за разпределението на тези цветове и питаме, че всичките шест цвята се срещат в еднакво съотношение? Това е типът въпрос, на който може да се отговори с добро изпитване за годност.
обстановка
Започваме с отбелязването на настройката и защо тестът за годност при годност е подходящ. Нашата променлива цвят е категорична. Има шест нива на тази променлива, съответстващи на шестте възможни цвята. Ще приемем, че отчитането на M&M ще бъде обикновена случайна извадка от популацията на всички М & Ms.
Нулеви и алтернативни хипотези
Най- нулеви и алтернативни хипотези тъй като тестът ни за годност е отразяващ предположението, което правим за населението. Тъй като ние тестваме дали цветовете се срещат в равни пропорции, нашата нулева хипотеза ще бъде, че всички цветове се срещат в еднакво съотношение. По-официално, ако р1 е популационната част на червените бонбони, р2 е популационната част на оранжевите бонбони и т.н., тогава нулевата хипотеза е тази р1 = р2 =... = р6 = 1/6.
Алтернативната хипотеза е, че поне едно от пропорциите на популацията не е равно на 1/6.
Действителни и очаквани бройки
Действителните са броя на бонбоните за всеки от шестте цвята. Очакваният брой се отнася до това, което бихме очаквали, ако нулевата хипотеза беше вярна. Ще позволим н да бъде размера на нашата извадка. Очакваният брой червени бонбони е р1 н или н/6. Всъщност за този пример очакваният брой бонбони за всеки от шестте цвята е просто н пъти раз, или н/6.
Chi-square Статистика за доброта на прилягането
Сега ще изчислим хи-квадратна статистика за конкретен пример. Да предположим, че имаме обикновена случайна извадка от 600 M&M бонбони със следното разпределение:
- 212 от бонбоните са сини.
- 147 от бонбоните са оранжеви.
- 103 от бонбоните са зелени.
- 50 от бонбоните са червени.
- 46 от бонбоните са жълти.
- 42 от бонбоните са кафяви.
Ако нулевата хипотеза беше вярна, тогава очакваните бройки за всеки от тези цветове биха били (1/6) x 600 = 100. Сега използваме това при изчисляването на статистиката на чи-квадрат.
Изчисляваме приноса към нашата статистика от всеки от цветовете. Всяка е от формата (действителна - очаква се)2/Expected.:
- За синьо имаме (212 - 100)2/100 = 125.44
- За оранжево имаме (147 - 100)2/100 = 22.09
- За зелено имаме (103 - 100)2/100 = 0.09
- За червено имаме (50 - 100)2/100 = 25
- За жълто имаме (46 - 100)2/100 = 29.16
- За кафяво имаме (42 - 100)2/100 = 33.64
След това обобщаваме всички тези приноси и определяме, че нашата статистика на чи-квадрат е 125,44 + 22,09 + 0,09 + 25 +29,16 + 33,64 = 235,42.
Степени на свобода
Броят на степени на свобода за тест за годност е просто един по-малък от броя на нивата на нашата променлива. Тъй като имаше шест цвята, имаме 6 - 1 = 5 градуса свобода.
Chi-квадратна таблица и P-стойност
Чи-квадратната статистика от 235.42, която изчислихме, съответства на определено място в хи-квадратното разпределение с пет степени на свобода. Сега имаме нужда от р-стойност, за да се определи вероятността за получаване на тестова статистика поне толкова крайна, колкото 235.42, като се приеме, че нулевата хипотеза е вярна.
Microsoft Excel може да се използва за това изчисление. Откриваме, че нашата тестова статистика с пет степени на свобода има р-стойност от 7,29 х 10-49. Това е изключително малка p-стойност.
Правило за решение
Ние решаваме дали да отхвърлим нулевата хипотеза въз основа на размера на p-стойността. Тъй като имаме много незначителна p-стойност, ние отхвърляме нулевата хипотеза. Заключваме, че M&M не са разпределени равномерно между шестте различни цвята. Може да се използва последващ анализ за определяне на доверителен интервал за популационния дял от един конкретен цвят.