ANOVA (анализ на вариацията)

Много пъти, когато изучаваме група, наистина сравняваме две популации. В зависимост от параметър от тази група, която ни интересува и условията, с които се справяме, има няколко техники. статистически извод процедурите, които се отнасят до сравнението на две популации, обикновено не могат да се прилагат към три или повече популации. За да изследваме повече от две популации наведнъж, се нуждаем от различни видове статистически инструменти. Анализ на дисперсиятаили ANOVA е техника от статистически смущения, която ни позволява да се справим с няколко популации.

Сравнение на средствата

За да видим какви проблеми възникват и защо се нуждаем от ANOVA, ще разгледаме пример. Да предположим, че се опитваме да определим дали означава тежести на зелени, червени, сини и оранжеви бонбони M&M са различни един от друг. Ще посочим средните тегла за всяка от тези популации, μ₁, μ₂, μ₃ μ₄ и съответно Може да използваме подходящото тест за хипотеза няколко пъти и тест С (4,2), или шест различни нулеви хипотези:

instagram viewer

Н₀: μ₁ = μ₂ за да проверите дали средното тегло на популацията на червените бонбони е различно от средното тегло на популацията на сините бонбони.
Н₀: μ₂ = μ₃ за да проверите дали средното тегло на популацията на сините бонбони е различно от средното тегло на популацията на зелените бонбони.
Н₀: μ₃ = μ₄ за да проверите дали средното тегло на популацията на зелените бонбони е различно от средното тегло на популацията на оранжевите бонбони.
Н₀: μ₄ = μ₁ за да проверите дали средното тегло на популацията на оранжевите бонбони е различно от средното тегло на популацията на червените бонбони.
Н₀: μ₁ = μ₃ за да проверите дали средното тегло на популацията на червените бонбони е различно от средното тегло на популацията на зелените бонбони.
Н₀: μ₂ = μ₄ за да проверите дали средното тегло на популацията на сините бонбони е различно от средното тегло на популацията на оранжевите бонбони.

Има много проблеми с този вид анализ. Ще имаме шест р-стойности. Въпреки че може да тестваме всеки на 95% ниво на увереност, нашата увереност в цялостния процес е по-малка от това, защото вероятностите се умножават: .95 x .95 x .95 x .95 x .95 x .95 е приблизително .74, или 74% ниво на доверие. По този начин вероятността за грешка от тип I се е увеличила.

На по-фундаментално ниво не можем да сравним тези четири параметъра като цяло, като ги сравняваме два наведнъж. Средствата за червено и синьо M&M могат да бъдат значителни, като средното тегло на червеното е относително по-голямо от средното тегло на синьото. Когато обаче вземем предвид средното тегло на всичките четири вида бонбони, може да няма съществена разлика.

Анализ на вариацията

За да се справим със ситуации, в които трябва да направим множество сравнения, използваме ANOVA. Този тест ни позволява да разгледаме параметрите на няколко популации наведнъж, без да навлизаме в някои от проблемите, пред които сме изправени провеждане на тестове за хипотези по два параметъра наведнъж.

За да проведем ANOVA с примера M&M по-горе, бихме тествали нулевата хипотеза H₀:μ₁ = μ₂ = μ₃= μ₄. Това заявява, че няма разлика между средните тегла на червените, сините и зелените M&M. Алтернативната хипотеза е, че има известна разлика между средните тегла на червените, сините, зелените и оранжевите M&M. Тази хипотеза наистина е комбинация от няколко твърдения Н_а:

Средното тегло на популацията на червени бонбони не е равно на средното тегло на популацията на сини бонбони, ИЛИ
Средното тегло на популацията на сини бонбони не е равно на средното тегло на популацията на зелени бонбони, ИЛИ
Средното тегло на популацията на зелени бонбони не е равно на средното тегло на популацията на оранжеви бонбони, ИЛИ
Средното тегло на популацията на зелени бонбони не е равно на средното тегло на популацията на червени бонбони, ИЛИ
Средното тегло на популацията на сини бонбони не е равно на средното тегло на популацията на оранжеви бонбони, ИЛИ
Средното тегло на популацията на сини бонбони не е равно на средното тегло на популацията на червени бонбони.

В този конкретен случай, за да получим нашата p-стойност, ще използваме a разпределение на вероятността известен като F-разпределение. Изчисленията, включващи ANOVA F тест, могат да се правят на ръка, но обикновено се изчисляват със статистически софтуер.

Множество сравнения

Това, което отделя ANOVA от другите статистически техники, е, че се използва за извършване на множество сравнения. Това е често срещано в цялата статистика, тъй като има много пъти, когато искаме да сравним повече от само две групи. Обикновено цялостният тест предполага, че има някаква разлика между параметрите, които изучаваме. След това следваме този тест с някои други анализи, за да решим кой параметър се различава.