Много пъти политически проучвания и други приложения на статистиката посочете резултатите си с допустима грешка. Не е рядкост да се види, че проучване на общественото мнение посочва, че има подкрепа за даден въпрос или кандидат при определен процент от анкетираните, плюс и минус определен процент. Именно този плюс и минус е границата на грешката. Но как се изчислява границата на грешка? За проста случайна извадка на достатъчно голяма популация, маржът или грешката наистина са само преизчисляване на размера на извадката и нивото на доверие, което се използва.
Формулата за границата на грешката
В следващото ще използваме формулата за допустимата грешка. Ще планираме възможно най-лошия случай, в който нямаме представа какво е истинското ниво на подкрепа въпросите в нашата анкета. Ако имахме някаква представа за този номер, вероятно чрез данни от предишни анкети, бихме стигнали с по-малка граница на грешка.
Формулата, която ще използваме е: E = Zα/2/ (2√ n)
Нивото на увереност
Първата информация, от която се нуждаем, за да изчислим границите на грешка, е да определим какво ниво на увереност желаем. Този брой може да бъде всеки процент по-малък от 100%, но най-често срещаните нива на доверие са 90%, 95% и 99%. От тези три нива 95% се използват най-често.
Ако извадим нивото на доверие от едно, тогава ще получим стойността на алфа, изписана като α, необходима за формулата.
Критичната стойност
Следващата стъпка при изчисляване на маржа или грешката е да се намери подходящата критична стойност. Това се обозначава с термина Zα/2 в горната формула. Тъй като сме предпочели обикновена случайна извадка от голяма популация, можем да използваме стандартно нормално разпределение на Z-scores.
Да предположим, че работим с 95% ниво на увереност. Искаме да погледнем нагоре Z-score Z *за която площта между -z * и z * е 0.95. От таблицата виждаме, че тази критична стойност е 1,96.
Можехме да открием и критичната стойност по следния начин. Ако мислим по отношение на α / 2, тъй като α = 1 - 0,95 = 0,05, виждаме, че α / 2 = 0,025. Сега търсим таблицата, за да намерим Z-оцветете с площ от 0,025 вдясно. В крайна сметка ще имаме същата критична стойност от 1,96.
Други нива на увереност ще ни дадат различни критични стойности. Колкото по-голямо е нивото на увереност, толкова по-висока ще бъде критичната стойност. Критичната стойност за 90% ниво на увереност със съответна стойност на α от 0.10 е 1,64. Критичната стойност за 99% ниво на увереност със съответна стойност на α 0,01 е 2,54.
Размер на пробата
Единственото друго число, което трябва да използваме формулата за изчисляване на граница на грешка е размер на пробата, обозначени с н във формулата. След това вземаме квадратния корен от това число.
Поради местоположението на това число в горната формула, толкова по-голямо е размер на пробата които използваме, толкова по-малък ще бъде границата на грешка. Следователно големите проби са за предпочитане пред по-малките. Въпреки това, тъй като статистическата извадка изисква ресурси и време и пари, има ограничения до колко можем да увеличим размера на извадката. Наличието на квадратен корен във формулата означава, че четворно удвояване на размера на извадката ще е само половината от грешката.
Няколко примера
За да има смисъл от формулата, нека разгледаме няколко примера.
- Каква е допустимата грешка за обикновена случайна извадка от 900 души при 95%ниво на увереност?
- Използвайки таблицата, ние имаме критична стойност от 1,96 и следователно допустимата грешка е 1,96 / (2 √ 900 = 0,03267, или около 3,3%).
- Каква е допустимата грешка за обикновена случайна извадка от 1600 души при 95% ниво на доверие?
- На същото ниво от увереност като първи пример увеличаването на размера на извадката до 1600 ни дава граница на грешка от 0,0245 или около 2,5%.