Интервал на доверие за разликата между две пропорции на населението

Интервали на увереност са една част от инфекциозна статистика. Основната идея зад тази тема е да се оцени стойността на неизвестно население параметър чрез използване на статистическа извадка. Ние можем не само да оценим стойността на параметър, но също така можем да адаптираме нашите методи, за да оценим разликата между два свързани параметъра. Например може да искаме да намерим разликата в процента на мъжкото население с право на глас, което подкрепя определен законодателен акт в сравнение с жените с право на глас.

Ще видим как да направите този вид изчисление, като построим интервал на доверие за разликата от две пропорции на популацията. В процеса ще разгледаме част от теорията, която стои зад това изчисление. Ще видим някои прилики в това как конструираме a интервал на доверие за единична част от населението както и а интервал на доверие за разликата между две популационни средства.

Обща част

Преди да разгледаме конкретната формула, която ще използваме, нека разгледаме цялостната рамка, в която се вписва този тип интервал на доверие. Формата на типа интервал на доверие, който ще разгледаме, е дадена със следната формула:

instagram viewer

Изчислете +/- граница на грешка

Много доверени интервали са от този тип. Има две числа, които трябва да изчислим. Първата от тези стойности е оценката за параметъра. Втората стойност е границата на грешката. Тази граница на грешки обяснява факта, че имаме оценка. Интервалът на доверие ни предоставя диапазон от възможни стойности за неизвестния ни параметър.

условия

Трябва да сме сигурни, че всички условия са изпълнени, преди да правим някакво изчисление. За да намерим интервал на доверие за разликата от две пропорции на популацията, трябва да сме сигурни, че следното е налице:

  • Имаме две прости случайни проби от големи популации. Тук "голям" означава, че популацията е поне 20 пъти по-голяма от размера на извадката. Размерите на пробите ще бъдат обозначени с н1 и н2.
  • Нашите индивиди са избрани независимо един от друг.
  • Във всяка от нашите проби има поне десет успеха и десет провала.

Ако последният елемент от списъка не е удовлетворен, може да има начин за това. Можем да модифицираме плюс четири интервала на доверие изграждане и получаване стабилни резултати. Докато вървим напред, приемаме, че всички горепосочени условия са изпълнени.

Проби и пропорции на населението

Сега сме готови да изградим нашия интервал на доверие. Започваме с оценката за разликата между нашите пропорции. И двете от тези съотношения на населението се оценяват чрез примерна част. Тези пропорционални пропорции са статистически данни, които се откриват чрез разделяне на броя успехи във всяка извадка и след това разделяне на съответния размер на извадката.

Първата част от населението се обозначава с р1. Ако броят на успехите в нашата извадка от тази популация е к1, тогава имаме примерна част от к1 / н1.

Ние обозначаваме тази статистика с p̂1. Ние четем този символ като „п1-както „защото изглежда като символа p1 с шапка отгоре.

По подобен начин можем да изчислим примерна пропорция от втората ни съвкупност. Параметърът от тази популация е р2. Ако броят на успехите в нашата извадка от тази популация е к2, а нашата примерна пропорция е p̂2 = k2 / н2.

Тези две статистики стават първата част от нашия доверителен интервал. Прогнозата за р1 интернет доставчик1. Прогнозата за р2 интернет доставчик2. Така че оценката за разликата р1 - р2 интернет доставчик1 - п̂2.

Пробно разпределение на разликата в примерните пропорции

След това трябва да получим формулата за допустимата грешка. За да направите това, първо ще разгледаме разпределение на извадката от p̂1 . Това е биномиално разпределение с вероятност за успех р1 и н1 изпитвания. Средната стойност на това разпределение е пропорцията р1. Стандартното отклонение на този тип случайна променлива има отклонение от р1 (1 - р1 )/н1.

Разпределението на извадката на p̂2 е подобно на това на p̂1 . Просто променете всички индекси от 1 на 2 и имаме биномиално разпределение със средна стойност на p2 и вариация на р2 (1 - р2 )/н2.

Сега имаме нужда от няколко резултата от математическата статистика, за да определим разпределението на извадката на p̂1 - п̂2. Средното на това разпределение е р1 - р2. Поради факта, че дисперсиите се събират, виждаме, че е дисперсията на разпределението на извадката р1 (1 - р1 )/н1 + р2 (1 - р2 )/н2. Стандартното отклонение на разпределението е квадратният корен на тази формула.

Има няколко корекции, които трябва да направим. Първият е, че формулата за стандартното отклонение на p̂1 - п̂2 използва неизвестните параметри на р1 и р2. Разбира се, ако наистина знаехме тези стойности, тогава изобщо няма да е интересен статистически проблем. Няма да е необходимо да оценяваме разликата между р1 и р2.. Вместо това можем просто да изчислим точната разлика.

Този проблем може да бъде отстранен чрез изчисляване на стандартна грешка, а не стандартно отклонение. Всичко, което трябва да направим, е да заместим пропорциите на населението с пропорционални пропорции. Стандартните грешки се изчисляват на базата на статистически данни вместо на параметри. Стандартна грешка е полезна, тъй като тя ефективно оценява стандартно отклонение. Това означава за нас е, че вече не е необходимо да знаем стойността на параметрите р1 и р2. .Тъй като тези пробни пропорции са известни, стандартната грешка се дава от квадратния корен на следния израз:

р1 (1 - p̂1 )/н1 + p̂2 (1 - p̂2 )/н2.

Вторият елемент, който трябва да обърнем внимание, е конкретната форма на нашето разпределение на извадката. Оказва се, че можем да използваме нормално разпределение за приблизително разпределение на извадката на p̂1 - п̂2. Причината за това е донякъде техническа, но е очертана в следващия параграф.

И двете p̂1 и p̂2 имат разпределение на извадката, което е биномиално. Всяко от тези биномиални разпределения може да се сближи доста добре чрез нормално разпределение. Така p̂1 - п̂2 е произволна променлива. Образува се като линейна комбинация от две случайни променливи. Всяко от тях се апроксимира чрез нормално разпределение. Следователно разпределението на извадката на p̂1 - п̂2 също е нормално разпределен.

Формула за увереност на интервал

Сега имаме всичко необходимо, за да съставим интервала си на доверие. Оценката е (p̂1 - п̂2) и границата на грешката е Z *1 (1 - p̂1 )/н1 + p̂2 (1 - p̂2 )/н2.]0.5. Стойността, за която въвеждаме Z * е продиктувано от нивото на увереност ° С. Често използвани стойности за Z * са 1.645 за 90% доверие и 1.96 за 95% доверие. Тези стойности за Z * означава частта от стандартното нормално разпределение, където точно ° С процент от разпределението е между -Z * и Z *.

Следващата формула ни дава интервал на доверие за разликата от две пропорции на популацията:

1 - п̂2) +/- Z *1 (1 - p̂1 )/н1 + p̂2 (1 - p̂2 )/н2.]0.5

instagram story viewer