Статистическа извадка се използва доста често в статистиката. В този процес целим да определим нещо за населението. Тъй като популациите обикновено са големи по размер, ние формираме статистическа извадка, като избираме подмножество от популацията, която е с предварително определен размер. Чрез изучаване на извадката можем да използваме инфекциозни статистики, за да определим нещо за населението.
Статистическа извадка за размера н включва една група от н индивиди или субекти, които са избрани на случаен принцип от населението. Тясно свързана с концепцията за статистическа извадка е разпределението на извадката.
Произход на разпределението на пробите
Разпределение на извадка се получава, когато образуваме повече от едно проста случайна извадка със същия размер от дадено население. Тези проби се считат за независими една от друга. Така че, ако индивидът е в една проба, то има еднаква вероятност да бъде в следващата проба, която е взета.
Изчисляваме конкретна статистика за всяка извадка. Това може да е извадка
означава, вариация на пробата или пропорционална проба. Тъй като статистиката зависи от извадката, която имаме, всяка проба обикновено дава различна стойност за статистиката, която представлява интерес. Обхватът на получените стойности е това, което ни дава нашето разпределение на извадката.Разпределение на проби за средства
За пример ще разгледаме разпределението на извадката за средната стойност. Средната стойност на популация е параметър, който обикновено не е известен. Ако изберем извадка с размер 100, тогава средната стойност на тази извадка лесно се изчислява, като се добавят всички стойности заедно и след това се раздели на общия брой точки от данни, в случая 100. Една проба с размер 100 може да ни даде средно 50. Друга такава проба може да има средна стойност 49. Други 51 и друга проба могат да имат средно 50,5.
Разпределението на тези примерни средства ни дава разпределение на извадката. Бихме искали да разгледаме повече от четири примерни средства, както направихме по-горе. С още няколко примерни средства ще имаме добра представа за формата на разпределението на извадката.
Защо ни интересува?
Вземане на проби може да изглежда доста абстрактно и теоретично. Има обаче много важни последици от използването им. Едно от основните предимства е, че премахваме променливостта, която присъства в статистиката.
Да предположим, например, че започваме с популация със средна стойност μ и стандартно отклонение от σ. Стандартното отклонение ни дава измерване на това колко е разпределена разпределението. Ще сравним това с разпределение на извадката, получено чрез формиране на прости произволни проби с размер н. Разпределението на пробата на средната стойност все още ще има средна стойност μ, но стандартното отклонение е различно. Стандартното отклонение за разпределение на пробата става σ / √ н.
Така имаме следното
- Размер на извадката от 4 ни позволява да имаме разпределение на извадката със стандартно отклонение σ / 2.
- Размер на извадката от 9 ни позволява да имаме разпределение на извадката със стандартно отклонение σ / 3.
- Размер на извадката 25 ни позволява да имаме разпределение на извадката със стандартно отклонение σ / 5.
- Размер на извадката от 100 ни позволява да имаме разпределение на извадката със стандартно отклонение σ / 10.
На практика
В практиката на статистиката рядко формираме извадкови разпределения. Вместо това ние третираме статистически данни, получени от обикновена случайна извадка с размер н сякаш те са една точка по съответното разпределение на пробите. Това отново подчертава защо искаме да имаме сравнително големи размери на извадката. Колкото по-голям е размерът на извадката, толкова по-малко вариации ще получим в нашата статистика.
Обърнете внимание, че освен центъра и разпределението, ние не можем да кажем нищо за формата на нашето разпределение на извадката. Оказва се, че при някои доста широки условия Централна гранична теорема може да се приложи, за да ни каже нещо доста невероятно за формата на разпределение на извадката.