Пример за две проби Т тест и доверителен интервал

Понякога в статистиката е полезно да видите разработени примери за проблеми. Тези примери могат да ни помогнат при намирането на подобни проблеми. В тази статия ще преминем през процеса на водене на инфекциозни статистики за резултат, касаещ две средства за популация. Не само ще видим как да поведем a тест за хипотеза относно разликата между две средства от населението, ние също ще изградим a доверителен интервал за тази разлика. Методите, които използваме, понякога се наричат ​​два извадка t тест и два пробни t доверителен интервал.

Изложението на проблема

Да предположим, че искаме да тестваме математическата способност на децата в клас. Един въпрос, който може да имаме, е дали нивата от по-висока степен имат по-високи средни резултати от теста.

Проста случайна извадка от 27 третокласници се подлага на тест по математика, отговорите им се оценяват, а резултатите са с среден бал от 75 точки с стандартно отклонение на пробата от 3 точки.

Проста случайна извадка от 20 петокласници се подлага на същия математически тест и техните отговори се оценяват. Средната оценка за петокласниците е 84 точки при стандартно отклонение на извадката от 5 точки.

instagram viewer

Като имаме предвид този сценарий, ние задаваме следните въпроси:

  • Дават ли ни примерните данни доказателства, че средният резултат от теста на популацията на всички петокласници надвишава средния резултат от теста на популацията на всички третокласници?
  • Какъв е 95% интервал на доверие за разликата в средните тестови резултати между популациите от третокласници и петокласници?

Условия и процедура

Трябва да изберем коя процедура да използваме. Правейки това, ние трябва да сме сигурни и да проверим дали са изпълнени условията за тази процедура. От нас се иска да сравним две средства за населението. Една колекция от методи, които могат да се използват за това, са тези за двупробни t-процедури.

За да използваме тези t-процедури за две проби, трябва да сме сигурни, че са изпълнени следните условия:

  • Имаме две прости случайни извадки от двете интересни популации.
  • Нашите прости случайни проби не представляват повече от 5% от населението.
  • Двете проби са независими една от друга и няма съответствие между субектите.
  • Променливата е нормално разпределена.
  • Както средното население, така и стандартното отклонение са неизвестни и за двете популации.

Виждаме, че повечето от тези условия са изпълнени. Казаха ни, че имаме прости случайни проби. Популациите, които изучаваме, са големи, тъй като има милиони студенти в тези нива.

Условието, което не можем да приемем автоматично, е ако тестовите резултати са нормално разпределени. Тъй като имаме достатъчно голям размер на извадката, поради стабилността на нашите t-процедури не е задължително променливата да бъде нормално разпределена.

Тъй като условията са изпълнени, извършваме няколко предварителни изчисления.

Стандартна грешка

Стандартната грешка е оценка на стандартно отклонение. За тази статистика добавяме дисперсията на извадката на пробите и след това вземаме квадратния корен. Това дава формулата:

(с1 2 / н1 + с22 / н2)1/2

Използвайки стойностите по-горе, виждаме, че стойността на стандартната грешка е

(32 / 27+ 52 / 20)1/2 =(1 / 3 + 5 / 4 )1/2 = 1.2583

Степени на свобода

Можем да използваме консервативното приближение за нашето степени на свобода. Това може да подцени броя на степените на свобода, но е много по-лесно да се изчисли, отколкото да се използва формулата на Уелч. Използваме по-малкия от двата размера на извадката и след това изваждаме един от това число.

За нашия пример по-малката от двете проби е 20. Това означава, че броят на степените на свобода е 20 - 1 = 19.

Тест за хипотеза

Искаме да тестваме хипотезата, че учениците в пети клас имат среден резултат от теста, който е по-голям от средния резултат на учениците от трети клас. Нека μ1 да бъде средният резултат на населението на всички петокласници. По подобен начин оставяме μ2 да бъде средният резултат на населението на всички третокласници.

Хипотезите са следните:

  • Н0: μ1 - μ2 = 0
  • На: μ1 - μ2 > 0

Статистическата тест е разликата между средните проби, която след това се разделя на стандартната грешка. Тъй като ние използваме примерни стандартни отклонения за оценка на стандартното отклонение на популацията, тестовата статистика от t-разпределението.

Стойността на тестовата статистика е (84 - 75) /1.2583. Това е приблизително 7,15.

Сега определяме каква е р-стойността за този тест на хипотезата. Ние разглеждаме стойността на тестовата статистика и къде е разположена върху t-разпределение с 19 градуса свобода. За това разпределение имаме 4,2 х 10-7 като нашата p-стойност. (Един от начините да се определи това е да се използва функцията T.DIST.RT в Excel.)

Тъй като имаме толкова малка p-стойност, ние отхвърляме нулевата хипотеза. Изводът е, че средната оценка за петокласници е по-висока от средната оценка за третокласници.

Доверителен интервал

Тъй като установихме, че има разлика между средните резултати, сега определяме интервал на доверие за разликата между тези две средства. Вече имаме много от това, от което се нуждаем. Интервалът на доверие за разликата трябва да има както оценка, така и граница на грешка.

Оценката за разликата на две средства е направо да се изчисли. Просто откриваме разликата в извадковите средства. Тази разлика в извадката означава оценка на разликата в популационните средства.

За нашите данни разликата в средните извадки е 84 - 75 = 9.

Границите на грешката са малко по-трудни за изчисляване. За това трябва да умножим подходящата статистика по стандартната грешка. Статистиката, от която се нуждаем, се намира чрез консултация с таблица или статистически софтуер.

Отново използвайки консервативното приближение, имаме 19 степени на свобода. За 95% доверителен интервал виждаме, че t* = 2.09. Можем да използваме T.INV функция в Excel за изчисляване на тази стойност.

Сега сглобяваме всичко и виждаме, че нашата граница на грешка е 2,09 x 1,22583, което е приблизително 2,63. Интервалът на доверие е 9 ± 2,63. Интервалът е 6,37 до 11,63 точки на теста, който избраха петокласниците и третокласниците.