Какво представлява парадокса на Симпсън в статистиката?

click fraud protection

А парадокс е твърдение или явление, което на повърхността изглежда противоречиво. Парадокси помагат да се разкрие основната истина под повърхността на това, което изглежда абсурдно. В областта на статистиката парадоксът на Симпсън демонстрира какви видове проблеми са резултат от комбиниране на данни от няколко групи.

С всички данни трябва да проявяваме повишено внимание. Откъде дойде? Как се получи? И какво всъщност казва? Всичко това са добри въпроси, които трябва да зададем, когато се представят с данни. Много изненадващият случай на парадокса на Симпсън ни показва, че понякога това, което сякаш изглеждат данните, всъщност не е така.

Преглед на парадокса

Да предположим, че наблюдаваме няколко групи и установим връзка или корелация за всяка от тези групи. Парадоксът на Симпсън казва, че когато комбинираме всички групи заедно и разглеждаме данните в обобщен вид, корелацията, която забелязахме преди, може да се обърне. Това най-често се дължи на дебнещи променливи, които не са били взети предвид, но понякога се дължи на числовите стойности на данните.

instagram viewer

пример

За да разберем малко повече от парадокса на Симпсън, нека разгледаме следния пример. В определена болница има двама хирурзи. Хирург А оперира на 100 пациенти, а 95 оцеляват. Хирург Б оперира на 80 пациенти и 72 оцеляват. Ние обмисляме операция, извършена в тази болница и преживяването на операцията е нещо, което е важно. Искаме да изберем по-доброто от двамата хирурзи.

Ние разглеждаме данните и ги използваме, за да изчислим какъв процент от пациентите на хирург А са оцелели при операциите си и ги сравняваме с процента на преживяемост на пациентите на хирург Б.

  • 95 пациенти от 100 са оцелели с хирург А, така че 95/100 = 95% от тях са оцелели.
  • 72 пациенти от 80 са оцелели с хирург В, така че 72/80 = 90% от тях са оцелели.

От този анализ кой хирург трябва да изберем да ни лекува? Изглежда, че хирург А е по-сигурният залог. Но наистина ли е това?

Ами ако направим някои допълнителни изследвания на данните и установихме, че първоначално болницата е имала предвид два различни вида операции, но след това събрахме всички данни заедно, за да докладваме за всяка от тях хирурзи. Не всички операции са равни, някои се считат за спешни операции с висок риск, докато други са с по-рутинен характер, които са били предварително планирани.

От 100 пациенти, които лекуваха хирург А, 50 са с висок риск, от които трима са починали. Останалите 50 се смятаха за рутинни, а от тях 2 починаха. Това означава, че при рутинна операция пациент, лекуван от хирург А, има 48/50 = 96% процент на преживяемост.

Сега разглеждаме по-внимателно данните за хирург Б и откриваме, че от 80 пациенти 40 са били с висок риск, от които седем са починали. Останалите 40 бяха рутинни и само един почина. Това означава, че пациентът е с 39/40 = 97,5% процент на преживяемост при рутинна операция с хирург Б.

Сега кой хирург изглежда по-добър? Ако операцията ви трябва да бъде рутинна, тогава хирург B всъщност е по-добрият хирург. Ако разгледаме всички операции, извършени от хирурзите, А е по-добре. Това е доста противоположно. В този случай дебнещата променлива от типа операция засяга комбинираните данни на хирурзите.

История на Парадокса на Симпсън

Парадоксът на Симпсън е кръстен на Едуард Симпсън, който за първи път описа този парадокс в документа от 1951 г. "Тълкуването на взаимодействието в таблиците за непредвидени ситуации" от Списание на Кралското статистическо дружество. Пиърсън и Юл наблюдаваха подобен парадокс половин век по-рано от Симпсън, така че парадоксът на Симпсън понякога се нарича и ефектът на Симпсън-Юл.

Има много широко приложение на парадокса в различни области като спортната статистика и данни за безработица. Всеки път, когато тези данни се агрегират, внимавайте за появата на този парадокс.

instagram story viewer