Разлики между корелация и причинно-следствена връзка

click fraud protection

Един ден на обяд млада жена ядеше голяма купа със сладолед, а колега от факултета се приближи до нея и каза: „По-добре бъдете внимателни, има висока статистическикорелация между сладолед и удавяне. " Сигурно му беше обърнала поглед, докато той разработи още малко. „Дните с най-много продажби на сладолед също виждат най-много хора да се давят.“

Когато тя завърши сладоледа ми, двамата колеги обсъдиха факта, че само защото една променлива е статистически свързана с друга, това не означава, че едната е причината за другата. Понякога има променлива, скриваща се на заден план. В този случай в данните се крие денят от годината. В горещите летни дни се продава повече сладолед от снежните зимни. През лятото повече плуват хора, а оттук и повече удавяне през лятото, отколкото през зимата.

Внимавайте за дебнещи променливи

Горният анекдот е отличен пример за това, което е известно като дебнеща променлива. Както подсказва името му, дебнеща променлива може да бъде неуловима и трудна за откриване. Когато открием, че два числови набора от данни са силно свързани, винаги трябва да питаме: „Може ли да има нещо друго, което да предизвика тази връзка?“

instagram viewer

Следват примери за силна корелация, причинена от дебнеща променлива:

  • Средният брой компютри на човек в дадена държава и средната продължителност на живота на тази страна.
  • Броят на пожарникарите при пожар и щетите, причинени от пожара.
  • Височината на ученик в начално училище и неговото ниво на четене.

Във всички тези случаи връзката между променливите е много силна. Това обикновено се обозначава с a коефициент на корелация има стойност близка до 1 или до -1. Няма значение колко близо е този коефициент на корелация до 1 или до -1, тази статистика не може да покаже, че една променлива е причината за другата променлива.

Откриване на дебнещи променливи

По своята същност дебнещите променливи са трудни за откриване. Една от стратегиите, ако има такава, е да се проучи какво се случва с данните във времето. Това може да разкрие сезонните тенденции, като например примера за сладолед, които се затъмняват, когато данните се събират заедно. Друг метод е да се разгледа големите различия в стойностите и се опитайте да определите какво ги прави различни от останалите данни. Понякога това дава намек за това, което се случва зад кулисите. Най-добрият начин на действие е да бъдете активни; въпроси внимателно и дизайнерски експерименти внимателно.

Защо има значение?

Предполагаме, че в сценария на откриване, предположим, че добронамереният, но статистически неинформиран конгресмен предлага да забрани целия сладолед, за да предотврати удавяне. Такъв законопроект би причинил неудобство на големи слоеве от населението, принуди няколко компании да фалират и да премахне хиляди работни места, след като производството на сладолед в страната се затвори. Въпреки най-добрите намерения, този законопроект не би намалил броя на смъртта от удавяне.

Ако този пример изглежда малко твърде далеч, помислете за следното, което всъщност се е случило. В началото на 1900 г. лекарите забелязват, че някои кърмачета мистериозно умират в съня си от възприети дихателни проблеми. Това се нарича смърт на яслите и сега е известно като SIDS. Едно нещо, което изпъкна от аутопсии, извършени на умрелите от SIDS, е разширен тимус, жлеза, разположена в гърдите. От корелацията на увеличените тимусни жлези при бебета със СПИН, лекарите предполагат, че необичайно голям тимус причинява неправилно дишане и смърт.

Предлаганото решение е да се свие тимусът с високо количество радиация или да се премахне жлезата изцяло. Тези процедури са имали висока степен на смъртност и са довели до още повече смъртни случаи. Тъжното е, че тези операции не е трябвало да бъдат извършвани. Последващи изследвания показват, че тези лекари са сбъркали в своите предположения и че тимусът не е отговорен за СПИН.

Корелацията не причинява причинно

Горното трябва да ни направи пауза, когато смятаме, че статистическите данни се използват за оправдаване на неща като медицински схеми, законодателство и образователни предложения. Важно е добрата работа да бъде извършена при интерпретирането на данни, особено ако резултатите, свързани с корелацията, ще повлияят на живота на другите.

Когато някой заяви, „Проучванията показват, че A е причина за B и някои статистически данни го подкрепят“, бъдете готови да го направите отговорете, „корелацията не предполага причинно-следствена връзка“. Винаги внимавайте за това, което се крие под данни.

instagram story viewer