Какво представлява корелацията в статистиката?

Понякога числовите данни се получават по двойки. Може би a палеонтолог измерва дължините на бедрената кост (костта на крака) и плечовата кост (кост на ръката) в пет вкаменелости от същия вид динозаври. Може да има смисъл да разгледате дължините на ръцете отделно от дължините на краката и да изчислите неща като средната стойност или стандартното отклонение. Но какво ще стане, ако изследователят е любопитен да разбере дали има връзка между тези две измервания? Не е достатъчно просто да погледнете ръцете отделно от краката. Вместо това палеонтологът трябва да сдвои дължините на костите за всеки скелет и да използва площ от статистика известен като корелация.

Какво е корелация? В горния пример предположим, че изследователят е проучил данните и е достигнал до не особено изненадващото В резултат на това вкаменелостите на динозаври с по-дълги ръце са имали по-дълги крака, а фосилите с по-къси ръце по-къси крака. Разпръскването на данните показва, че всички точки на данни са струпвани близо до права линия. След това изследователят би казал, че има силна права линия, или

instagram viewer
корелация, между дължините на костите на ръката и костите на краката на вкаменелостите. Изисква се още малко работа, за да се каже колко силна е корелацията.

Корелация и разсейване

Тъй като всяка точка от данни представлява две числа, двуизмерният разпръсквач е от голяма помощ при визуализирането на данните. Да предположим, че всъщност разполагаме с данните за динозаврите, а петте фосила имат следните измервания:

  1. Femur 50 cm, плечова кост 41 cm
  2. Бедрена кост 57 см, плетеница 61 см
  3. Femur 61 cm, плечовидна кост 71 cm
  4. Femur 66 cm, плечова кост 70 cm
  5. Femur 75 cm, плечовидна кост 82 cm

Разпръскване на данните, с измерване на бедрената кост в хоризонтална посока и измерване на кости във вертикална посока, води до горната графика. Всяка точка представлява измерванията на един от скелетите. Например, в долната лява точка съответства на скелет №1. Точката в горната дясна част е скелет №5.

Със сигурност изглежда, че можем да начертаем права линия, която да е много близка до всички точки. Но как можем да кажем със сигурност? Близостта е в очите на гледащия. Как да разберем, че нашите определения за „близост“ съвпадат с някой друг? Има ли някакъв начин да можем да определим тази близост?

Коефициент на корелация

За обективно измерване на това колко близки са данните по права линия, коефициентът на корелация идва на помощ. Най- коефициент на корелация, обикновено обозначени R, е реално число между -1 и 1. Стойността на R измерва силата на корелация въз основа на формула, като елиминира всяка субективност в процеса. Има няколко указания, които трябва да имате предвид, когато интерпретирате стойността на R.

  • ако R = 0, тогава точките са пълна смесица с абсолютно никаква праволинейна връзка между данните.
  • ако R = -1 или R = 1, тогава всички точки от данни се подреждат перфектно по линия.
  • ако R е стойност, различна от тези крайности, тогава резултатът е по-малко от перфектно прилягане на права линия. В реалните групи данни това е най-често срещаният резултат.
  • ако R е положителна, тогава линията се издига с a положителен наклон. ако R е отрицателен, след това линията се спуска с отрицателен наклон.

Изчисляване на коефициента на корелация

Формулата за коефициента на корелация R е сложно, както се вижда тук. Съставките на формулата са средните и стандартни отклонения на двата набора от цифрови данни, както и броя на точките от данни. За повечето практически приложения R е досадно да се изчислява на ръка. Ако нашите данни са въведени в калкулатор или програма за електронни таблици с статистически команди, тогава обикновено има вградена функция за изчисляване R.

Ограничения на корелацията

Въпреки че корелацията е мощен инструмент, има някои ограничения при използването му:

  • Корелацията не ни казва напълно всичко за данните. Средствата и стандартните отклонения продължават да са важни.
  • Данните могат да бъдат описани чрез крива, по-сложна от права линия, но това няма да се покаже при изчисляването на R.
  • Обурените силно влияят на коефициента на корелация. Ако видим някакви отшелници в нашите данни, трябва да внимаваме какви изводи правим от стойността на R.
  • Само защото две групи данни са свързани, това не означава, че едната е кауза от другата.
instagram story viewer