Много пъти в изследването на статистика важно е да се правят връзки между различни теми. Ще видим пример за това, в който наклонът на регресионната линия е пряко свързан с коефициент на корелация. Тъй като и двете понятия включват прави линии, естествено е да се зададе въпроса „Как са коефициентът на корелация и най-малко квадратна линия свързани? "
Първо, ще разгледаме някои предимства по отношение на двете теми.
Подробности относно корелацията
Важно е да запомните подробностите, свързани с коефициента на корелация, който се обозначава с R. Тази статистика се използва, когато сме сдвоили количествени данни. От разпръсна на сдвоени данни, можем да търсим тенденции в цялостното разпространение на данни. Някои сдвоени данни показват линеен или права линия. Но на практика данните никога не попадат точно по права линия.
Няколко души, които гледат едно и също разсеяно от сдвоени данни не биха се съгласили колко близо е да показват обща линейна тенденция. В крайна сметка нашите критерии за това може да са донякъде субективни. Мащабът, който използваме, също може да повлияе на възприемането ни на данните. Поради тези причини и повече се нуждаем от някаква обективна мярка, за да кажем доколко близките ни сдвоени данни са линейни. Коефициентът на корелация постига това за нас.
Няколко основни факта за R включват:
- Стойността на R варира между всяко реално число от -1 до 1.
- Стойности на R близо до 0 предполагат, че има малка или никаква линейна връзка между данните.
- Стойности на R близо 1 означава, че между данните има положителна линейна връзка. Това означава, че като х увеличава това ш също се увеличава.
- Стойности на R близо до -1 означава, че има отрицателна линейна връзка между данните. Това означава, че като х увеличава това ш намалява.
Наклонът на линията на най-малките квадрати
Последните две позиции в горния списък ни насочват към наклона на най-ниската квадратна линия. Спомнете си, че наклонът на линията е измерване на колко единици се изкачва нагоре или надолу за всяка единица, която се движим вдясно. Понякога това се заявява като покачване на линията, разделена на пробега, или промяна в ш стойности, разделени на промяната в х стойности.
По принцип правите линии имат наклон, който е положителен, отрицателен или нулев. Ако трябва да изследваме нашите най-малки квадратни регресионни линии и да сравним съответните стойности на R, ще забележим, че всеки път, когато нашите данни имат отрицателен коефициент на корелация, наклонът на регресионната линия е отрицателен. По същия начин, за всеки път, когато имаме положителен коефициент на корелация, наклонът на регресионната линия е положителен.
От това наблюдение трябва да е видно, че определено съществува връзка между знака на коефициента на корелация и наклона на линията на най-малките квадрати. Остава да обясним защо това е вярно.
Формулата за наклона
Причината за връзката между стойността на R и наклонът на линията с най-малко квадратчета има връзка с формулата, която ни дава наклона на тази линия. За сдвоени данни (х, у) обозначаваме стандартно отклонение от х данни от сх и стандартното отклонение на ш данни от сш.
Формулата за наклона а на регресионната линия е:
- a = r (sш/сх)
Изчисляването на стандартно отклонение включва вземане на положителния квадратен корен на неотрицателно число. В резултат и двете стандартни отклонения във формулата за наклона трябва да са неотрицателни. Ако приемем, че има някакво изменение в нашите данни, ще бъдем в състояние да пренебрегнем възможността едно от тези стандартни отклонения да е нула. Следователно знакът на коефициента на корелация ще бъде същият като знака на наклона на регресионната линия.