Каква е регресионната линия на най-малко квадратчета?

Скитплот е вид графика, който се използва за представяне сдвоени данни. Обяснителната променлива е изобразена по хоризонталната ос, а променливата на отговора е графирана по вертикалната ос. Една от причините за използването на този тип графики е да се търсят отношения между променливите.

Най-основният модел, който трябва да се търси в набор от сдвоени данни, е този на права линия. Чрез всяка две точки можем да начертаем права линия. Ако в нашия разпръсквач има повече от две точки, през повечето време вече няма да можем да начертаем линия, която преминава през всяка точка. Вместо това ще начертаем линия, която минава през средата на точките и показва общата линейна тенденция на данните.

Докато разглеждаме точките в нашата графика и желаем да начертаем линия през тези точки, възниква въпрос. Кой ред трябва да нарисуваме? Има безкраен брой линии, които биха могли да бъдат начертани. Чрез самото използване на очите ни е ясно, че всеки човек, който гледа разпръснатия, може да произведе малко по-различна линия. Тази неяснота е проблем. Искаме да имаме добре дефиниран начин за всички да получат една и съща линия. Целта е да има математически точно описание на коя линия трябва да се очертае. Най-малко квадратчета

instagram viewer
регресионна линия е една такава линия през нашите точки от данни.

Най-малко квадрати

Името на линията с най-малко квадратчета обяснява какво прави. Започваме с колекция от точки с координати, дадени от (хаз, шаз). Всяка права линия ще премине между тези точки и ще премине над или под всяка от тях. Можем да изчислим разстоянията от тези точки до линията, като изберем стойност от х и след това изваждане на наблюдаваното ш координата, която съответства на това х от ш координата на нашата линия.

Различните линии през един и същ набор от точки биха дали различен набор от разстояния. Искаме тези разстояния да са толкова малки, колкото можем да ги направим. Но има проблем. Тъй като нашите разстояния могат да бъдат или положителни, или отрицателни, сборът от всички тези разстояния ще се анулира взаимно. Сумата от разстоянията винаги ще е равна на нула.

Решението на този проблем е да се премахнат всички отрицателни числа, като се преброят разстоянията между точките и линията. Това дава колекция от неотрицателни числа. Целта, която имахме да намерим линия, която е най-подходяща, е същата като да направим сумата от тези разстояния на квадрат възможно най-малка. Калкулът идва на помощ тук. Процесът на диференциация в смятането дава възможност да се сведе до минимум сумата от разстоянията в квадрат от дадена права. Това обяснява израза „най-малко квадратчета“ в нашето име за този ред.

Линия на Best Fit

Тъй като линията с най-малко квадратчета свежда до минимум квадратните разстояния между линията и нашите точки, можем да мислим за тази линия като тази, която най-добре пасва на нашите данни. Ето защо линията с най-малко квадратчета е известна и като линия с най-доброто прилягане. От всички възможни линии, които биха могли да бъдат начертани, най-малката квадратна линия е най-близка до набора от данни като цяло. Това може да означава, че нашата линия ще пропусне да удари някоя от точките в нашия набор от данни.

Характеристики на най-малката квадратна линия

Има няколко функции, които притежава всяка най-малко квадратна линия. Първият интерес представлява сделка с наклона на нашата линия. Наклонът има връзка с коефициент на корелация от нашите данни. Всъщност наклонът на линията е равен на r (s)шх). Тук с х означава стандартното отклонение на х координати и с ш стандартното отклонение на ш координати на нашите данни. Знакът на коефициента на корелация е пряко свързан със знака на наклона на най-малката ни квадратна линия.

Друга характеристика на линията с най-малко квадратчета се отнася до точка, през която преминава. Докато ш прихващането на най-малко квадратна линия може да не е интересно от статистическа гледна точка, има една точка, която е. Всяка най-малка квадратна линия минава през средната точка на данните. Тази средна точка има а х координата, която е означава от х стойности и а ш координата, която е средната стойност на ш стойности.