Линейна регресия е статистическа техника, която се използва, за да научите повече за връзката между независима (предиктор) променлива и зависима (критерий) променлива. Когато имате повече от една независима променлива в анализа си, това се означава като множествена линейна регресия. По принцип регресията позволява на изследователя да зададе общия въпрос „Кой е най-добрият предиктор за ???“
Например, нека да кажем, че изучавахме причините за прекалена пълнота, измерено чрез индекс на телесна маса (ИТМ). По-конкретно, искахме да разберем дали следните променливи са важни предсказатели на ИТМ на човек: брой на бързата храна храна, ядена седмично, брой часове телевизия, гледани на седмица, брой минути, прекарани в упражнения на седмица, и родители BMI. Линейната регресия би била добра методология за този анализ.
Регресионното уравнение
Когато извършвате регресионен анализ с една независима променлива, уравнението на регресията е Y = a + b * X където Y е зависимата променлива, X е независимата променлива, a е константата (или прихващането) и b е на
наклон на регресионната линия. Например, нека да кажем, че GPA се прогнозира най-добре от регресионното уравнение 1 + 0,02 * IQ. Ако студентът има коефициент на интелигентност от 130, то неговият GPA ще бъде 3.6 (1 + 0.02 * 130 = 3.6).Когато провеждате регресионен анализ, в който имате повече от една независима променлива, уравнението на регресия е Y = a + b1 * X1 + b2 * X2 +... + Вр * XP. Например, ако искахме да включим повече променливи в нашия GPA анализ, като мерки за мотивация и самодисциплина, бихме използвали това уравнение.
R-Square
R-квадрат, известен още като коефициент на определяне, е често използвана статистика за оценка на пригодността на модела на регресионно уравнение. Тоест, колко добри са всички ваши независими променливи при прогнозиране на вашата зависима променлива? Стойността на R-квадрат варира от 0,0 до 1,0 и може да се умножи по 100, за да се получи процент от промяна обяснено. Например, връщане към нашето уравнение за регресия на GPA само с една независима променлива (IQ)... Нека да кажем, че нашата R-квадрат за уравнението е 0,4. Бихме могли да интерпретираме това да означава, че 40% от дисперсията в GPA се обяснява с IQ. Ако след това добавим и другите ни две променливи (мотивация и самодисциплина) и R-квадратът се увеличава до 0.6, това означава, че IQ, мотивация и самодисциплина заедно обясняват 60% от дисперсията в GPA резултати.
Регресионните анализи обикновено се правят с помощта на статистически софтуер, като SPSS или SAS и така R-квадратът се изчислява за вас.
Тълкуване на регресионните коефициенти (б)
B коефициентите от уравненията по-горе представляват силата и посоката на връзката между независимите и зависимите променливи. Ако погледнем уравнението GPA и IQ, 1 + 0,02 * 130 = 3,6, 0,02 е коефициентът на регресия за променливата IQ. Това ни казва, че посоката на връзката е положителна, така че с IQ се увеличава, GPA също се увеличава. Ако уравнението беше 1 - 0,02 * 130 = Y, тогава това би означавало, че връзката между IQ и GPA е отрицателна.
Предположения
Има няколко предположения за данните, които трябва да бъдат изпълнени, за да се извърши линеен регресионен анализ:
- Линейност: Приема се, че връзката между независимите и зависимите променливи е линейна. Въпреки че това предположение никога не може да бъде напълно потвърдено, гледайки на a разсеяно от вашите променливи може да ви помогне да направите това определяне. Ако е налице кривина във връзката, можете да помислите за трансформиране на променливите или изрично да позволявате нелинейни компоненти.
- нормалност: Предполага се, че остатъците от вашите променливи обикновено се разпределят. Тоест грешките в прогнозирането на стойността на Y (зависимата променлива) се разпределят по начин, който се доближава до нормалната крива. Можете да погледнете хистограми или диаграми с нормална вероятност за проверка на разпределението на вашите променливи и техните остатъчни стойности.
- Независимост: Предполага се, че всички грешки в прогнозирането на стойността на Y са независими една от друга (не са свързани).
- Homoscedasticity: Приема се, че дисперсията около регресионната линия е еднаква за всички стойности на независимите променливи.
източник
- StatSoft: Учебник за електронна статистика. (2011). http://www.statsoft.com/textbook/basic-statistics/#Crosstabulationb.