Една от характеристиките на набора от данни, която е важно да се определи, е дали тя съдържа външни средства. Интуитивно се смята, че хората, които се отличават, се оценяват като стойности в нашия набор от данни, които се различават значително от повечето от останалите. Разбира се, това разбиране на външните хора е нееднозначно. За да се счита за външен човек, колко трябва да се отклонява стойността от останалите данни? Това, което един изследовател нарича чужд, ще съвпадне с друг? За да осигурим известна последователност и количествена мярка за определяне на външните хора, използваме вътрешни и външни огради.
За да намерим вътрешните и външните огради на набор от данни, първо се нуждаем от няколко други Описателна статистика. Ще започнем с изчисляването на квартилите. Това ще доведе до интерквартилния диапазон. И накрая, с тези изчисления зад нас ще можем да определим вътрешните и външните огради.
четвъртини
Най- първи и трети квартил са част от резюме на пет числа на всеки набор от количествени данни. Започваме с намирането на средната или средната точка на данните, след като всички стойности са изброени във възходящ ред. Стойностите, по-малки от средната, съответстваща на приблизително половината от данните. Намираме средната стойност на тази половина от набора от данни и това е първият четвърт.
По подобен начин сега разглеждаме горната половина на набора от данни. Ако намерим средната за тази половина от данните, тогава имаме третите четирийки. Тези квартили получават името си от факта, че разделят набора от данни на четири части с еднаква големина, или четвъртинки. Така че с други думи, приблизително 25% от всички стойности на данните са по-малко от първото тримесечие. По подобен начин приблизително 75% от стойностите на данните са по-малко от третото тримесечие.
Интерквартирен обхват
След това трябва да намерим интерквартирна гама (IQR). Това е по-лесно да се изчисли от първия квантил р1 и третия квартал р3. Всичко, което трябва да направим, е да вземем разликата между тези два квартила. Това ни дава формулата:
IQR = Q3 - Q1
IQR ни казва колко е разпространена средната половина от нашия набор от данни.
Намерете вътрешните огради
Вече можем да намерим вътрешните огради. Започваме с IQR и умножаваме това число по 1,5. След това изваждаме това число от първия кватил. Ние също добавяме това число към третия квартал. Тези две числа образуват нашата вътрешна ограда.
Намерете Външните огради
За външните огради започваме с IQR и умножаваме това число по 3. След това изваждаме това число от първия кватил и го добавяме към третия кватил. Тези две числа са нашите външни огради.
Откриване на Outliers
Откриването на големите различия в стойностите сега става толкова лесно, колкото да се определи къде се намират стойностите на данните във връзка с нашите вътрешни и външни огради. Ако една стойност на данните е по-екстремна от която и да е от нашите външни огради, тогава това е външно вещество и понякога се обозначава като силен външен човек. Ако стойността на данните ни е между съответна вътрешна и външна ограда, тогава тази стойност е подозрителна външна или лека форма. Ще видим как става това с примера по-долу.
пример
Да предположим, че сме изчислили първото и третото тримесечие на нашите данни и сме намерили тези стойности съответно на 50 и 60. Интерквартилният диапазон IQR = 60 - 50 = 10. След това виждаме, че 1,5 x IQR = 15. Това означава, че вътрешните огради са на 50 - 15 = 35 и 60 + 15 = 75. Това е 1,5 x IQR по-малко от първия Qutile и повече от третия Qutile.
Сега изчисляваме 3 x IQR и виждаме, че това е 3 x 10 = 30. Външните огради са 3 x IQR по-екстремни в сравнение с първия и третия квартил. Това означава, че външните огради са 50 - 30 = 20 и 60 + 30 = 90.
Всички стойности на данните, по-малки от 20 или по-големи от 90, се считат за извънредни. Всякакви стойности на данни, които са между 29 и 35 или между 75 и 90, се подозират, че са остарели.