Определяне на отличниците в статистиката

click fraud protection

Отрайните са стойности на данните, които се различават значително от по-голямата част от набор от данни. Тези стойности са извън общата тенденция, която присъства в данните. Внимателното разглеждане на набор от данни, за да се търсят хора с извънредни условия, създава известни затруднения. Въпреки че е лесно да се види, евентуално чрез използването на стволова машина, че някои стойности се различават от останалите данни, колко различна трябва да бъде стойността, за да се счита за външна? Ще разгледаме конкретно измерване, което ще ни даде обективен стандарт за това, което представлява външен вид.

Интерквартирен обхват

Най- интерквартирна гама е това, което можем да използваме, за да определим дали екстремната стойност наистина е по-далечна. Интерквартилната гама се основава на част от резюме с пет числа на набор от данни, а именно първа квартила и трета квартила. Изчисляването на интерквартилния обхват включва една единствена аритметична операция. Всичко, което трябва да направим, за да намерим интерквартилния диапазон, е да извадим първия кватил от третия кватил. Получената разлика ни показва колко е разпространена средната половина на нашите данни.

instagram viewer

Определяне на остатъците

Умножаването на интерквартилния диапазон (IQR) на 1,5 ще ни даде начин да определим дали определена стойност е по-различна. Ако извадим 1,5 x IQR от първия четвърт, всички стойности на данните, по-малки от това число, се считат за извънредни. По същия начин, ако добавим 1,5 x IQR към третото тримесечие, всички стойности на данните, които са по-големи от това число, се считат за извънредни.

Силни отшелници

Някои от хората, които са останали, показват изключително отклонение от останалата част от набор от данни. В тези случаи можем да предприемем стъпките отгоре, като променим само числото, на което умножаваме IQR по и определяме определен тип външни. Ако извадим 3.0 x IQR от първата четвъртина, всяка точка, която е под това число, се нарича силна външна стойност. По същия начин добавянето на 3.0 x IQR към третия квартал ни позволява да определим силни атрибути, като разгледаме точки, които са по-големи от това число.

Слаби отличници

Освен силни отшелници, има и друга категория за отшелници. Ако стойността на данните е външна, но не и силна, тогава казваме, че стойността е слаба външна стойност. Ще разгледаме тези понятия, като проучим няколко примера.

Пример 1

Първо, да предположим, че имаме набор от данни {1, 2, 2, 3, 3, 4, 5, 5, 9}. Числото 9 със сигурност изглежда, че може да е извънредно. Тя е много по-голяма от всяка друга стойност от останалата част от комплекта. За да определим обективно дали 9 е външно, използваме горните методи. Първият Qutile е 2, а третият Qutile е 5, което означава, че междуквартилният обхват е 3. Умножаваме интерквартилния диапазон по 1,5, получавайки 4,5, след което добавяме това число към третия четвърт. Резултатът, 9.5, е по-голям от всеки от нашите стойности на данни. Следователно няма остатъци.

Пример 2

Сега разглеждаме същия набор от данни като преди, с изключение на това, че най-голямата стойност е 10, а не 9: {1, 2, 2, 3, 3, 4, 5, 5, 10}. Първият квартил, третият трикол и интерквартилният диапазон са идентични с пример 1. Когато добавим 1,5 x IQR = 4,5 към третото тримесечие, сумата е 9,5. Тъй като 10 е по-голямо от 9,5, той се счита за външен.

10 е силен или слаб външен? За това трябва да разгледаме 3 x IQR = 9. Когато добавим 9 към третия четвърт, завършваме с сума от 14. Тъй като 10 не е по-голям от 14, не е силен външен вид. Така стигаме до заключението, че 10 е слаба външност.

Причини за идентифициране на остатъците

Винаги трябва да бъдем нащрек за хората, които са извън границите. Понякога те са причинени от грешка. В други времена отшелниците показват наличието на неизвестно досега явление. Друга причина, поради която трябва да бъдем внимателни при проверката за външни хора, е заради всички Описателна статистика които са чувствителни към външните хора. Средната, стандартно отклонение и коефициент на корелация за сдвоени данни са само няколко от тези видове статистика.

instagram story viewer