Някои разпространения на данни, като например крива на звънеца или нормална дистрибуция, са симетрични. Това означава, че отдясно и отляво на разпределението са перфектни огледални изображения един на друг. Не всяко разпространение на данни е симетрично. Наборите от данни, които не са симетрични, се казва, че са асиметрични. Мярката за това колко асиметрично може да бъде разпределение се нарича косост.
Средната, средната и режимът са всички мерки на центъра на набор от данни. Изкривеността на данните може да се определи от това как тези количества са свързани помежду си.
Наклонен надясно
Данните, които са изкривени вдясно, имат дълга опашка, която се простира вдясно. Алтернативен начин да се говори за набор от данни, изкривен вдясно, е да се каже, че той е изкривен положително. В тази ситуация, средното и Медиана и двете са по-големи от режима. Като общо правило, през повечето време за данни, изкривени вдясно, средната стойност ще бъде по-голяма от средната. В обобщение, за набор от данни, изкривен вдясно:
- Винаги: средно по-голямо от режима
- Винаги: средна по-голяма от режима
- През повечето време: средно по-голямо от средно
Свива се вляво
Ситуацията се обръща, когато имаме работа с данни, изкривени вляво. Данните, които са изкривени вляво, имат дълга опашка, която се простира вляво. Алтернативен начин да се говори за набор от данни, изкривен вляво, е да се каже, че той е отрицателно изкривен. В тази ситуация средната стойност и средната стойност са по-малко от режима. Като общо правило, през повечето време за данни, изкривени вляво, средната стойност ще бъде по-малка от средната. В обобщение, за набор от данни, изкривен вляво:
- Винаги: означава по-малко от режима
- Винаги: средна по-малко от режима
- През повечето време: средно по-малко от средно
Мерки за Skewness
Едно е да разгледаме два набора данни и да определим, че единият е симетричен, а другият - асиметричен. Друго е да погледнете два набора от асиметрични данни и да кажете, че единият е по-изкривен от другия. Може да бъде много субективно да се определи кое е по-изкривено, като просто погледнете графиката на разпределението. Ето защо има начини за изчисляване на числеността на кривата.
Една мярка на косост, наречена първият коефициент на косост на Пиърсън, е да се извади средната стойност от режима и след това да се раздели тази разлика на стандартно отклонение от данните. Причината за разделянето на разликата е така, че имаме безразмерно количество. Това обяснява защо данните, изкривени вдясно, имат положителна склонност. Ако наборът от данни е изкривен вдясно, средната стойност е по-голяма от режима и така изваждането на режима от средната дава положително число. Подобен аргумент обяснява защо данните, изкривени вляво, имат отрицателна склонност.
Вторият коефициент на наклонение на Пиърсън също се използва за измерване на асиметрията на набор от данни. За това количество изваждаме режима от медианата, умножаваме това число по три и след това разделяме на стандартното отклонение.
Приложения на Skewed Data
Скритите данни възникват съвсем естествено в различни ситуации. Доходите са изкривени вдясно, защото дори само няколко лица, които печелят милиони долари, могат да повлияят значително на средната стойност и няма отрицателни доходи. По същия начин, данните, свързани с продължителността на даден продукт, като марка на крушката, са изкривени вдясно. Тук най-малкото, което може да бъде целия живот, е нула, а дълготрайните крушки ще придадат положителна склонност към данните.