Анализът на клъстерите е статистическа техника, използвана за идентифициране на това как различните звена - като хора, групи или общества - могат да бъдат групирани заедно поради характеристиките, които имат общо. Известен също като клъстеринг, той е инструмент за проучване на данни, който има за цел да сортира различни обекти в групи по такъв начин, че когато те принадлежат към една и съща група, те имат максимална степен на асоцииране и когато не принадлежат към една и съща група, степента им на асоцииране е минимален. За разлика от някои други статистически техники, структурите, които са разкрити чрез клъстер анализ, не се нуждаят от обяснение или интерпретация - той открива структура в данните, без да обяснява защо съществуват.
Какво е клъстеризация?
Клъстеризирането съществува в почти всеки аспект от нашето ежедневие. Вземете например вещи в магазин за хранителни стоки. Различните видове предмети винаги се показват на едни и същи или близки места - месо, зеленчуци, сода, зърнени храни, хартиени изделия и др. Изследователите често искат да направят същото с данни и да групират обекти или теми в клъстери, които имат смисъл.
За да вземем пример от социалната наука, нека да кажем, че разглеждаме страни и искаме да ги групираме в клъстери въз основа на характеристики като разделение на труда, военни, технологично или образовано население. Ще открием, че Великобритания, Япония, Франция, Германия и САЩ имат сходни характеристики и биха били обединени заедно. Уганда, Никарагуа и Пакистан също биха били групирани в различен клъстер, тъй като те имат различен набор от характеристики, включително ниско ниво на богатство, по-опростено разделение на труда, сравнително нестабилни и недемократични политически институции и ниски технологични развитие.
Кластерният анализ обикновено се използва в проучвателната фаза на изследване, когато изследователят няма такива предварително замислени хипотези. Обикновено не е единственият използван статистически метод, но по-скоро се прави в ранните етапи на проекта, за да се помогне да се ръководи останалата част от анализа. Поради тази причина тестът за значимост обикновено не е подходящ, нито е подходящ.
Има няколко различни типа клъстер анализ. Двете най-често използвани са к-групиране и йерархично групиране.
К-означава клъстериране
К-означава клъстеринг третира наблюденията в данните като обекти с местоположение и разстояния един от друг (имайте предвид, че разстоянията, използвани в клъстерирането, често не представляват пространствени разстояния). Той разделя обектите на K взаимно изключващи се клъстери, така че обектите във всеки клъстер да са като възможно най-близо и едновременно, колкото се може по-далеч от обекти в други клъстери. След това всеки клъстер се характеризира със своя средна или централна точка.
Йерархична клъстеризация
Йерархичното клъстериране е начин да се изследват групирането в данните едновременно на различни мащаби и разстояния. Това прави, като създава клъстерно дърво с различни нива. За разлика от групирането с K-означава, дървото не е единичен набор от клъстери. По-скоро дървото е многостепенна йерархия, при която клъстерите на едно ниво са обединени като клъстери на следващото по-високо ниво. Използваният алгоритъм започва с всеки случай или променлива в отделен клъстер и след това комбинира клъстери, докато не остане само един. Това позволява на изследователя да реши кое ниво на групиране е най-подходящо за неговото изследване.
Извършване на клъстер анализ
най-много софтуер за статистика може да извърши клъстер анализ. В SPSS изберете анализирам от менюто, след това класифицираме и клъстер анализ. В SAS, the proc клъстер може да се използва функция.
Актуализирано от Ники Лиза Коул, доктор на науките