Класове на хистограма: Информация и примери

Наистина няма правило колко класове трябва да има. Има няколко неща за обмисляне на броя на класовете. Ако имаше само един клас, всички данни биха попаднали в този клас. Нашата хистограма би била просто един правоъгълник с височина, дадена от броя на елементите в нашия набор от данни. Това не би било много полезно или полезна хистограма.

В другата крайност бихме могли да имаме множество класове. Това би довело до множество барове, нито един от които вероятно не би бил много висок. Би било много трудно да се определят каквито и да е отличителни характеристики от данните, като се използва този тип хистограма.

За да се предпазим от тези две крайности, имаме правило за определяне на броя класове за хистограма. Когато имаме сравнително малък набор от данни, обикновено използваме само около пет класа. Ако наборът от данни е сравнително голям, тогава използваме около 20 класа.

Отново нека се подчертае, че това е правило, а не абсолютен статистически принцип. Може да има основателни причини да има различен брой класове за данни. Пример за това ще видим по-долу.

instagram viewer

Преди да разгледаме няколко примера, ще видим как да определим какви са всъщност класовете. Започваме този процес с намирането на диапазон от нашите данни. С други думи, изваждаме най-ниската стойност на данните от най-високата стойност на данните.

Когато наборът от данни е сравнително малък, разделяме диапазона на пет. Коефициентът е ширината на класовете за нашата хистограма. Вероятно ще трябва да направим известно закръгляне в този процес, което означава, че общият брой класове може да не е пет.

Когато наборът от данни е сравнително голям, разделяме диапазона на 20. Точно както преди, този проблем с разделянето ни дава ширината на класовете за нашата хистограма. Освен това, както видяхме по-рано, нашето закръгляне може да доведе до малко повече или малко по-малко от 20 класа.

Във всеки от големите или малките случаи на набор от данни правим първия клас да започва в точка, малко по-малка от най-малката стойност на данните. Трябва да направим това по такъв начин, че първата стойност на данните да попадне в първия клас. Други следващи класове се определят от ширината, която беше зададена, когато разделихме диапазона. Знаем, че сме в последния клас, когато най-високата стойност на данните се съдържа от този клас.

За пример ще определим подходяща ширина на класа и класове за набора от данни: 1.1, 1.9, 2.3, 3.0, 3.2, 4.1, 4.2, 4.4, 5.5, 5.5, 5.6, 5.7, 5.9, 6.2, 7.1, 7.9, 8.3, 9.0, 9.2, 11.1, 11.2, 14.4, 15.5, 15.5, 16.7, 18.9, 19.2.

Виждаме, че в нашия набор има 27 точки от данни. Това е сравнително малък набор и затова ще разделим обхвата на пет. Обхватът е 19,2 - 1,1 = 18,1. Разделяме 18,1 / 5 = 3,62. Това означава, че ширина на класа от 4 би била подходяща. Най-малката ни стойност на данните е 1,1, така че започваме първия клас в точка, по-малка от тази. Тъй като нашите данни се състоят от положителни числа, би имало смисъл първият клас да премине от 0 до 4.

Да предположим, че има тест с многократен избор с 35 въпроса, а 1000 ученици от гимназията тестват. Искаме да формираме хистограма, показваща броя на учениците, постигнали определени резултати от теста. Виждаме, че 35/5 = 7 и че 35/20 = 1,75. Въпреки правилото ни, което ни дава избор на класове с ширина 2 или 7, които да използваме за нашата хистограма, може да е по-добре да имаме класове с ширина 1. Тези класове биха отговаряли на всеки въпрос, на който ученикът отговори правилно на теста. Първият от тях ще бъде центриран на 0, а последният - с 35.

instagram story viewer