Вторичная группировка. Формула Стерджесса

Вторичные группировки — результат объединения или расщепления первичных группировок, они позволяют преодолевать несопоставимость исходных данных в первичных группировках и тем самым объединять их в одну общую и выполнять сравнение, сопоставление данных, представленных в них после проведения вторичной группировки.

При разработке первичной группировки существенное значение имеет выбор числа групп. Число групп зависит от типа признака, положенного в основу группировки (основания группировки), от объема совокупности, степени вариации признака.

При построении группировок по качественному признаку количество групп соответствует количеству уровней градации признака. При группировании по количественному признаку все множество значений признака делится на интервалы. При этом возможно два подхода: группировка с равными и неравными интервалами.

Для определения этих параметров в первом случае рекомендуется формула Стерджесса:

n = 1 + (3,322× lgN), (5.1)

где N — количество наблюдений.

В этом случае величина интервала:

I = (Хmax - Xmin)/n. (5.2)

Основные этапы построения статистических группировок включают:

§ выбор группировочного признака;

§ определение необходимого числа групп, на которые следует разбить изучаемую совокупность;

§ установление границ интервалов группировки;

§ установление для каждой группировки показателей или их системы, которыми должны характеризоваться выделенные группы.

Группировка с неравными интервалами порождает массу проблем при обработке данных, поэтому следует, по мере возможности, избегать таких группировок.

 

Ряды распределения.

Рядом распределения называется упорядоченное распределение единиц совокупности на группы по какому-либо признаку. Виды рядов распределения:

§ атрибутивный;

§ вариационный;

§ дискретный;

§ интервальный.

Иными словами, ряд распределения — результат группировки. Под атрибутивным рядом понимается ряд распределения по атрибутивному признаку, не имеющему количественной меры. Например, атрибутивный ряд можно составить по признаку «Социальное положение», «Профессия», «Пол» и.т.д.

Пример 6.1. Атрибутивный ряд распределения

На предприятии провели группировку работников по признаку «Категория».

Категория Частота Частость, %
Рабочие 58,3
Служащие 16,7
ИТР 12,5
Прочие 12,5
Итого 100,0

Частота — количество элементов совокупности, которые имеют данное значение признака.

Частость — отношение частоты к общему количеству исследуемых элементов, т.е. объему совокупности. Частоту обозначим n, частость — р или j.

 

Пример 6.2. Пример дискретного ряда.

Успеваемость в группе студентов-экономистов из 15 человек по одному из предметов.

Оценки Частота Частость , %
13,3
26,7
33,3
26,7
Итого 100,0

В интервальном ряду значение признака представляется в виде интервалов.

Пример 6.3. Пример интервального ряда

Заработная плата, руб. Частота Частость, %
100—200
200—300
300—400
400—500
500—600
Итого

Важно помнить: в интервальном ряду в качестве основного показателя интервала используется середина интервала х.

Для наглядного представления вариационных рядов используют графические методы: полигоны частот, гистограммы, кумулятивные кривые и т.п. Линейчатые и круговые диаграммы строятся для отображения структуры совокупности.

Наряду с диаграммами для наглядного представления распределения признака применяют такие линии, как полигон, кумулята, огива и др.

Полигон — ломаная кривая, строящаяся на основе прямоугольной системы координат, когда по оси X откладываются значения признака, а по оси Y — частоты.

Гладкая кривая, соединяющая точки, — эмпирическая плотность распределения.

Кумулята — ломаная кривая, строящаяся на основе прямоугольной системы координат, когда по оси X откладываются значения признака, а по оси Y — накопленные частоты.

Для дискретных рядов на оси откладываются сами значения признака, а для интервальных — середины интервалов.

На основе гистограмм можно строить диаграммы накопленных частот с последующим построением интегральной эмпирической функции распределения.