Группировка статистических данных

 

Группировка – это распределение единиц совокупности по группам в соответствии с группировочным признаком. Назначение группировки состоит в том, что этот метод обеспечивает обобщение данных, представление их в компактном, обозримом виде. На основе группировки рассчитываются сводные показатели по группам, появляется возможность их сравнения, изучения взаимосвязей между признаками.

Различия в целевом назначении группировки выражаются в существующей в статистике классификации группировок: типологические, структурные, аналитические.

При осуществлении любой группировки решается вопрос об определении числа выделяемых групп. При группировке по количественному признаку вопрос о числе групп решается на основе выделения однородных, близких по значению признака единиц совокупности. Необходимо, чтобы каждая группа характеризовала существенные типы явления. Число единиц в выделенных группах должно быть достаточным, чтобы характеристики, рассчитанные для отдельных групп были статистически устойчивыми. Количество выделяемых групп зависит от вариации признака, числа наблюдений, а также от количества отдельных возможных значений признака, т.е. от числа вариант признака. При небольшом числе вариант признака, положенного в основу группировки, каждая варианта представляет отдельную группу.

Если число вариант велико, то значения группировочного признака для отдельных групп указываются в интервалах «от – до». Для этого всю область изменения признака разбивают на несколько интервалов и считают, сколько элементов попадает в отдельный интервал. Интервалы могут быть равными и неравными, открытыми и закрытыми.

Группировку с неравными интервалами надо использовать, если размах вариации признака в совокупности велик, неравные интервалы применяются как прогрессивно возрастающие или убывающие. В этом случае границы каждого интервала устанавливаются исследователем. Однако необходимо учесть, что наличие равных интервалов технически значительно облегчает вычисление различных статистических характеристик.

Равные интервалы применяются в случаях, когда изменение признака внутри совокупности происходит равномерно. Расчет величины интервала при равных интервалах производится по формуле

,

где D – величина отдельного интервала;

xmax – максимальное значение признака в исследуемой совокупности,

xmin – минимальное значение признака в исследуемой совокупности.

K – число групп, определяемое по формуле Стерджесса:

 

,

где N – число единиц совокупности.

 

Затем определяются границы каждого интервала:

для первого интервала: от xmin до xmin +D;

для второго интервала: от xmin + D до xmin + 2D ;

........................................................................

для интервала: K от xmin + KD до xmax.

Существуют 4 типа группировок: типологическая, структурная, аналитическая и комбинационная.

Типологическая группировка служит для выявления типов элементов явлений.

Структурная группировка служит для исследования совокупности по одному признаку.

После того, как в результате сводки статистические данные сгруппированы, они, как правило, представляются в виде таблицы. Макет таблицы для представления результатов структурной группировки может выглядеть следующим образом:

Таблица № – Результаты структурной равноинтервальной группировки

Границы интервалов группировочного признака, (единицы измерения) Количество единиц совокупности в отдельной группе В процентах к итогу
...   ... ...
...   ... ...
...   ... ...
Итого Общее число элементов совокупности

В первой графе указываются варианты (интервалы) значений признака для отдельных групп по возрастанию или убыванию.

Аналитические группировки служат для выявления аналитической зависимости между группировочными признаками. При построении аналитических группировок важно правильно определить признак-результат и признак-фактор.

Признак, влияние которого на другие признаки исследуется, называется признаком-фактором. Признак, испытывающий влияние факторного, называется признаком-результатом. Чтобы установить связь между признаками аналитическая группировка осуществляется по признаку-фактору. Затем по каждой группе отбираются соответствующие значения признака-результата и рассчитывается его среднее значение. Сопоставляя изменение средних значений признака-результата от группы к группе с изменениями признака-фактора можно сделать вывод о наличии или отсутствии взаимосвязи, а также о ее направлении. Различие групповых средних позволяет утверждать, что признаки взаимозависимы. Если изменение величины признака-фактора в определенном направлении вызывает изменение величины признака-результата в том же направлении, то связь прямая, в противном случае - связь обратная.

Результаты аналитической группировки могут быть представлены в виде таблицы:

 

Таблица № – Результаты аналитической группировки

Границы интервалов признака-фактора (единица измерения) Количество единиц выборки в отдельной группе Среднее значение признака-результата (единица измерения)
...   ... ...
...   ... ...
...   ... ...
Итого Общее число элементов совокупности -

В первой графе указываются варианты (интервалы) значений признака-фактора для отдельных групп по возрастанию или убыванию.

Проследить зависимость между факторами можно также на основе комбинационной группировки. Комбинационная группировка осуществляется одновременно по двум и более признакам, взятым в сочетании.

Макет комбинационной таблицы выглядит следующим образом:

 

Таблица № – Результаты комбинационной группировки

Группировка по признаку- Группировка по признаку-результату Всего
фактору            
  n11 n12 ... n1M Sn1j  
  n21 n22 ... n2M Sn2j  
  ... ... ... ... ...  
  nK1 nK2 ... NKM SnMj  
Всего Sni1 Sni2 ... SniK Snij  

 

Здесь nij - частота совместного появления значения i признака-фактора (i = 1, 2,..,M) и значения j признака результата (j = 1,2,...,K).

Если наибольшие частоты каждой строки и каждого столбца располагаются вдоль диагонали таблицы, идущей от левого верхнего угла таблицы к правому нижнему, то можно сделать вывод, что связь между признаками является прямой и близкой к линейной.

Если наибольшие частоты располагаются вдоль диагонали от правого верхнего угла к нижнему левому, то связь – обратная и близкая к линейной.

Если частоты во всех клетках таблицы примерно одинаковы, то связи между признаками нет.


Контрольное задание 1

На основе данных о деятельности 30 производственных предприятий, приведенных в таблице 2 и соответствующих Вашему варианту (таблица 1), выполнить:

1. Структурную равноинтервальную группировку по обоим признакам. Если вариация группировочного признака значительна и его значение для отдельных групп необходимо представить в виде интервалов, то при построении группировки принять число групп равным 5. Результаты представить в таблице, сделать выводы.

2. Аналитическую группировку, считая первый показатель признаком-фактором, а второй – признаком-результатом, при числе групп, равном 5

Результаты группировки представить в таблице. Сделать выводы о наличии и направлении взаимосвязи между признаками.

3. Комбинационную группировку по признаку-фактору и признаку-результату. Сделать выводы.

 

Таблица 1 – Таблица данных для формирования статистической совокупности

Последняя цифра зачетной книжки Номер первого признака Номера признаков из приложения А

 

Таблица 2 – Показатели деятельности 30 производственных предприятий