Группировка материала статистических наблюдений

Измеряя характеристики объекта, исследователь собирает пер­вичный статистический материал. Дальнейшая его задача состоит в систематизации и обобщении результатов измерения для выявле­ния характерных черт, существенных свойств тех или иных типов Явлений, обнаружения закономерностей изучаемых процессов и про­верки гипотез, лежащих в основе исследования. В основе исполь­зуемых методов обработки полученных материалов исследования лежит предварительное упорядочение первичных данных главным образом при помощи статистической группировки и составления статистических таблиц.

 

Статистическая группировка.

Распределение изучаемой совокуп­ности на однородные группы по существенным для нее признакам (характеристикам) называется статистической группировкой.

Основное назначение группировки состоит, во-первых, в уста­новлении численности каждой отдельно взятой части совокупности, расчленённой в соответствии со значениями определенного признака (или нескольких признаков), и, во-вторых, в изучении влияния причин и зависимости явлений.

Главным вопросом метода группировки является правильный выбор группировочных признаков. Могут быть получены превосход­ные данные, по эти сведения пропадут совсем, если их группировка будет произведена неправильно. Поэтому при выборе признаков для отграничения явлений одного типа от явлений других типов необхо­димо руководствоваться не субъективными построениями, а содер­жательным анализом особенностей социальных явлений, задачами исследования, а также видом признаков, с которыми имеет дело исследователь. Основные группировки должны тщательно разрабатываться уже при составлении программы социологического исследования с необходимостью отражать ключевые гипотезы.

Ряды распределения.

Результат группировки единиц наблюдения по какому-либо признаку называется статистическим рядом. Обозначим группировочный признак х. Пусть это будет уровень образова­ния каждого человека в данном списке лиц. Получим неупорядочен­ный ряд результатов отдельных наблюдений: 10, 5, 7, 8, 10, 10 10 (классы). Если отдельные наблюдения расположить в порядке воз­растания указанных выше значений признака, то получим вариаци­онный ряд: 5, 7, 8, 10, 10, 10, 10.

По вариационному ряду количественного признака можно под­считать, как часто каждое значение этого признака встречается в совокупности. В результате получим частотное распределение для данного признака. Иногда его называют эмпирическим или стати­стическим распределением. Для вышеприведенного примера частотное распределение выглядит так:

Условимся каждое, отдельное значение признака х обозначать х1, х2,… , xk (в данном примере это 5, 7, 8, 9 и 10 классов).

Абсолютное число, показывающее, сколько раз встречается то или иное значение признака х, называется частотой и обозначается соответственно n1, n2, ..., nk.

Относительной частотой называется доля значений признака в общем числе наблюдений и обозначается m1, .,., mk.

Например, для приведенного частотного ряда частота наиболь­шего значения признака (10 классов) равна 4, а относительная частота m5 = 4/8 = 0,5. Относительную частоту обычно выражают в процентах (mk = 50%).

Сгруппированные данные. Как правило, для последующей статистической обработки или более наглядного представления данных отдельные значения признаков объединяются в группы (интервалы). В этом случае частоты соотносят уже не с каждым отдельным зна­чением признака, как это делалось в предыдущем примере, а с ря­дом значений, попадающих в определенный интервал.

Например, распределение уровня образования в вышеприведенном примере может быть представлено в виде интервального ряда следующим образом:

Частотное распределение с не сгруппированными значениями иногда называют дискретным рядом распределения.

При построении интервальных рядов большое значение имеет выбор типа, количества и размеров интервалов. Общее требование к этому выбору состоит в том, что группировка должна наиболее полно выявлять существенные свойства рядов распределения.

Существующие формальные правила выбора оптимальной вели­чины интервалов редко оказываются полезными при работе с социо­логическими данными13. Как правило, приходится делать выбор между двумя крайностями: слишком крупные интервалы для дан­ного объема выборки скрадывают многие нюансы в описании явле­ния, а слишком дробные ведут к статистически незначимым малым частотам внутри интервала.

Интервальные ряды распределения могут строиться с равными и неравными интервалами. Неравные интервалы применяются при неравномерном распределении частот значений группировочного признака — для выделения качественно отличных типов явлений. Например, выбор интервалов при группировке данных распределения совокупности опрошенных по возрасту можно основываться на этапах жизненного цикла. При группировке семей по признаку «число книг в семье», опираясь на информацию ранее проведенных исследований о том, что чаще всего встречаются библиотеки с чис­лом книг по 500 и реже — библиотеки, насчитывающие 10000 книг, целесообразно установить неравные интервалы группировки, напри­мер такие: 1—50, 51—100, 101—200, 201—300, 301—500, 501—700, 701-1000, 1001-2000, 2001—5000, 5001-10000.

Если у исследователя нет предварительной информации, о харак­тере распределения по тому или иному признаку, то следует зада­вать равные интервалы. Равные интервалы также наиболее удобны при использовании методов математической статистики. Опыт пока­зывает, что по каждому из признаков не следует брать более 20 группировочных интервалов.

При образовании интервалов необходимо точно обозначить коли­чественные границы группы, избегая таких обозначений границ интервалов, при которых отдельные единицы совокупности могут быть отнесены в две соседние группы. Поэтому, как правило, необ­ходимы дополнительные указания о том, считать ли граничные значения интервалов «включительно» или «исключительно».

Довольно часто социологу приходится сталкиваться с ситуацией, когда необходимо провести перегруппировку материала, задав дру­гие интервалы, но нет возможности при этом обратиться к перво­начальным статистическим данным.

При расщеплении интервала на несколько частей приходится вводить априорное предположение о частотном распределении внут­ри интервала, поскольку истинное распределение неизвестно. Самым простым является предположение о равномерности частотного рас­пределения по отдельным значениям признака. Другие формы распределения требуют достаточно громоздких вычислений14.

Статистические таблицы.

Предусмотренные программой исследо­вания и методиками обработки группировки объектов по каждому из признаков кладутся в основу статистических таблиц, обобщаю­щих исходные данные.

В дальнейшем составляют более сложные таблицы, позволяющие сопоставлять ряды распределений, и, наконец, комбинационные таблицы, в которых три или более признака перекрещиваются, ком­бинируются. По таким таблицам устанавливаются, измеряются и анализируются связи между признаками исследуемой совокупности объектов.

Построение таблицы подчинено определенным правилам. Основ­ное содержание таблицы должно быть отражено в названии (круг рассматриваемых вопросов, географические границы статистической совокупности, время, единицы измерения). Таблицы бывают простые, групповые и комбинационные.

Простые таблицы представляют собой перечень, список, отдельных единиц совокупности о количественной (или качественной) характеристикой каждой из них в отдельности.

В групповых таблицах содержится группировка единиц совокуп­ности по одному признаку, а в комбинационных — по двум и более признакам.

Примером комбинационной разработки статистической таблицы может служить табл. 1.

Такая таблица представляет собой нечто гораздо большее, чем простой перечень данных, она является способом и вместе с тем результатом определенной организации данных. Хорошо сконструи­рованная таблица позволяет исследователю более четко представить и описать смысл и сущность изучаемого им социального явления.

Таким образом, метод группировки и представление материала в виде статистических таблиц уже дают определенные возможности для изучения социологических данных. С другой стороны, он является совершенно необходимым средством для дальнейшего анализа и применения более тонких статистических методов.