Способы группировки первичных данных
Зафиксированные в документах учета сведения об изучаемом объекте (или объектах) представляют тот фактический материал, который нуждается в соответствующей обработке. Обработка начинается с упорядочения или систематизации собранных данных. Процесс систематизации результатов массовых наблюдений, объединения их в относительно однородные группы по некоторому признаку называется группировкой.
Группировка - это не просто технический прием, позволяющий представить первичные данные в комплексном виде, но и осмысленное действие, направленное на выявление связи между явлениями. Один и тот же материал дает совершенно противоположные выводы при разных приемах группировки. Нельзя группировать в одну и ту же совокупность неоднородные по составу данные, необдуманно выбирать способ группировки. Группировка должна отвечать требованию задачи и соответствовать содержанию изучаемого явления.
Таблицы. Наиболее распространенной формой группировки являются статистические таблицы; они бывают простыми и сложными. К простым относятся, например, четырехпольные таблица, применяемые при альтернативной группировке, когда одна группа переменных противопоставляется другой; например, здоровые - больным, высокие - низким и т.д.
Школьные классы | Детей | Всего | |
Здоровых | Больных | ||
Третьи и четвертые | |||
Пятые и шестые | |||
Всего |
К сложным относятся многопольные таблицы, применяемые при изучении корреляционной зависимости и при выяснении причинно-следственных отношений между варьирующими признаками. Примером корреляционной таблицы служат данные, показывающие наличие положительной зависимости между ростом родителей и ростом их детей.
В качестве примера группировки, применяемых при выяснении причинно-следственных отношений между признаками, можно привести следующую зависимость:
Биотопы | Среднее | |||
лес | ||||
поле | ||||
дом |
Из примеров видно, что статистические таблицы имеют не только иллюстративное, но и аналитическое значение, позволяющее обнаруживать связи между варьирующими признаками.
Статистические ряды. Особую форму группировки представляют так называемые статистические ряды. Статистическим называется ряд числовых значений признака расположенных в определенном порядке. В зависимости от того, какие признаки изучаются, статистические ряды делят на атрибутивные, вариационные, ряды динамики и регрессии, а также ряды ранжированнных значений признаков и ряды накопленных частот, являющихся производными вариационных рядов. Примером атрибутивного ряда могут служить данные, показывающие зависимость между содержанием гемоглобина в крови и высотой организации позвоночных животных.
Класс животных | Рыбы | Амфибии | Рептилии | Птицы | Млекопитающие |
Кол-во Hb (г/кг массы) | 1.6 | 2.9 | 3.8 | 11.2 | 11.7 |
Среди группировок видное место занимают вариационные ряды. На их описании следует остановиться более подробно. Ряды регрессии, динамики и другие мы разберем на следующих лекциях.
Вариационным рядом или рядом распределения называют двойной ряд чисел, показывающий, каким образом числовые значения признака связаны с их повторяемостью в данной статистической совокупности. Например, из урожая картофеля, собранного на огороде, случайным образом отобрано 10 клубней, в которых подсчитывали число глазков. Результаты подсчета оказались следующие: 6, 9, 5, 7, 10, 8, 9, 10, 8, 11. Чтобы разобраться в этих данных, расположим их в ряд (в порядке регистрации результатов наблюдений) с учетом повторяемости вариант в совокупности.
Варианты (х) | |||||||
Число вариант (f) |
Это и есть вариационный ряд. Числа, показывающие, сколько раз отдельные варианты встречаются в данной совокупности называются частотами или весами вариант и обозначаются строчной буквой латинского алфавита f. Общая сумма частот вариационного ряда равна объему данной совокупности.
Частоты (веса) выражают не только абсолютными, но и относительными числами - в долях единицы или в процентах от общей численности вариант, составляющих данную совокупность. В таких случаях веса называют относительными частотами или частостями.
Распределение исходных данных в вариационный ряд преследует определенные цели. Одна из них ускорение работы при вычислении по вариационному ряду обобщающих числовых характеристик - средней величины и показателей вариации. Другая сводится к выявлению закономерности варьирования учитываемого признака. Приведенный ряд удовлетворяет первой, но не удовлетворяет достижению второй цели. Чтобы ряд распределения полностью удовлетворял предъявляемым к нему требованиям, его нужно строить по ранжированным значениям признака.
Под ранжированием понимают расположение членов ряда в возрастающем (или убывающем) порядке. Так, в данном случае результаты наблюдений следует расположить так:
Варианты (х) | |||||||
Число вариант (f) |
В зависимости от того, как варьирует признак - дискретно или непрерывно, в широком или узком диапазоне, - статистическая совокупность распределяется в безынтервальный или интервальный вариационные ряды. В первом случае частоты относятся непосредственно к ранжированным значениям признака, которые приобретают положение отдельных групп или классов вариационного ряда, во втором - подсчитывают частоты, относящиеся к отдельным промежуткам или интервалам (от - до), на которые разбивается общая вариация признака в пределах от минимальной до максимальной варианты данной совокупности. Эти промежутки могут быть равными и не равными по ширине. Отсюда различают равно- и неравноинтервальные вариационные ряды. Примером неравноинтервального ряда могут служить данные показывающие зависимость между числом стай каких-то птиц и количеством особей в стае в гнездовой и послегнездовой период.
В неравноинтервальных рядах характер распределения частот меняется по мере изменения ширины классовых интервалов. Поэтому в качестве числовых характеристик таких рядов используют особые показатели.
Неравноинтервальную группировку в биологии применяют сравнительно редко. Как правило данные располагаются в равноинтервальные ряды, что позволяет не только выявить закономерность варьирования, но и облегчает вычисление сводных числовых характеристик вариационного ряда, сопоставление рядов распределения друг с другом.
Приступая к построению равноинтервального вариационного ряда, важно правильно наметить ширину классового интервала. Дело в том, что грубая группировка (когда устанавливают очень широкие классовые интервалы) искажает типичные черты варьирования и ведет к снижению точности числовых характеристик. При выборе чрезмерно узких интервалов точность обобщающих числовых характеристик повышается, но ряд получается слишком растянутым и не дает четкой картины варьирования.
Для получения хорошо обозримого вариационного ряда и обеспечения достаточной точности вычисляемых по нему числовых характеристик следует разбить вариацию признака (в пределах от минимальной до максимальной варианты) на такое число групп или классов, которое удовлетворяло бы обоим требованиям. Эту задачу решают делением размаха варьирования признака на число групп или классов, намечаемых при построении вариационного ряда:
l=(хmax-хmin)/k,
где l - величина классового интервала;
k - число классов, на которые следует разбить вариацию признака.
Число классов можно приблизительно наметить, пользуясь таблицей:
Число наблюдений | Число классов |
25-40 | 5-6 |
40-60 | 6-8 |
60-100 | 7-10 |
100-200 | 8-12 |
>200 | 10-15 |
Более точно величину К можно определить по формуле Стерджеса: К=1+3.32*lg n. При наличии в совокупности большого числа членов (больше 100) можно использовать формулу К=5*lg n.