Структурные средние величины (мода и медиана)

 

Средние, о которых шла речь в предыдущих параграфах данной темы, являются обобщающими статистическими характеристиками изучаемого массового явления (совокупности) по тому или иному варьирующему признаку и одновременно своего рода абстракцией. Они отражают то общее, что присуще всем единицам совокупности. При этом может случиться, что величина средней не имеет точного равенства ни с одним из конкретных встречающихся в совокупности вариантов (значений единиц совокупности по признаку). Например, изучается распределение семей по количеству членов семьи:

 

Число членов семьи
Число семей

Среднее число членов семьи равно 3,81. Дробного числа членов семьи не может быть. Средняя показывает некоторое центральное значение, около которого группируются реально существующие варианты.

Поэтому наравне со средними в качестве общих статистических характеристик изучаемого признака могут быть использованы величины конкретных вариантов, занимающих в ранжированном (построенном в прядке возрастания или убывания) ряду индивидуальных значений признака определенное положение.

В статистических исследованиях в качестве вспомогательных описательных статистических характеристик распределения варьирующего признака широко применяются мода и медиана.

Модой в статистике называется величины признака (варианта), которая чаще всего встречается в данной совокупности. Обозначаются символом .

Медианой в статистике называется варианта, которая находится в середине вариационного ряда. Медиана делит ряд пополам. Обозначают медиану символом .

Определение моды и медианы в дискретном ряду, где значения признака заданы определенными числами, не представляет большой трудности.

В рассмотренном примере наиболее часто встречаются семьи, имеющие 4 члена семьи, т.е. =4 (семья имеющая 4 члена семьи).

Могут быть распределения, где все варианты встречаются одинаково часто. В этом случае моды нет. В других случаях не одна, а две варианты могут иметь наибольшие частоты. Тогда у признака будут две моды и распределение будет бимодальным.

Чтобы найти медиану в дискретном ряду, нужно сумму частот разделить пополам и к полученному результату добавить ½ или, что то же самое использовать формулу

.

 

Для нашего примера . Такой номер семьи делит ряд пополам. Поскольку частоты с дробным номером не бывают, то медиана находиться посредине между 50-й и 51-й частотами. Затем по накопленным частотам (частостям) определяют величину варианта (признака), обладающего таким номером.

 

Число членов семьи Число семей (частоты) Накопленные частоты
Всего -

 

В нашем примере 50-й и 51-й члены ряда имеют число семьи 4, т.е. =4 члена семьи.

Однако если единиц (частот) в совокупности достаточно много и различия между величинами рядом стоящих членов ряда небольшие, то можно считать медианой (с достаточной степенью точности) один из центральных вариантов с порядковым номером n/2. Так обычно поступают, определяя медиану при четном числе членов ряда.

Рассмотрим, как определяется мода и медиана для интервального ряда.

Прежде закрывают открытые интервалы (первый и последний) и определяют интервалы, в которых находятся мода и медиана. Их называют соответственно модальным и медианным интервалом.

Модальный интервал – интервал с наибольшей частотой. В приведенном ниже примере, модальным является интервал 170-175 см.

Для расчета определенного значения модальной величины признака, заключенного в этом интервале, применяют формулу

 

,

 

где - минимальная граница модального интервала (в нашем примере 170);

- величина модального интервала (в примере 5);

- частота интервала, предшествующего модальному (в нашем примере 100);

- частота модального интервала (в примере 130);

- частота интервала, следующего за модальным (в нашем примере 114).

Пример 2. Распределение студентов по росту.

 

Рост, см. Число студентов Накопленные частоты
0-155
155-160
160-165
165-170
170-175
175-180
180-185
185-190
190 и выше
Всего -

 

В нашем примере:

.

Смысл этой формулы заключается в следующем: величину той части модального интервала, которую нужно добавить к его минимальной границе, определяют в зависимости от величины частот предшествующего и последующего интервалов.

Медианный интервал (содержащий частоту, который делит ряд пополам) определяется по накопленным частотам. Это будет интервал, накопленная частота которой равна или превышает половину суммы частот.

В нашем примере . Отсюда медианным интервалом будет интервал со значением роста от 170 до 175 см. До этого интервала сумма накопленных частей составила 175. Следовательно, чтобы получить значение медианы, необходимо прибавить 75 [или 76 единиц] (250,5-75).

При определении значения медианы предполагают, что значение признака в границах этого медианного интервала распределяется равномерно. Следовательно, если 130 студентов (единиц), находящихся в этом интервале, распределяются равномерно в интервале 5 см, то 75,5 единицам (75 или 76 единицам) будет соответствовать следующая его величина:

Прибавив полученную величину к минимальной границе интервала, получим искомую величину медианы:

;

т.е. половина студентов имеет рост меньше 172.9 см, а вторая половина – больше.

Формула для исчисления медианы в вариационном интервальном ряду будет иметь такой вид:

,

где - нижняя граница медиального интервала;

- величина медианного интервала;

- сумма частот ряда (численность ряда);

- сумма накопленных частот в интервалах, предшествующих медианному;

- частота медианного интервала.

Строго говоря, приведенная формула моды пригодна только для рядов с равными интервалами. Формула медианы применима для любого интервального ряда.

Определим среднюю арифметическую для второго примера:

Для первого примера имеем: средняя = 3,81; мода = 4; медиана = 4 члена семьи.

Для второго примера: средняя = 172,85; мода равна 173.3 и медиана = 172.9 см.

Соотношение этих трех величин указывает направление и степень ассиметрии рядов распределения. Более подробно эти вопросы рассматриваются в дисциплине “Математическая статистика”.

Таким образом мода и медиана является важными дополнительными характеристиками к средней изучаемой совокупности. Особенно ценны эти показатели для характеристик небольших по численности совокупностей. При этом следует помнить, что мода и медиана являются описательными статистическими характеристиками, т.к. в них не погашаются индивидуальные отклонения, они всегда соответствуют определенной варианте.

В то же время можно привести немало примеров, когда мода или медиана являются более эффективной характеристикой, чем средняя.

Например, при статистических методах контроля качества продукции, при оценке качества передачи информации, надежности работы средств труда широкого применяются мода и медиана. Так, таксофон, почтовый ящик следует разместить не на середине улицы, а в точке, которая делит численность проживающих пополам. Используется медиана. Показатель «вероятность безотказной работы» оценивается модой.

Считается, что медиана по своему положению более определена, чем мода.

Выше было сказано, что средняя, мода и медиана совместно используются при анализе ряда распределения по структуре (на симметрию). Если , то данный ряд симметричный. Если , то в ряду имеются группы с очень высокими частотами и если таких групп нет. Если совокупность неоднородна и т.д.

Для характеристики структуры вариационного ряда кроме моды и медианы в статистике исчисляются и другие характеристики: квартили, децили, процентили. Они рассматриваются в дисциплине “Общая теория статистики” для студентов статистических специальностей.

 

Показатели вариации

 

Как видели выше, средняя величина дает обобщенную характеристику изучаемой совокупности по некоторому варьирующему (изменяющемуся) признаку, т.е. показывает типичный для данных условий уровень этого признака. Поскольку средняя величина - абстрактная величина, то для характеристики структуры ряда привлекаются описательные показатели – мода и медиана. Однако в двух совокупностях средние, мода и медиана могут быть одинаковыми, но отдельные значения признака при этом могут близко примыкаться к средней и мало от нее отличаться или, наоборот, могут далеко отставать (стоять) от средней и сильно от нее отличаться. Нетрудно сделать важный вывод по совокупности: в первом случае средняя будет хорошо представлять (характеризовать) всю совокупность, во втором случае средняя будет плохо представлять всю совокупность.

Следовательно наряду со средними величинами большое практическое и теоретическое значение имеет изучение отклонений от средних.

Оценки колеблемости отдельных значений от средней называют показателями вариации.

Термин “вариация” происходит от латинского слова variation – изменение, колеблемость, различие. Однако не всякие различия принято называть вариацией. Под вариацией в статистике понимают такие количественные изменения величин исследуемого признака в пределах качественно однородной совокупности, которые обусловлены взаимосвязанным (перекрещивающимся) воздействием различных факторов. Отсюда различают случайную и систематическую вариацию признака.

В статистических исследованиях особый интерес представляет анализ систематической вариации, т.к. изучая силу и характер вариации в исследуемой совокупности можно оценить насколько однородной является данная совокупность в количественном, а иногда и качественном отношении, а следовательно насколько характерной является исчисленная средняя величина. Поэтому средние характеристики необходимо дополнять показателями, измеряющими отклонения от средних.

Степень близости индивидуальных значений признака (вариант) к средней измеряется рядом абсолютных, средних и относительных статистических показателей. К ним относятся размах вариации, среднее линейное отклонение, дисперсия, среднее квадратическое отклонение, показатели степени вариации с порядковыми (ранговыми) характеристиками распределения, показатели относительного рассеивания.

Для всех показателей вариации общим является следующие:

· если показатель вариации близко к нулю (т.е. индивидуальные значения признака мало отличаются друг от друга), то средняя арифметическая будет достаточно показательной (надежной) характеристикой данной совокупности;

· если же ряд распределения характеризуется значительным рассеиванием (величина показателя вариации сильно отличается от нуля, является большой), то средняя арифметическая будет ненадежной и ее практическое применение будет ограничено.

В соответствии с рабочей программой нашей дисциплины, ниже будут рассмотрены наиболее часто применяемые на практике показатели вариации.