Среднее линейное отклонение

Показатели, характеризующие вариацию значений признака

Для анализа вариационных рядов используются три группы показателей:

- показатели центра распределения;

- показатели степени вариации;

- показатели формы распределения.

 

Показатели центра распределения

Для характеристики центра распределения в вариационном ряду применяются : среднее значение признака, медиана, мода.

 

Показатели степени вариации признака

Часто при описании статистических данных приходится оперировать понятием «однородность». Значимость однородности в статистическом анализе трудно переоценить, так как она напрямую влияет на точность рассчитываемых показателей и качество аналитических выводов. Чем однороднее данные, тем надежнее и адекватнее реалиям результаты статистического анализа.

Однородность – понятие относительное и растяжимое. Она не имеет точных границ и критериев. Под однородными данными следует понимать некоторый уровень их рассеяния, при котором рассчитываемые статистические показатели (средняя и проч.) будут давать надежную и качественную характеристику анализируемой совокупности. Граница, отделяющая однородные данные от неоднородных, плавная и размытая.

Основным мерилом разброса (и однородности) данных являются показатели вариации: дисперсия 2, среднеквадратическое отклонение , среднее линейное отклонение a. Однако все они не дают характеристики степени разброса данных. Для преодоления этой проблемы был придуман так называемый коэффициент вариации,который рассчитывается как соотношение стандартного отклонения и средней величины.

В статистике принято считать, что, если значение коэффициента менее 33%, то совокупность данных является однородной, если более 33%, то – неоднородной. Почему так, сам не знаю, но так принято. Спорить не будем (ибо не с кем).

.

Для указанных данных коэффициент вариации составил 24%, то есть совокупность вроде как однородная получилась (менее 33%).

Теперь увеличим диапазон разброса до плюс/минус 80.

Чисто визуально отчетливо видно, что данные стали более рассеяны. Коэффициент вариации на этот раз составил 45%, следовательно, совокупность стала неоднородной.

Чем более однородны данные, тем ближе они находятся к среднему значению. Чем менее однородны, тем больше рассеяны и находятся дальше друг от друга и от своей средней.

Теперь посмотрим, как измеряется вариация, с помощью каких показателей и что они обозначают.

Размах вариации

Первый показатель мы уже упомянули – это размах вариации, то есть разница между максимальным и минимальным значением. Думаю, здесь пояснять нечего, все элементарно. Для порядка напишем формулу:

С одной стороны показатель размаха может быть вполне информативным и полезным. К примеру, максимальная и минимальная стоимость квартиры в городе N, максимальная и минимальная зарплата по профессии в регионе и проч. С другой стороны, размах может быть очень широким и не иметь практического смысла.

Ниже приведена графическая интерпретация размаха вариации.

 

 

Видно максимальное и минимальное значение, а также расстояние между ними, которое и соответствует размаху вариации.

Данный показатель не дает устойчивую оценку, так как все зависит от двух, как правило, случайных значений – от максимума и минимума. Таким образом, размах вариации очень неустойчивая величина.

Среднее линейное отклонение

Мудрые математики и статистики придумали более надежный показатель, хотя и несколько другого назначения – среднее линейное отклонение. Этот показатель характеризует меру разброса значений совокупности данных вокруг их среднего значения.

Для того, чтобы показать меру разброса данных нужно вначале определиться, относительно чего этот самый разброс будет считаться - jбычно это средняя величина. Дальше нужно посчитать, насколько значения анализируемой совокупности данных находятся далеко от средней. Понятное дело, что каждому значению соответствует некоторая величина отклонения, но нас же интересует общая оценка, охватывающая всю совокупность. Поэтому рассчитывают среднее отклонение по формуле обычной средней арифметической. Но! Но для того, чтобы рассчитать среднее из отклонений, их нужно вначале сложить. И если мы сложим положительные и отрицательные числа, то они взаимоуничтожатся и их сумма будет стремиться к нулю. Чтобы этого избежать, все отклонения берутся по модулю, то есть все отрицательные числа становятся положительными. Вот теперь среднее отклонение будет показывать обобщенную меру разброса значений. В итоге, средне линейное отклонение будет рассчитываться по формуле:

где

a – среднее линейное отклонение,

x – анализируемый показатель, с черточкой сверху – среднее значение показателя,

n – количество значений в анализируемой совокупности данных,

оператор суммирования, надеюсь, никого не пугает.

Рассчитанное по указанной формуле среднее линейное отклонение отражает среднее абсолютное отклонение от средней величины по данной совокупности.

 

На картинке красная линия - это среднее значение. Отклонения каждого наблюдения от среднего указаны маленькими стрелочками. Именно они берутся по модулю и суммируются. Потом все делится на количество значений.

Для полноты картины нужно привести еще и пример. Допустим, имеется фирма по производству черенков для лопат. Каждый черенок должен быть 1,5 метра длиной, но, что еще важней, все должны быть одинаковыми или, по крайней мере, плюс-минус 5 см. Однако нерадивые работники то 1,2 м отпилят, то 1,8 м. Дачники недовольны. Решил директор фирмы провести статистический анализ длины черенков. Отобрал 10 штук и замерял их длину, нашел среднюю и рассчитал среднее линейное отклонение. Средняя получилась как раз, что надо – 1,5 м. А вот среднее линейное отклонение вышло 0,16 м. Вот и получается, что каждый черенок длиннее или короче, чем нужно в среднем на 16 см. Есть, о чем поговорить с работниками. На самом деле я не встречал реального использования данного показателя, поэтому пример придумал сам. Тем не менее, в статистике есть такой показатель.

Дисперсия

Как и среднее линейное отклонение, дисперсия также отражает меру разброса данных вокруг средней величины.

Формула для расчета дисперсии выглядит так:

 

где

D – дисперсия,

x – анализируемый показатель, с черточкой сверху – среднее значение показателя,

n – количество значений в анализируемой совокупности данных.

Дисперсия - это средний квадрат отклонений. То есть вначале рассчитывается среднее значение, затем берется разница между каждым исходным и средним значением, возводится в квадрат, складывается и затем делится на количество значений в данной совокупности. Однако в чистом виде, как, например, средняя арифметическая, или индекс, дисперсия не используется. Это скорее вспомогательный и промежуточный показатель, который используется для других видов статистического анализа.