Лекция 4. Изучение вариации

В данной главе рассматриваются показатели степени вариации, характеристики структуры и формы распределения, а также правило сложения дисперсий, порядок его использования для изучения связи между признаками. При изучении представленного материала важно усвоить назначение этих показателей и их расчет.

Показатели вариации

Статистическая совокупность по определению включает однокачественные в пределах изучаемой закономерности и в то же время варьирующие единицы. Для того чтобы судить о типичности средней для данной совокупности, ее следует дополнить показателями, характеризующими вариацию величины изучаемого признака. В ряде случаев ряды распределения, построенные по одному и тому же признаку, могут при одной и той же величине его среднего уровня иметь разную степень вариации этого признака. Покажем это на следующем примере (табл. 4.1).

Таблица 4.1

Количество счетов физических лиц, обслуживаемых филиалами коммерческих банков (тыс. ед.)

Филиалы банков

Банк 1

Банк 2

1

6,0

12,4

2

2,5

1,5

3

5,2

3,2

4

5,6

2,0

5

9,3

9,5

Итого

28,6

28,6

Средняя

5,7

5,7

Данные, приведенные в табл. 4.1, свидетельствуют о том, что среднее число обслуживаемых одним филиалом счетов физических лиц в каждом банке одинаковое – 5,7 тыс. ед. Вместе с тем различия (вариация) по количеству обслуживаемых счетов клиентов более резко выражены у филиалов банка 2, чем у филиалов банка 1.

Для измерения степени вариации единиц совокупности по изучаемому признаку используют абсолютные и относительные показатели вариации.

К абсолютным характеристикам вариации относятся размах вариации (R), среднее линейное отклонение (d); дисперсия () и среднее квадратическое отклонение (σ).

Относительные характеристики вариации рассчитываются как отношение абсолютных показателей степени вариации к среднему уровню изучаемого признака. Так, относительный размах вариации; относительное линейное отклонение

коэффициент вариации Размах вариации (R) равен разности между наибольшей () и наименьшей () вариантами признака:

Этот показатель представляет интерес в тех случаях, когда важно знать пределы вариации признака, например пределы вариации ставок процента по кредитам и депозитам кредитных организаций одного и того же региона. Он востребован также при анализе инвестиционных проектов в условиях риска: из двух проектов тот считается более рискованным, у которого размах вариации экспертной оценки ожидаемого эффекта выше.

Продолжая рассмотрение нашего примера (см. табл. 4.1), отметим, что при одной и гой же величине среднего числа лицевых счетов физических лиц, обслуживаемых одним филиалом, размах вариации по этому показателю у филиалов банка 1 значительно меньше, чем у филиалов банка 2: 3,3 тыс. ед. против 10,9 тыс. ед. Деловая активность филиалов банка 2, очевидно, складывалась под влиянием более разнообразных условий, которые и определили резкие различия в масштабах их операций с клиентами. Следовательно, возникает вопрос, насколько точно рассчитанная для филиалов банка 2 средняя величина числа обслуживаемых счетов клиентов характеризует его индивидуальный уровень отдельных филиалов, т.е. вопрос о типичности средней. Однако характеристика степени вариации с помощью ее размаха является недостаточной, так как величина этого показателя зависит от значений только двух крайних вариантов признака. Для обобщения всех различий величин признака в изучаемой совокупности используют показатели среднего линейного и среднего квадратического отклонений, которые имеют те же единицы измерения, что и варианты признака, и его средняя величина. Порядок расчета этих показателей для несгруппированных и сгруппированных данных различен.

Среднее линейное отклонение (d) – это средняя арифметическая из абсолютных отклонений вариант признака от средней арифметической величины. Для расчета этого показателя применяют следующие формулы:

• для несгруппированных данных

где xi – значение признака у i-й единицы совокупности; – средняя величина признака в совокупности; п – число единиц совокупности;

• для сгруппированных данных

В расчетах отклонения представлены без учета знака, так как по свойству средней арифметической сумма отклонений индивидуальных значений признака от средней равна нулю. Это ограничивает величину среднего линейного отклонения как меры вариации признака, за исключением тех случаев, когда суммирование показателей без учета знаков имеет экономический смысл. В связи с этим более широкое распространение в качестве показателя степени вариации получило среднее квадратическое отклонение.

Среднее квадратическое отклонение является абсолютной мерой вариации и представляет собой корень квадратный из дисперсии. Смысловое ОГЛАВЛЕНИЕ этого показателя такое же, как и среднего линейного отклонения: чем меньше его величина, тем однороднее совокупность и тем, соответственно, типичнее средняя величина.

Дисперсией σ2 называется средний квадрат отклонений значений признака от их средней величины. Этот показатель единиц измерения не имеет. В зависимости от исходных данных дисперсию можно вычислять по средней арифметической простой или взвешенной. Для ее расчета используют следующие формулы:

• для несгруппированных данных

• для сгруппированных данных

Формулы для расчета среднего квадратического отклонения имеют следующий вид:

• для несгруппированных данных

• для сгруппированных данных

Формулу для расчета дисперсии можно преобразовать с учетом того, что , т.е. дисперсия равна разности средней из квадратов вариантов признака и квадрата их средней:

где или .

Дисперсию и среднее квадратическое отклонение используют при расчетах, связанных с организацией выборочного наблюдения, оценке полученных на основе выборки статистических показателей, построении показателей тесноты корреляционной связи, дисперсионном анализе. В условиях нормального распределения существует Вперед зависимость между величиной среднего квадратического отклонения и количеством наблюдений: в пределах располагается 0,683 количества наблюдений; – 0,954;

Отклонение ±3σ можно считать максимально возможным. Это положение называют правилом "трех сигм".

В симметричных распределениях среднее квадратическое отклонение составляет приблизительно 1,25 среднего линейного отклонения. Это соотношение может быть использовано для приближенного вычисления среднего квадратического отклонения, исходя из уже найденного значения среднего линейного отклонения. При таких расчетах следует учитывать и полученные согласно правилу "трех сигм" следующие соотношения:

так как в нормальном распределении в размахе вариации "укладываются" .

Если распределение заведомо асимметричное, то

Рассмотрим порядок вычисления среднего линейного отклонения, дисперсии и среднего квадратического отклонения по приведенным выше несгруппированным данным о работе филиалов двух банков с клиентами. Все промежуточные расчеты представлены в табл. 4.2.

Таблица 4.2

Данные расчета показателей

Филиалы

Банк 1

Банк 2

1

0,28

0,08

6,68

44,62

2

3,22

10,37

4,22

17,81

3

0,52

0,27

2,52

6,34

4

0,12

0,01

3,72

13,84

5

3,58

12,82

3,78

14,29

Итого

7,72

23,55

20,92

96,90

Используя приведенные выше формулы, получаем соответствующие абсолютные и относительные характеристики размера вариации (табл. 4.3).

Таблица 4.3

Характеристики размера вариации

Показатели

Банк 1

Банк 2

Размах вариации

3,3

10,9

Среднее линейное отклонение

1,54

4,18

Дисперсия

4,71

19,38

Среднее квадратическое отклонение

2,17

4,40

Коэффициент осцилляции, %

58

191

Относительное линейное отклонение, %

27

73

Коэффициент вариации, %

38

76

Таким образом, можно сделать вывод, что совокупность филиалов банка 1 имеет более низкий уровень их вариации по числу обслуживаемых счетов клиентов, чем совокупность филиалов банка 2, так как среднее квадратическое отклонение числа обслуживаемых клиентов по филиалам банка 1 составляет 2,17 тыс. ед., а по филиалам банка 2 – 4,40 тыс. ед. Совокупность считается количественно однородной, если коэффициент вариации не превышает 33%. В пашем примере коэффициент вариации у банка 1 составил 38%, а у банка 2 – 76%. Так как у банка 1 коэффициент вариации незначительно превышает 33%, можно предполагать, что среднее число обслуживаемых клиентов является типичным для филиалов этого банка и более точно отражает индивидуальные значения этого показателя у отдельных филиалов, чем у филиалов банка 2.

Для измерения вариации альтернативных признаков, которой свойственны лишь два противоположных варианта, рассчитывается так называемая дисперсия доли. Количественно вариация альтернативного признака проявляется в значении "0" у единиц совокупности, которые им нс обладают, и в значении "1" у единиц, для которых он характерен. Ряд распределения по альтернативному признаку имеет вид:

Значение признака

Частота повторений

1

/

0

n-f

Итого

п

Долю единиц (частость), обладающих данным признаком, обычно обозначают р, а не обладающих им – q.

Средняя арифметическая такого ряда определяется следующим образом:

т.е. она равна относительной частоте (частости) р. Для альтернативного признака справедливо равенство: р + q = 1. Следовательно, q= 1 -р.

Тогда дисперсия альтернативного признака (или дисперсия доли) исчисляется по формуле

т.е. она равна произведению доли на дополняющее ее до единицы число.

Рассмотрим следующий пример. Допустим, что при обследовании 1000 коммерческих банков 800 из них являются универсальными. Определить дисперсию и среднее квадратическое отклонение доли универсальных банков.

Решение. В данном случае доля единиц, обладающих изучаемым признаком, т.е. доля универсальных банков р = 800 : 1000 = 0,8, или 80%. Следовательно, 20% банков нс обладали изучаемым признаком. Эту величину можно получить двояко:

а) q = (1000 – 800)/1000 = 200/1000 = 0,20, или 20%;

б) q = 1 – 0,80 = 0,20.

Следовательно, дисперсия доли универсальных банков

Среднее квадратическое отклонение