Выполнение задания в ППП MS Excel

Необходимые характеристики должны быть рассчитаны как для исходного ряда значений каждого признака (с помощью функций MS Excel), так и для сгруппированных данных. При этом последние являются приближенными значениями искомых характеристик.

1. Характеристики центра и структуры распределения

Средняя величина - обобщающая количественная характеристика признака в статистической совокупности, отражающая типичный уровень этого признака в расчете на единицу совокупности.

Средняя величина для несгруппированных данных:

,

где xi – значение признака у i–ой единицы совокупности;

N - объем совокупности.

Среднее значение по исходным данным определяются с помощью функции СРЗНАЧ. Вызываем функцию (из категории «Статистические»):

= СРЗНАЧ(число_1;число_2…)

где число_1;число_2… – числовые аргументы, для которых вычисляется среднее (выделить для первого аргумента столбец исходных значений признака).

Средняя величина для интервально сгруппированных данных:

,

где хнj, хвj - нижняя и верхняя граница j–ого интервала;

k – число групп;

fj – вес усреднения для j-ой группы (в качестве весов усреднения берут частоты/частости).

К структурным характеристикам ряда распределения относятся квантили распределения и мода.

Квантиль распределения(Qi) – это значение признака, занимающее определенное место в упорядоченной по данному признаку совокупности. Основными квантильными характеристиками являются:

- медиана (Ме) - значение признака, приходящееся на середину упорядоченной совокупности,

- квартили (Q1/4, Q2/4=Ме, Q3/4) – значения признака, делящие упорядоченную совокупность на 4 равные (по числу единиц) части,

- децили (Q0,1,Q0,2,…,Q0,9) – значения признака, делящие упорядоченную совокупность на 10 равных частей.

Квантили для несгруппированных данных определяются по упорядоченным значениям механически, путем определения номера искомого наблюдения.

Квантили распределения по исходным данным определяются с помощью функций МЕДИАНА, КВАРТИЛЬ, ПРОЦЕНТИЛЬ. Вызываем необходимую функцию (из категории «Статистические»):

= МЕДИАНА(число_1;число_2…)

где число_1;число_2… – числовые аргументы, для которых вычисляется медиана (выделить для первого аргумента столбец исходных значений признака).

= КВАРТИЛЬ(массив;часть)

где массив – это столбец исходных значений признака, для которых определяется значение квартиля;

часть – это значение, определяющее уровень квартиля: для Q1/41, для Q3/4 - 3.

= ПРОЦЕНТИЛЬ(массив;К)

где массив – это столбец исходных значений признака, для которых определяется значение К-ого процентиля (может использоваться для определения квартилей и децилей);

К – это значение, определяющее уровень процентиля: для Q0,10.1, для Q0,90.9; для Q1/40.25, для Q3/40.75 .

Результаты расчета характеристик по функциям MS Excel:

Для сгруппированых данных предварительно определяется группа, которая содержит i-ый квантиль: та группа от начала ряда, в которой сумма накопленных частот равна или превышает N·i, где i- индекс квантиля.

Квантили для интервально сгруппированных данных:

где Xqi - нижняя граница интервала, в котором находится i - ый квантиль;

- величина интервала, в котором находится i - ый квантиль;

F(-1) – сумма накопленных частот интервалов, предшествующих интервалу, в котором находится i - ый квантиль;

Nqi – частота интервала, в котором находится i - ый квантиль.

Мода (Мо) – наиболее часто встречающееся значение признака в совокупности.

Для несгруппированных данных мода обычно не определяется. Если признак принимает ограниченное число значений и они повторяются, можно определить моду с помощью функции МОДА. Вызываем функцию (из категории «Статистические»):

= МОДА(число_1;число_2…)

где число_1;число_2… – числовые аргументы, для которых вычисляется мода (выделить для первого аргумента столбец исходных значений признака).

Для интервально сгруппированного ряда мода – это значение признака, которому соответствует наибольшая плотность распределения. Для сгруппированых данных предварительно определяется группа, которая содержит моду: та группа, которой соответствует максимальная частота/частость или плотность распределения (для неравноинтервальных – только по максимальной плотности). Далее значение моды уточняется по формуле:

где XMo - нижняя граница интервала, в котором находится мода;

- величина модального интервала;

NMо, NMо-1, NMо+1 – частоты, соответственно, модального, предшествующего и последующего интервалов.

Расчет моды по данной формуле предполагает, что модальный, предшествующий и последующий интервалы – это интервалы одинаковой длины.

Таблица 3. Расчет характеристик центра и структуры распределения

Границы интервала Частота Накопленная частота Середина интервала Сер. инт. × Частота
нижняя верхняя
12 Мо 12 Q1/4, Q1/10
22 Ме
30 Q3/4
39 Q9/10
Итого - -

Расчет характеристик (см. табл. 3):

Среднее: млн. у.е./год

Медиана: млн. у.е./год

1 квартиль: млн. у.е./год

3 квартиль: млн. у.е./год

1 дециль: млн. у.е./год

9 дециль: млн. у.е./год

Мода: млн. у.е./год

2. Характеристики вариации

Для измерения рассеяния (вариации) признака применяются различные абсолютные и относительные показатели вариации.

Абсолютные показатели вариации:

- Размах вариации, R - разность между максимальным и минимальным значениями признака в совокупности:

- Среднее линейное отклонение, d - средняя арифметическая абсолютных значений отклонений отдельных вариант от их средней арифметической. Для несгруппированных и сгруппированных данных, соответственно:

, ,

где N – объем совокупности;

k - число групп;

fj – частота/частость в j – ой группе.

- Среднее квадратическое отклонение, s - средняя квадратическая из отклонений отдельных вариант от их средней арифметической. Для несгруппированных и сгруппированных данных, соответственно:

, .

- Дисперсия, s2 - средний квадрат отклонений вариант от их средней величины (квадрат среднего квадратического отклонения). Может быть также вычислена, как разность среднего квадрата значения признака и квадрата среднего арифметического значения признака:

.

Абсолютные показатели вариации по исходным данным определяются с помощью функций СРОТКЛ, СТАНДОТКЛОН, ДИСП. Вызываем необходимую функцию (из категории «Статистические»):

= СРОТКЛ(число_1;число_2…)

где число_1;число_2… – числовые аргументы, для которых вычисляется среднее линейное отклонение (выделить для первого аргумента столбец исходных значений признака).

= СТАНДОТКЛОН(число_1;число_2…)

где число_1;число_2… – числовые аргументы, для которых вычисляется среднее квадратическое отклонение (выделить для первого аргумента столбец исходных значений признака).

= ДИСП(число_1;число_2…)

где число_1;число_2… – числовые аргументы, для которых вычисляется дисперсия (выделить для первого аргумента столбец исходных значений признака).

Самым распространенным относительным показателем рассеяния является коэффициент вариации. Он представляет собой выраженное в процентах отношение среднего квадратического отклонения к средней арифметической:

.

Коэффициент вариации используют как характеристику однородности совокупности. Совокупность считается качественно однородной, если коэффициент вариации не превышает 33%.

Результаты расчета характеристик по функциям MS Excel:

Расчет характеристик (см. табл. 4):

Размах вариации: млн. у.е./год

Среднее линейное отклонение: млн. у.е./год

Среднее квадратическое отклонение: млн. у.е./год

Дисперсия: (млн. у.е./год)2

Коэффициент вариации:

Таблица 4. Расчет показателей вариации

Серед. инт. Частота (Серед. инт.-сред.) × Част. ABS((Серед. инт.-сред.) × Част.) (Серед. инт.-сред.)2 × Част.
-1860
-550
Итого

3. Характеристики формы распределения

Для характеристики однородности совокупности используют и показатели формы распределения: коэффициент асимметрии и эксцесс.

Коэффициент асимметрии, As-показатель симметричности распределения. Положительная величина показателя асимметрии указывает на правостороннюю асимметрию, отрицательная – на левостороннюю, близость нулю свидетельствует о симметричном распределении.

Способы расчета коэффициента асимметрии:

1. Коэффициент асимметрии Пирсона:

.

Величина As может изменяться от –1 до +1 (для одновершинных распределений). Чем ближе по модулю As к 1, тем асимметрия существеннее.

2. Показатель, основанный на определении центрального момента третьего порядка – М3:

.

В симметричном распределении его величина равна нулю. Для оценки существенности такого коэффициента вычисляется его средняя квадратическая ошибка:

,

где N - объем совокупности.

Если çAsç/sAs меньше 2, это свидетельствует о несущественном характере асимметрии.

Коэффициент эксцесса, Ex-показатель островершинности распределения. Он рассчитывается для симметричных распределений.Эксцесс представляет собой выпад вершины эмпирического распределения вверх или вниз от вершины кривой нормального распределения. Показатель, использующий центральный момент четвертого порядка - М4:

.

Для нормального распределения эксцесс равен нулю. Положительный эксцесс означает, что распределение более островершинное чем нормальное; отрицательный эксцесс означает более плосковершинный характер распределения, чем у нормального Для оценки существенности такого коэффициента эксцесса вычисляется его средняя квадратическая ошибка:

,

где N - объем совокупности.

Если çExç/sEx меньше 2, это свидетельствует о несущественном характере эксцесса (близости распределения по характеру островершинности к нормальному).

По исходным данным характеристики формы распределения могут быть определены с помощью функций СКОС, ЭКСЦЕСС. Вызываем функцию (из категории «Статистические»):

= СКОС(число_1;число_2…)

где число_1;число_2… – числовые аргументы, для которых вычисляется асимметрия (выделить для первого аргумента столбец исходных значений признака).

= ЭКСЦЕСС(число_1;число_2…)

где число_1;число_2… – числовые аргументы, для которых вычисляется эксцесс распределения (выделить для первого аргумента столбец исходных значений признака).

Результаты расчета характеристик по функциям MS Excel:

Таблица 5. Расчет показателей формы распределения

Середина интервала Частота (Середина интервала -среднее)3× Частота
-44686500
-1663750
Итого

Расчет характеристик (см. табл. 5):

Асимметрия:

Так как данный ряд распределения явно несимметричен, расчет эксцесса не производится.