Выполнение задания в ППП MS Excel

1. Группировка

Значения каждого из трех признаков должны быть упорядочены, что реализуется с помощью сортировки (отдельно каждого из признаков): выбираем вкладку ДАННЫЕСОРТИРОВКА (традиционно по возрастанию).

Для выполнения структурной равноинтервальной группировки сначала определяем величину интервала по формуле:

где R – размах вариации, ;

- максимальное значение группировочного признака;

- минимальное значение группировочного признака;

k – число групп.

Число групп определяется следующими факторами: задачами исследования, основанием группировки, численностью совокупности, степенью вариации (изменчивости) признака.

Как ориентир для определения количества групп может быть использована формула Стерджесса:

где N – число единиц совокупности.

Если признак варьирует незначительно, может быть взято и меньшее число групп. И наоборот, если вариация велика, для более подробного ее описания лучше выбрать большее число групп.

Далее определяются границы каждого интервала по следующей схеме:

№ интервала Границы интервала
нижняя верхняя
   
k

Например, пусть статистическая совокупность состоит из 40 туристических компаний, показатели выручки которых варьируют от 50 млн. у.е./год до 650 млн. у.е./год, что является, соответственно, минимальным и максимальным значениями признака. Тогда по формуле Стерджесса получаем: . Величина интервала для построения равноинтервальной группировки определяется следующим образом: (млн.у.е.). Таким образом, совокупность компаний будет разделена по показателю выручки на шесть равных групп: [50-150], [150-250], [250-350], [350-450], [450-550], [550-650] (млн. у.е./год).

После определения границ интервалов рассчитываются частоты, для чего используется функция ЧАСТОТА(вводится как формула массива, т.е. комбинацией клавиш CTRL + SHIFT + ВВОД). Выделяем столбец, в который должны поместиться частоты, соответствующие каждому интервалу. Вызываем функцию (из категории «Статистические») :

= ЧАСТОТА(массив_данных;массив_интервалов)

где массив_данных – это столбец исходных значений признака, для которых вычисляются частоты;

массив_интервалов – это столбец верхних границ интервалов с 1-го по k-1 –й (т.е. без последнего). Функция ЧАСТОТА предполагает формирование верхних границ по принципу «включительно», а нижних – «исключительно».

Сумма частот должна быть равна объему совокупности:

где - число наблюдений (частота) в i – ой группе.

Далее оценивается относительная структура совокупности через расчет частостей:

где - частость в i – ой группе, выраженная в долях единицы или в процентах к итогу.

В результате получаем структурную равноинтервальную группировку.

Группировки с равными интервалами предпочтительнее, но характер изменения большинства социально-экономических явлений не отвечает требованиям, предъявляемым к равноинтервальной группировке.

Если в результате построения равноинтервальной группировки большая часть совокупности попала в один-два смежных интервала, а остальные содержат незначительное число наблюдений, это свидетельствует о том, что исследуемый признак варьирует неравномерно. В данном случае может быть использован «прогрессивный» подход к определению границ интервалов.

В этом случае величина интервалов определяется формулами:

где - величина i+1 – го интервала;

– константа арифметической прогрессии, для возрастающих интервалов , для убывающих интервалов ;

q – константа геометрической прогрессии, для возрастающих интервалов , для убывающих интервалов

Описанные выше технические способы определения величины интервалов не гарантируют, что не появятся группы малочисленные или вообще «пустые», в которые не попало ни одно наблюдение. Если это произошло, необходимо изменить число групп и/или величины интервалов, так как подобная группировка является некорректной.

Для обеспечения статистической устойчивости показателей, исчисляемых для отдельных групп, может использоваться равнонаполненная группировка, в которой число наблюдений в каждой группе примерно одинаковое и определяется по формуле:

.

Если полученное n не целое и/или в совокупности есть повторяющиеся значения признака, то число наблюдений в каждой группе может различаться. При этом надо стремиться к тому, чтобы эти различия были незначительны.

Если для реализации задач исследования необходимо устанавливать границы групп там, где количество переходит в новое качество, пользуются специализированными интервалами.

Границы групп могут определяться и произвольно, когда ни один из вышеописанных методов не дал хороших результатов.

2. Ряд распределения

В результате на основе итоговой группировки формируется вариационный ряд распределения (см. табл. 1).

Таблица 1. Ряд распределения выручки туристических компаний, млн. у.е./год

Границы интервала Частота Частость Плотность абсол. Плотность отснос.
нижняя верхняя
0,300 0,12 0,00300
0,250 0,10 0,00250
0,200 0,08 0,00200
0,125 0,05 0,00125
0,100 0,04 0,00100
0,025 0,01 0,00025
Итого - -

Для неравноинтервального вариационного ряда распределения сравнение частот по группам неправомерно. В данном случае необходимо избавиться от влияния величины интервала путем перехода от частот/частостей к абсолютной/относительной плотности распределения:

где - абсолютная плотность распределения в i – ой группе;

- относительная плотность распределения в i – ой группе;

- величина i – го интервала.

Далее строится кумулятивный ряд распределения, для чего рассчитываются накопленные частоты/частости к концу каждого интервала:

где / - накопленная частота/частость к концу i – ой группы.

3. Графики

Построение гистограммы и кумуляты выполняется с указанием названия графика и каждой оси. Для кумуляты в таблице рассчитываем накопленные частоты/частости (см. табл.2):

где / - накопленная частота/частость к концу i – ой группы.

Таблица 2. Кумулятивный ряд распределения выручки туристических компаний, млн. у.е./год

Границы интервала Частота Частость Накопленная частота Накопленная частость
нижняя верхняя
0,30 0,300
0,25 0,550
0,20 0,750
0,13 0,875
0,10 0,975
0,03
Итого - -

Гистограмма– графическое изображение интервального вариационного ряда распределения, дающее представление о характере изменения его частот (рис. 1).

Для построения гистограммы выбираем вкладку ВСТАВКА и из разновидностей диаграмм MS Excel - ГИСТОГРАММА. На оси абсцисс откладываются величины интервалов значений признака, на оси ординат – частоты, частости или плотности распределения. Для равноинтервальных рядов могут быть использованы и частоты/частости, и плотности, для неравноинтервальных – только плотности.

Рис. 1. Гистограмма распределения выручки туристических компаний

Рис. 2. Кумулята распределения выручки туристических компаний

Кумулята – графическое изображение кумулятивной кривой, дающее представление о характере изменения накопленных частот/частостей (рис. 2).

Для построения кумуляты выбираем ВСТАВКА и из разновидностей диаграмм MS Excel – ТОЧЕЧНАЯ(с прямыми отрезками). На оси абсцисс откладываются величины интервалов значений признака, на оси ординат - накопленные частоты или частости. Равенство или неравенство интервалов для графика кумуляты значения не имеет.

4. Выводы

Выводы должны давать общую картину распределения: однородность совокупности («похожесть» единиц совокупности друг на друга), концентрация значений вокруг средней величины, «типичное» значение, симметричность распределения (преобладание больших или малых значений).