Изучение формы распределения

3.2.1. Аналитическое изучение формы распределения

Оценка вычисленных выше показателей асимметрии и эксцесса позволяет сделать вывод о том, можно ли отнести данное эмпирическое распределение к типу нормального или нет. В нашем примере показатели асимметрии и эксцесса переменной VES (см. рис.5) незначительно отличаются от нуля. Это позволяет сделать вывод о близости распределения данной переменной к теоретическому нормальному распределению. Что касается переменной GABARIT, то рассчитанный для нее показатель асимметрии говорит о значительной левосторонней асимметрии распределения, а показатель эксцесса – об островершинности распределения переменной; другими словами, распределение переменной GABARIT далеко от нормального.

3.2.2. Графическое изучение формы распределения

На гистограмме, построенной для переменной GABARIT (рис.6), видно, что в ряду распределения переменной преобладают варианты с большим, чем средняя арифметическая, значением признака; вершина кривой распределения сдвинута вправо и левая часть кривой оказывается длиннее – распределение имеет «длинный левый хвост», т.е. налицо значительная левосторонняя (отрицательная) асимметрия. Кроме того, вершина распределения значительно выше вершины наложенной на график кривой нормального распределения (отображается красной непрерывной линией), что говорит об островершинности распределения. В то же время гистограмма, построенная для переменной VES (рис.7), достаточно близка к наложенной кривой нормального распределения, что позволяет предположить близость распределения переменной к нормальному распределению.

В нижней части диалогового окна Descriptive statistics – Описательная статистика (см. рис.2) находятся дополнительные клавиши графиков. Клавиша Box&whisker plot for all variables – Диаграмма размаха для всех переменных выводит на экран следующий вид графика (рис.8):

Рис. 28 Box&whisker plot for all variables – Диаграмма размаха для всех переменных

Данный график включает три компонента:

· центральная точка определяет медиану

· прямоугольник показывает квартильный размах, т.е. диапазон вокруг медианы, который содержит 50% наблюдений

· отрезки («усики») прямоугольника соответствуют размаху вариации.

График Box&whisker plot for all variables – Диаграмма размаха для всех переменных позволяет оценить симметричность распределения переменной. В нашем примере явно видна несимметричность распределения переменной GABARIT, в то время как распределение переменной VES достаточно симметрично.

Клавиша Normal probability plots - Нормальные вероятностные графикивыводит на экран следующий график (рис.9):

Рис. 29 Normal probability plots - Нормальные вероятностные графики для переменных GABARIT и VES

Если точки достаточно хорошо ложатся на прямую (как в случае переменной VES), можно говорить о нормальном характере распределения переменной. Если же основная масса точек далека от прямой, то распределение переменной далеко от нормального (как в случае переменной GABARIT).

3.2.3. Изучение формы распределения с помощью критериев согласия

Критерии согласия, используемые в системе Statistica, доступны в диалоговом окне Frequency tables – Таблицы частот меню Analysis – Анализ модуля Basic Statistics and Tables – Основные статистики и таблицы.

В этом диалоговом окне имеется группа кнопок Tests of normality – Критерии нормальности:

· K-S test - Критерий Колмогорова-Смирнова вычисляется при известном среднем и среднеквадратическом отклонении генеральной совокупности. Если вычисленная D-статистика значима (на экране строка будет иметь красный цвет), то гипотеза о том, что данные имеют нормальное распределение, отвергается. В противном случае, гипотеза о нормальности распределения принимается.

· Lilliefors test - Критерий Лиллиефорса вычисляется при неизвестном среднем и среднеквадратическом отклонении генеральной совокупности (они оцениваются по имеющимся данным). Как и в предыдущем случае, если вычисленная D-статистика значима и строка на экране красного цвета, то гипотеза о том, что данные имеют нормальное распределение, отвергается. В противном случае, гипотеза о нормальности распределения принимается.

· Shapiro – Wilk’s W test – Критерий Шапиро-Уилка W - по данным наблюдений вычисляется W-статистика, и если она значима (на экране строка выделена красным цветом), гипотеза о нормальном характере распределения отвергается, в противном случае – принимается.

Отметив галочками все три критерия в группе опций Tests of normality – Критерии нормальности окна Frequency tables – Таблицы частот (рис. 10),

Рис. 30 Диалоговое окно Frequency tables – Таблицы частот

нажмем клавишу Tests for normality. Результат представлен на рис 11.

 

 

Рис. 31 Окно результатов Tests of normality – Критерии нормальности

Строки, соответствующие переменной GABARIT, во всех трех таблицах выделены красным цветом, что говорит о необходимости отвергнуть гипотезу о нормальном характере распределения данной переменной. Гипотеза о нормальном характере распределения переменной VES принимается.

Расчет всех рассмотренных критериев возможен также в окне Descriptive statistics – Описательная статистика (см. рис. 2). Соответствующие опции имеются в группе опций Distribution – Распределение, и если отметить их галочками, то рассчитанные значения будут отображены либо под названием гистограммы (при построении гистограмм), либо над таблицей частот (при построении таблицы частот).