Первичный анализ статистических данных

Шаг 1. В системе Excel в меню откройте модуль Анализ данных (рисунок 4.3).

 

Рисунок 4.3 – Открытие модуля Анализ данных

Шаг 2. В модуле Анализ данныхвыберитеОписательная статистика,после чего щелкните мышкой OK(рисунок 4.4).

 

Рисунок 4.4 – Окно Анализа данных – описательная статистика

Шаг 3. В появившемся окне выполните операции и установки, как показано на рисунке 4.5. Щелкните мышкой OK.

 

Рисунок 4.5 – Стартовая панель

Результат обработки появится в указанном поле (выходной интервал $Е$1 – или любая свободная ячейка). На рисунке 4.6 показаны результаты статистической обработки.

 

Рисунок 4.6 – Описательная статистика (результат обработки)

Примечание: эта опция позволяет обрабатывать любое количество выборок одновременно.

Следующей процедурой является проверка в выборках выбросов. Из результатов обработки, представленных на рисунке 4.6, обращают на себя внимание высокие значения эксцесса и асимметрии для выборок в столбцах a и с. Поэтому можно предположить, что крайние значения (минимальные или максимальные) являются выбросами. Для выборки столбца а – это значение 4,1, для выборки столбца с – 14,2.

По формуле 4.9 рассчитываем Т – критерий выброса.

– для выборки в столбце а;

– для выборки в столбце с.

Из таблицы 4.1 при n = 9 стандартное значение критерия выброса Tst = 2,2. Так как Т – критерий выброса в выборках больше, чем стандартное значение критерия выброса Tst, то значения 4,1 в выборке а и 14,2 в выборке с имеем полное право удалить.

Таким образом, окончательный вариант трех анализируемых выборок представлен в таблице 4.4.

Таблица 4.4 – Окончательный вариант

a b c
12,6 15,3 3,9
13,2 15,6 4,2
16,3 4,4
14,6 18,5 4,5
14,9 19,3 4,7
15,1 20,2 4,7
16,1 21,1 5,1
16,6 21,2 5,3
   
  25,3  

 

Теперь необходимо выполнить процедуру обработки данных таблицы 4.4, как это было сделано выше (шаги 1 – 3). Результат обработки представлен на рисунке 4.7.

 

Рисунок 4.7 – Описательная статистика
(окончательный результат обработки)

Проверка на условие нормальности распределения

Для выполнения этой операции, прежде всего, необходимо по формулам 4.7, 4.8 вычислить ошибки показателей эксцесса и асимметрии.

– для выборок а и с; – для выборки b;

– для выборок а и с; – для выборки b.

 

Затем найти отношения значений эксцесса и асимметрии по модулю к их ошибкам.

 

; – для выборки а;

; – для выборки b;

; – для выборки с.

 

Так как найденные значения меньше критического равного трем, то все три выборки удовлетворяют условию нормальности распределения.

Гистограмма

Для построения гистограммы необходимо определить величину класса (кармана) по формуле:

, ,

где N – число наблюдений.

Число классов n округляется до ближайшего целого вверх (например: для столбца а: n = 4,00006 – до 5, для столбца b: n = 4,32 – до 5, для столбца c: n = 4,00006 – до 5)

Размеры интервалов для приведенных в таблице примеров представлены в таблице 4.5.

 

Таблица 4.5 – Размер интервалов

a 14,52 15,04 15,56 16,08 16,6
b 15,3 17,3 19,3 21,3 23,3 25,3
c 3,9 4,18 4,46 4,74 5,02 5,3

 

Если не рассчитывать размеры интервалов, то они будут определены автоматически.

Опция гистограмма проводит обработку только по одной выборке. Поэтому в примере покажем порядок обработки только для выборки а. Для остальных двух выборок процедура обработки аналогична.

Шаг 1. Вернитесь в модуль Анализ данныхивыберитеопцию Гистограмма, после чего щелкните мышкой OK(рисунок 4.8).

 

Рисунок 4.8 – Окно Анализа данных – гистограмма

 

Шаг 2. В появившемся окне выполните операции и установки, как показано на рисунке 4.9, после чего щелкните мышкой OK.

 

Рисунок 4.9 – Стартовая панель

 

Шаг 3. Результат обработки появится в указанном поле (выходной интервал $D$1 – или любая свободная ячейка, рисунок 4.10).

Рисунок 4.10 – Гистограмма

Задания для выполнения

1 Введите в таблицу MS Excel исходные данные из Приложения А, таблица А1.

2 Выполните подготовительные и расчетные процедуры в соответствии с порядком операций, выполненных в настоящем разделе.

Получите результат и сделайте заключение.

Лабораторная работа 5
Разнообразие значений признака (Statistica 6)

Цель работы: научиться выполнять первичную обработку данных в программном продукте Statistica 6.