Провести одномерный визуальный и описательный анализы данных
К курсу
«Прикладное программное обеспечение»
на тему:
«Анализ данных в пакете прикладных программ Statistica»
Выполнил:
Волков В.
- Москва – 2012 –
*данные методические указания являются неофициальными указаниями, написанные студентом Волоковым В. в помощь студентам Московского Государственно Института Электроники и Математики (технический университет) при подготовке к сдаче и написании курсовой работы.
Для написания своей собственной уникальной работы вам понадобятся:
1. Пакет Statistica 10 версии на английском языке. Ссылка для скачивания.
2. Готовая курсовая работа (для облегчения понимания сути).
3.Опционально. Программа Jing для более быстрой работы совершения/редактирования скриншотов (а не через paint). Их придётся делать много. Конечно, можно украсть оные из курсовой, добытой в пункте 2, но тогда ваша работа будет не уникальна, а это плохо для тех, кто претендует на 4-5.
Замечу, что скриншотить можно только таблицы. Все графики легко копируются в
непосредственно.
4. Ответник к вопроснику (спасибо говорим ей). На него буду ссылаться в некоторых местах.
5. Данные для работы в статистике.
Предисловие
Я писал свою работу исходя из интеллектуальных трудов этого и этой граждан РФ. Все права на использование их работ защищены ©. Вы можете свободно использовать все данные, предоставленные в моей курсовой.
Ответник размещён без согласия его создателя. Тссс.
Итак, перейдём, непосредственно, к основной части работы.
Выполнение работы
План задания:
1. Провести одномерный визуальный и описательный анализы данных
· Вычислить основные описательные статистики для числовых переменных
· Вычислить описательные статистики для этих переменных по группам, построить таблицы частот для категориальных переменных
· Наглядно иллюстрировать полученные результаты (гистограммы, круговые диаграммы, диаграммы размаха, диаграммы рассеивания и т.п.)
2. Сравнить с помощью t-критерия Стьюдента коэффициенты вначале исследования и после, проиллюстрировать на графике.
3. Провести всесторонний двумерный анализ данных.
4. Множественная регрессия
5. Многомерный анализ
a. Кластерный анализ
b. Дискриминантный анализ
Итак, начнём по порядку
Провести одномерный визуальный и описательный анализы данных
Установив статистику, дважды кликнем по файлу, скаченному из пункта 5.
Откроется окно вида:

Примечание. При установке статистики даётся выбор варианта меню – лента или привычный, контекстный. Я выбрал ленточный вид и в дальнейшем буду работать с ним. Если вы выбрали контекстный, то чтобы перейти к ленточному режиму меню выполните

Итак, чтобы подсчитать базовые статистики (ищите в википедии определение, вкратце – всякие средние, медианы, максимумы и т.д.) в ленте выбираем

и откроется лента

Выбираем

Откроется окно

Описательные статистики уже выделены (
. Нажимаем кнопку
, чтобы выбрать размер выборки. Откроется окно

Снимаем галочку в пункте
. И отныне, перед каждым новым открытым модулем, например
, не забываем об этой галочке, иначе данные будут подсчитываться не полностью. Запомните правило галочки!
Нажимаем
, потом
. Откроется окно
Переходим во вкладку
. Акцентируем внимание на разделе
Выбираем то, что я выбрал в своей курсовой. Можете не выбирать что-нибудь. Главное – показать, что вы умеете считать всё это и, при необходимости, поставить нужную галочку. Что означает каждая галочка смотрите в моей курсовой.
Далее нажимаем
, откроется окно
нажимаем кнопку
, все переменные выделятся. Зажимаем на клавиатуре клавишу
и последовательно нажимаем вначале на «Признак 2», затем на «Признак 6», тем самым с них снимется выделение. Только что мы выбрали переменные, для которых будем считать описательные статистики. Считать их для категориальных переменных смысла нет, поэтому мы их исключили. Что такое категориальные переменные смотрите в ответнике под вопросом 21.
Учтите, что при выборе переменной галочка
убирает из списка переменные, значения которых – текст. У нас эта переменная – вид газа. Если вы её выберете, статистика спросит что делать с ней

Нажимайте
и она уладит этот вопрос.
Я её не рассматриваю тут, но в своей работе я тоже подсчитывал для неё статистики. Снимите галочку, если боитесь/можете не выбрать эту переменную в дальнейшем!
Нажимаем
, а затем
. Имеем следующий результат

В правом окне результат подсчёта наших статистик, которые мы отмечали для переменных, которые мы также выбрали. Обратите внимание на левую часть. Workbook – это рабочая книга, в которой сохраняются все ваши результаты. Выглядит это всё дело как папка с подпапками, названия которых соответствуют тем модулям, которые вы выберите и тем опциям, которые вы выберите в модуле. К примеру, один из модулей - это
, но в нём куча всяких кнопочек, которые дают разные подсчёты, и они-то и будут подпапками. От таки дела, малята.
Скриншотим, заносим в работу (в дальнейшем СЗР).
Теперь построим гистограммы для наших переменных в отдельности и заодно проверим на нормальность (у меня в курсовой это последний пункт первого раздела).
Что бы делать разные подсчёты в одном и том же модуле не нужно постоянно тыркать, к примеру,
. Когда вы один раз подсчитали и вам выдали результат, внизу появится «свёрнутый модуль»

нажимаем его и модуль откроется вновь. Переходим во вкладку
.

Здесь надо установить галочки

Это – тесты на нормальность. Как они работают – не важно, главное понять: как узнать, что они нам говорят (в моей курсовой в 8 пункте 1ого раздела это описано).
Тест Шапиро-Уилка сильнее, чем Колмогорова. Так что если Колмогоров скажет что распределение нормально, а Шапиро ему возразит – слушаем Шапиро. Статистика Колмогорова описывается следующим образом:
где
–эмпирическая функция распределения, которая строится по данным,
- теоретическое нормальное распределение. Это у меня спросили на экзамене в качестве необязательно вопроса.
Итак, выбрав галочки, выбираем теперь ВСЕ (!) переменные (ранее мы убрали 2 и 6) и нажимаем
.
Получим гистограмму для каждой переменной.

В правой части – список остальных результатов.
Анализ и всё остальное – у меня смотрите. СЗР.
Теперь построим диаграммы по группам. Т.е. выбирается две (или более) переменных и смотрятся диаграммы.
К примеру, посмотреть гистограммы «Признака 2» по типам газов. Займёмся этим. В нашем модуле

выбираем 1 переменную, которую хотим посмотреть в группе с какой-нибудь другой, т.е. «Признак 2» .
Выбираем в
первую переменную
, жмём
. Теперь нажимаем кнопку
, откроется окно
в первой колонке которого выбираем вторую переменную, по которой хотим посмотреть наши гистограммы, т.е. «Вид газа». Вторую колонку не трогаем. Жмём
, выскочит окно

ничего не трогаем, нажимаем
ещё раз и получим следующий результат:

То, что и хотели: как ведёт себя признак 2 (он категориальный, если вы не поленились и посмотрели в ответнике, то понимаете почему, если нет – вопрос 21 вас всё ещё ждёт).
СЗР. Теперь ваша задача, перебрать варианты пар, не обязательно все, главное, чтобы было какое-то исследование. Можете сделать как делал я в своей работе. А можете ввести «инновации» и рассмотреть другие зависимости одного от другого.
Теперь для завершения первого пункта осталось объяснить, как строить диаграммы размаха, круговые диаграммы и таблицы частот.
Начнём с диаграмм размаха.
Чтобы построить диаграмму размаха для одной или нескольких переменных, достаточно в модуле

перейти на вкладку
и выбрать пункт
,
который построит на одном графике диаграммы размаха для всех переменных, выбранных в
. Так что если шкала одной переменной огромна, а другой мала, то будет «Давид и Голиаф» и вы ничего толком не увидите на графике.
Если вам нужно построить диаграмму размаха одной переменной по другой, например, на какой в среднем высоте находятся разные виды газов? Тут нужен другой модуль.
На главной ленте выбираем пункт
, появятся следующие модули

Выбираем
, откроется окно

Снимаем галочку в пункте
.
Нажимаем
, выбираем пару переменных: одна зависимая, другая нет. К примеру, как я указал выше – по оси
откладывать средние высоты, а по оси
- виды газов.
Почитайте в википедии, как строятся эти диаграммы размаха. Можете выбрать в качестве центра

либо медиану, либо среднее. Чем они отличаются читайте в ответнике под вопросом 9.
Получим такой результат:

Анализ и остальные группировки признаков посмотрите у меня в курсовой и попробуйте сами сконструировать инновации.
Перейдём к круговым диаграмма и таблицам частот. Строятся они в том же модуле, где мы строили гистограммы:

Вкладка
.
В
выбираем переменные, для которых хотим построить таблицу частот. Затем нажимаем
. Если выбрали несколько, статистика построит для каждой переменной свою таблицу, все результаты смотрите а правой колонке рабочей книги.
Построим для переменных «Признак 2» и«Признак 3».

Правая колонка
рабочей книги
Теперь построим круговые диаграммы. На ленте выбираем
, затем 
В появившемся окне выбираем

Откроется окно

В
выбираем переменную(-ые) для которых хотим построить круговую диаграмму. Переходим в вкладку
, в ней сконцентрируем внимание на полях

Выберете подходящую форму (круг или эллипс) и размерность графика.
Ничего не забыли?
ГАЛОЧКУ!
Снимаем галочку в пункте
, нажимаем
- круговая диаграмма построена.

Итак, у вас есть весь арсенал умений, который необходим для выполнения первой части курсовой. Исследуете то, как я проводил исследования в своей курсовой, придумывайте новые зависимости, экспериментируйте.
По поводу трёхмерной диаграммы, которую я использовал в своей курсовой. Она находится в разделе
в ленте
.