Классификация цветов ириса

Знакомство с возможностями проведения дискриминантного анализа в системе Statistica 6 лучше всего начать с разбора апробированного примера. Таким примером является классический пример Фишера – анализа цветков ириса.

Задача состоит в том, чтобы по результатам измерения длины и ширины чашелистиков и лепестков цветков ириса отнести ирис к одному из трех типов: SETOSA, VERSICOL, VIRGINIC.

Данные для этого примера имеются в файле Irisdat.sta.В файле содержатся результаты измерений 150 цветков ириса, по 50 каждого типа.

Шаг 1. Нажмите кнопку Open Data(Открыть данные) и откройте файл данных Irisdat.sta из каталога Examples(Примеры на диске С). Следующий файл данных появится на экране (рисунок 15.1).

Рисунок 15.1 – Файл данных Iris.sta

Шаг 2. Из Переключателя модулей Statistica откройте стартовую панель модуля Discriminate function analysis(Дискриминантный функциональный анализ) (рисунки 15.2, 15.3).

 

Рисунок 15.2 – Запуск модуля Дискриминантный анализ

Рисунок 15.3 – Стартовая панель модуля Дискриминантный анализ

Шаг 3. Сделайте установки, как показано на рисунке 15.3. Для этого нажмите кнопкуVariables(Переменные)и выберите переменные для анализа.

В качестве Grouping variable (Группирующая переменная) выберите переменную Iristype (Тип ириса) (рисунок 15.4).

В качестве Independent variables (Независимые переменные) выберите переменные Sepallen, Sepalwid, Petallen, Petalwid (Длина чашелистника, ширина чашелистника, длина лепестка, ширина лепестка) (рисунок 15.4). Нажмите кнопку ОK.

Выполните установку Codes for grouping variable (Коды для группировки переменных)(рисунок 15.5). Нажмите кнопку ОK.

 

Рисунок 15.4 – Установка переменных (Variables)

Рисунок 15.5 – Установка кодов для группировки переменных

Шаг 4. Нажмите кнопку ОK и откройте диалоговое окно Model Definition (Определение модели) (рисунок 15.6).

Рисунок 15.6 – Окно определения модели дискриминантного анализа

Шаг 5. Сделайте установки, как показано на рисунке 15.6. Нажмите кнопку OKи запустите вычислительную процедуру, реализующую пошаговый метод включения.

Шаг 6. Всесторонне просмотрите итоги в диалоговом окне Discriminant Function Analysis Results (Результаты дискриминантного анализа) (рисунок 15.7).

 

Рисунок 15.7 – Окно результатов дискриминантного анализа данных
из файла Iris.sta

 

Информационная часть окна сообщает, что использовано:

- Stepwise analysis (Пошаговый анализ), Step 4 Final step
(4 шага);

- Number of variables in the model (Число переменных в модели): 4;

- Last variable entered (Последняя включенная переменная): Sepallen, соответствующее значение статистики F-критерия
(F(2, 144) = 4,72), уровень значимости р < 0,01;

- Wilks lambda (Значение лямбды Уилкса): 0,02;

- approx. F (4,292) = 199,14 (Приближенное значение
F- статистики), связанной с лямбдой Уилкса;

- р – уровень значимости F-критерия для значения 199,14;

- значения статистики лямбда Уилкса лежат в интервале 0 – 1.

Значения статистики Уилкса, лежащие около нуля, свидетельствуют о хорошей дискриминации. Значения статистики Уилкса, лежащие около единицы, свидетельствуют о плохой дискриминации.

Иными словами, это можно выразить следующим образом: если значения лямбды Уилкса близки к нулю, то мощность дискриминации (мощность = 1 – вероятность ошибки) близка к 1, если лямбда Уилкса близка к единицы, то мощность близка к нулю.

Шаг 7. Нажмите кнопку Variables in the model (Переменные, включенные в модель). На экране появится итоговая таблица анализа (рисунок 15.8).

 

Рисунок 15.8 – Итоговая таблица анализа данных из файла Iris.sta

Шаг 8. Просмотрите разделение групп на графике. Для этого инициируйте кнопку Perform Canonical analysis(Канонический анализ). В появившемся диалоговом окне Canonical Analysis (канонический анализ) нажмите кнопку Scatterplot of canonical scores
(Диаграмма рассеяния канонических значений). На экране появится следующий график (рисунок 15.9).

Рисунок 15.9 – Разделение трех типов ириса

Шаг 9. Просмотрите функции классификации. В диалоговом окне Результаты дискриминантного анализа нажмите кнопку Classification functions(Функции классификации) (рисунок 15.10).

 

Рисунок 15.10 – Функции классификации, построенные пошаговым Forward stepwise (методом вперед)

С помощью этих функций можно вычислить классификационные значения (метки) для вновь наблюдаемых цветков по формулам:

SETOSA = –16,43*Sl+23,69*Sw–17,4*Pl+23,54*Pw–86,31;

VERSICOL = 5,21*Sl+7,07*Sw–6,43*Pl+15,70*Pw–72,85;

VIRGINIC = 12,76*Sl+3,69*Sw–21,08*Pl+12,5*Pw–104,37,

где:

- Sl – Sepallen;

- Sw – Sepalwid;

- Pl – Petallen;

- Pw – Petalwid.

Пусть вы имеете новый цветок со значениями: Sepallen, Sepalwid, Petallen, Petalwid.

К какому типу ириса его отнести? Формально следует подставить эти значения в приведенные выше формулы и вычислить классификационные значения SETOSA,VERSICOL,VIRGINIC.

Новый цветок относится к тому классу, для которого классификационное значение максимально.

Конечно, построенные классификационные функции могут быть определены в электронных таблицах как формулы, и для каждого добавленного случая по ним могут быть вычислены классификационные метки. Таким образом, каждый новый объект автоматически относится к определенному классу.

Шаг 10. Нажмите кнопку Squared Mahalanobis distance(Квадрат расстояния Махаланобиса) ивы увидите таблицу с квадратами расстояния Махаланобиса от точек (случаев) до центров групп
(рисунок 15.11).

 

Рисунок 15.11 – Расстояния Махаланобиса для данных
из файла Iris.sta

Случай относится к группе, до которой расстояние Махаланобиса минимально.

Шаг 11. Апостериорные вероятности.

Рассмотрите группу опций внизу диалогового окна Результаты дискриминантного анализа: A priori classifications probabilities(Априорные вероятности классификации). До анализа вы задаете для каждого объекта (в данном примере цветка) вероятность, с какой он принадлежит к определенному классу. После того как анализ выполнен, можно пересчитать эти вероятности и получить апостериорные вероятности классификации. Нажав кнопку Posterior probabilities(Апостериорные вероятности), вы увидите таблицу с апостериорными вероятностями принадлежности объекта к определенному классу (рисунок 15.12).

 

Рисунок 15.12 – Таблица апостериорных вероятностей

Интерпретация данной таблицы очень проста. В первом столбце указан тип ириса для каждого случая. Во втором, третьем, четвертом столбцах даны апостериорные вероятности отнесения каждого цветка к определенному типу.

Цветок относится к группе с максимальной апостериорной вероятностью.

Знаком * отмечаются неправильно классифицированные при использовании данного правила случаи (5, 9, 12). В исходной таблице (рисунок 15.1) необходимо внести изменения, а затем заново выполнить процедуру дискриминантного анализа.

Шаг 12. Классификация новых случаев.

Не закрывая диалога Результаты дискриминантного анализа, добавьте в таблицу исходных данных новый случай (151 строка на рисунке 15.13).

 

Рисунок 15.13 – Новое наблюдение в данных Iris.sta

Шаг 13. Запустите процедуру дискриминантного анализа. Для того чтобы понять, к какому классу относится этот объект, нажмите кнопку Posterior probabilities(Апостериорные вероятности), вы увидите ту же таблицу с апостериорными вероятностями, к которой будет добавлена строка (рисунок 15.14).

 

Рисунок 15.14 – Классификация нового наблюдения

Итак, новое наблюдение с вероятностью 0,999 можно отнести к типу SETOSA.

Задания для выполнения

1 Создайте пустую электронную таблицу Spreadsheet.sta.

2 Внесите данные для выполнения расчетов, находящиеся в Приложении Ж (таблица Ж1).

Выполните процедуры дискриминантного анализа в соответствии с порядком операций, выполненных в настоящем разделе.

Дайте объяснение полученным результатам.

Из таблицы 1.1 внесите новые данные.

Запустите процедуру дискриминантного анализа.

Внесите поправки в исходную таблицу, пополнив обучающую выборку новой информацией.

Таблица 15.1 – Классификация новых случаев

1 задание 2 задание 3 задание
Класс 1 призн. 2 призн. 3 призн. 4 призн. Класс 1 призн. 2 призн. Класс 1 призн. 2 призн.
  1,14 1,26 0,99 2,06   0,738 0,658   36,63 31,29
  0,79 0,84 1,17 2,72   0,612 0,243   24,84 19,63
  1,01 1,16 1,06 1,4   0,774 0,233   17,78 13,00
  0,97 1,11 0,73 0,98   0,933 0,271   5,17 1,92

Лабораторная работа 16
Классификация
(кластерный анализ в Statistica 6)

Цель работы: научиться на основе применения метода k-means clustering (k-средних) Statistica 6 исходную совокупность объектов разделить на кластеры или группы (классы) схожих между собой объектов.