Определение значимости дискриминантной функции


Чтобы проверить нулевую гипотезу о равенстве центроидов групп, рассмотрим обе функции • новременно. Можно успешно проверить средние функций, выполнив первую проверку всех средь одновременно. Затем, на следующих этапах, каждый раз исключают одну из функций и проверь средние оставшихся функций. Если в табл. 18.5 в колонке "После удаления функции" стоит О значит не была удалена ни одна функция. Значение коэффициента X Уилкса равно 0,1644. Коэф<3 циент А Уилкса преобразуется в статистику хи-квадрат, равную 44,831 с 10-тью степенями свобод которая является значимой выше 0,05 уровня. Таким образом, две функции вместе значимо диск] минируют (различают) три группы. Однако после исключения первой функции коэффициен Уилкса, соответствующий второй функции, равен 0,8020, и является не значимой при уровне О, Поэтому вторая функция не вносит значимый вклад в групповые различия.

Интерпретация результатов

Рис. 18.2. Диаграмма рассеяния всех групп

 

"путешествие", "отдых" и "возраст". К аналогичному заключению можно прийти, изучив струк­турную матрицу (см. табл. 18.5). Для удобства интерпретации переменные с большими коэффи­циентами для конкретной функции группируют вместе. Эти группировки отмечены звездочкой. Так "доход" и "размер семьи" помечены звездочкой для функции 1, поскольку эти переменные имеют коэффициенты, значения которых для функции 1 выше, чем для функции 2. Эти пере­менные связаны главным образом с функцией 2, что и показывают звездочки.

На рис. 18.2 приведена диаграмма рассеяния всех групп для функций 1 и 2.

Видно, что группа 3 имеет наивысшее значение по функции 1, а группа 1 — самое низкое. По­скольку функция 1 в первую очередь связана с переменными "доход" и "размер семьи", можно ожи­дать, что три группы будут ранжированы по этим двум переменным. Большие семьи, имеющие бо­лее высокие доходы, вероятно, будут тратить большую сумму на отдых. И наоборот, небольшие семьи с низкими доходами, вероятно, будут тратить небольшие суммы денег на отдых. Эти результаты под­тверждаются проверкой групповых средних по переменным: доход и размер семьи.

-8,0 -6,0 -4,0 -2,0 0,0 2,0 'Отмечает групповой центр

Рис. 18.3. Территориальная карта

 

большее значение семейному отдыху, по сравнению с семьями из группы 2, то почему они тр тят на это меньше денег? Возможно, они и хотели бы потратить большую сумму на отдых, i они не могут сделать этого из-за низких доходов.

Аналогичные выводы получены с помощью территориальной карты, (territorial map), пок занной на рис. 18.3.

Территориальная карта (territorial map)

Инструмент для оценки результатов дискриминантного анализа на основе построения диа­граммы групповой принадлежности каждого случая.

На территориальной карте каждый групповой центроид указан звездочкой. Границы rpyi пы показаны числами в соответствии с номерами групп. Таким образом, центроид группы ограничен цифрами 1; центроид группы 2 — цифрами 2; центроид группы 3 — цифрами 3.

Оценка достоверности дискриминантного анализа

Результаты классификации, полученные на основе анализируемой выборки показываю что (9 + 9 +8)/30 = 86,67% случаев классифицировано верно. Если классификационный ан; лиз выполняют на основе проверочной независимой выборки табл. 18.3, то процент попадаш немного меньше — 83,3%. Задав три группы равного размера, и исходя только из случайност] можно ожидать, что коэффициент результативности (процент попаданий) равен 1/3 = 0,3 • или 33,3%. Превышение полученного результата над случайным составляет 50%, и это свид тельствует об удовлетворительной достоверности модели [14].

Следующий пример иллюстрирует применение множественного дискриминантного ан; лиза для нескольких групп.

ПРИМЕР. Дом — там, где нравится пациенту

Для определения отношения людей к четырем системам предоставления медицинских услуг (медицинское обслуживание на дому, больницы, дома престарелых и амбулаторные клиники) проведен их опрос по 10 характеристикам обслуживания. Полученные 102 ответа проанализированы с помощью множественного дискриминантного анализа (табл. 1).

Таблица 1. Нормированные коэффициенты дискриминантной функции

Дискриминантная функция

2 -0,04 0,08 0,10 -0,28 0,27 -0,14 0,67 0,08 0,32 -0,03 29,4Ь 289,2
3 0,15 0,07 0,16 0,52 -0,19 -0,70 -0,10 0,49 -0,15 0,18 7,6Ь 70,1

Переменная 1

Безопасность - 0,20

Удобство (близость) 0,08

Вероятность медицинских осложнений3 - 0,27

Дороговизна (услуги)3 0,30

Комфортабельность (комфорт) 0,53

Санитария - о,27

Наилучшее медицинское обслуживание - 0,25

Уединенность (приватность) 0,40

Более быстрое выздоровление 0,30
Комплектация лучшим медицинским персоналом -0,17

Процент объясняемой дисперсии 63,0Ь

Статистика хи-квадрат 663,3

аВ вопроснике эти два пункта заданы наоборот. Для анализа данных их закодировали в обратном порядке. ьр < 0,01

 

Определены три дискриминантные функции. Проверка статистик хи-квадрат показала, что все три дискриминантные функции значимы при уровне 0,01. Вклад первой функции в общую дискриминирующую способность составил 63%, а вклад оставшихся двух функ­ций __ 29,4% и 7,6% соответственно.

В табл. 1 представлены нормированные коэффициенты дискриминантной функции 10 переменных в дискриминантных уравнениях. Значения коэффициентов варьирует в преде­лах от —1 до + 1. При определении способности каждой характеристики классифицировать (делить на группы) систему предоставления медицинских услуг использованы абсолютные значения. В первой дискриминантной функции двумя переменными с самыми большими коэффициентами оказались переменные "комфорт' (0,53) и "приватность" (0,40). Посколь­ку обе переменные связаны с персональным обслуживанием и медицинским уходом, то первая характеристика обозначена как "индивидуальный уход". Во второй функции двумя переменными с самыми большими коэффициентами стали переменные "качество меди­цинского обслуживания" (0,67) и "вероятность более быстрого выздоровления" (0,32). По­этому эта характеристика названа "качество медицинского обслуживания". В третьей дис­криминантной функции наиболее значимыми характеристиками оказались "санитария" (— 0,70) и "дороговизна (услуг)" (0,52). Поскольку эти две характеристики представляют стои­мость и цену, третья дискриминантная функция получила название "стоимость".

Значения четырех групповых центроидов показаны в табл. 2.

Таблица 2. Центроиды систем медицинского обслуживания в дискриминантном пространстве

Дискриминантная функция Система 123

Больница (стационар) - 1,66

Медицинское обслуживание на дому - 0,60

Амбулаторная клиника 0,54

Медицинский уход в домах престарелых 1,77

0,97 -1,36 -0,13 0,50

-0,08 -0,27 0,77 -0,39

Данные таблицы показывают, что медицинское обслуживание на дому оценивается как наиболее приемлемое обслуживание по характеристике "индивидуальный уход", а пребыва­ние в больнице — как наихудший вариант. Что касается характеристики "качество меди­цинского обслуживания", то здесь наблюдалось существенное различие между медицин­ским обслуживанием на дому и другими тремя системами. По этой характеристике "качество медицинского обслуживания", "обслуживание на дому" также получило наи­высшие оценки по сравнению с амбулаторными клиниками. Но, с другой стороны, амбула­торные клиники оценены как наилучшие с точки зрения предлагаемой цены.

Классификационный анализ 102-х респондентов, представленный в табл. 3, показывает верное отнесение к группам, начиная с 86% для больниц и 68% — для амбулаторных клиник.

Таблица 3. Классификационная таблица

Отнесение к класу (в %)

Больница Медицинское обслу­живание на дому

Амбулаторная Медицинский уход клиника в домах престарелых

Система

Больница 86 6

Медицинское обслуживание на дому 9 78

Амбулаторная клиника 9 13

Медицинский уход в домах престарелых 5 4

Неверная классификация для больниц составила по 6% для домов престарелых и амбула­торных клиник и 2% — для медицинского обслуживания на дому (вместо отнесения к боль­ницам 6% было отнесено к домам престарелых и амбулаторным клиникам и 2% — к медицин­скому обслуживанию на дому). Неверная классификация для домов престарелых была такой:

6 10 68 13

2 3

10 78

9% отнесли к больницам, 10% — к амбулаторным клиникам и 3% — к медицинскому обслу­живанию на дому. Неверная классификация для амбулаторных клиник была такой: 9% невер­но отнесли к больницам, 13% — к домам престарелых и 10% — к медицинскому обслужива­нию на дому. Для медицинского обслуживания на дому неверная классификация оказалас! такой: 5% отнесли к больницам, 4% — к домам престарелых и 13% — к амбулаторным клини­кам. Результаты показали, что дискриминантные (классифицирующие) функции оказание! достаточно точными при предсказании групповой принадлежности [15].