Характеристическая структура (characteristic profile)

Средство интерпретации результатов дискриминантного анализа описанием каждой группы через групповые средние для предикторов.

Если важные предикторы установлены, то сравнение групповых средних по этим перемен­ным может помочь понять межгрупповые различия. Однако прежде чем интерпретировать ка­кие-либо факты, необходимо убедиться в достоверности результатов.

Оценка достоверностидискриминантного анализа

Как уже говорилось, данные разбивают случайным образом на две подвыборки. Анализи­руемую часть выборки используют для вычисления дискриминантной функции, а провероч­ную — для построения классификационной матрицы. Дискриминантные веса, определенные анализируемой выборкой, умножают на значения независимых переменных в проверочной выборке, чтобы получить дискриминантные показатели для случаев в этой выборке. Затем слу­чаи распределяют по группам, исходя из дискриминантных показателей и соответствующего правила принятия решения. Например, при дискриминантном анализе двух групп случай мо­жет быть отнесен к группе с самым близким по значению центроидом. Затем, сложив элемен­ты, лежащие на диагонали матрицы, и разделив полученную сумму на общее количество случа­ев, можно определить коэффициент результативности(hit ratio) или процент верно классифи­цированных случаев [9].

Коэффициент результативности (hit ratio)

Процент случаев, верно классифицированных с помощью дискриминантного анализа.

Полезно сравнить процент случаев, верно классифицированных с помощью дискрими­нантного анализа, с процентом случаев, который можно получить случайным образом. Для равных по размеру групп процент случайной классификации равен частному от деления еди­ницы на количество групп. Превысит ли и насколько количество верно классифицированных случаев их случайное количество? Здесь нет общепринятого подхода, хотя некоторые авторы считают, что точность классификации, достигнутая с помощью дискриминантного анализа, должна быть, по крайней мере, на 25% выше, чем точность, которую можно достичь случай­ным образом [10].

Большинство программ для выполнения дискриминантного анализа также определяют классификационную матрицу, исходя из анализируемой выборки. Поскольку программы учи­тывают даже случайные вариации в данных, то полученные результаты всегда точнее, чем клас­сификация данных на основе проверочной выборки [11].

В табл. 18.4 (пример семейного отдыха на курорте) также показаны результаты классифика­ции, полученные на основе анализируемой выборки. Коэффициент результативности или процент верно классифицированных случаев равен (12 + 15)/30 = 0,90 или 90%. Могут воз­никнуть сомнения, что этот коэффициент результативности искусственно завышен, поскольку данные, использованные для вычисления, использовались и для проверки. Выполнение клас­сификационного анализа по независимому набору данных приводит к классификационной матрице с немного меньшим коэффициентом результативности (4 + 6)/12 = 0,833 или 83,3% (табл. 18.4). Задав случайным образом две группы равного размера, можно ожидать, что коэф­фициент результативности равен 1/2 = 0,50 или 50%. Однако превышение точности классифи­кации над случайной классификацией составляет свыше 25%, и поэтому достоверность дис­криминантного анализа оценивают как удовлетворительную.

Следующий пример иллюстрирует иное применение дискриминантного анализа двух групп.

 

ПРИМЕР. Домоседы

Маркетологи использовали дискриминантный анализ для двух групп, чтобы оценип силу каждого из пяти факторов, использованных при делении людей на тех, кто смотрит те левизор, и тех, кто не смотрит. Данный метод хорошо подходил для этой цели вследствр природы предопределенных категориальных групп (телезрители и нетелезрители) и интег вальных шкал, использованных для получения отдельных значений факторов.

Отобраны две группы по 185 взрослых зрителей (телезрителей и нетелезрителей) с общи размером выборки п = 370. Дискриминантное уравнение для анализа вычислено с помощь подвыборки, состоящей из 142 респондентов, взятых из выборки в 370 человек. Оставшиес 198 респондентов служили как проверочная подвыборка в перекрестной проверке уравнена 30 респондентов исключили из анализа из-за отсутствия дискриминантных значений.

Каноническая корреляция для дискриминантной функции, равная 0,4291, являлас значимой при р < 0,0001 уровне. Собственное значение равнялось 0,2257. В таблице прив< дены нормированные канонические дискриминантные коэффициенты. Значительная час] дисперсии объясняется дискриминантной функцией. Кроме того, как показано в таблиц фактор "ориентация на дом" внес наибольшой вклад в классификацию индивидуумов ъ телезрителей и нетелезрителей. Также свой вклад внесли мораль, безопасность и здоровь уважение. Как оказалось, социальный фактор играл небольшую роль.

Результаты дискриминантного анализа Стандартные коэффициенты канонической дискриминантной функции

Мораль 0,27798

Безопасность и здоровье 0,39850

Ориентация на дом 0,77496

Уважение 0,32069

Социальный фактор -0,01996