Методы ДА, THAID, CHAID с точки зрения поиска обобщенных взаимодействий

Вспомним расширенное, обобщенное определение понятия взаимодействия из п.2.2.1 и рассмотрим, в какой мере рассмотренные алгоритмы позволяют находить такие обобщенные взаимодействия. Вспомним также те примеры выводов в терминах изучаемых признаков, которые мы привели в названном параграфе, считая, что именно они в основном интересуют социолога.

Начнем с рассмотрения ДА. Ясно, что он направлен на поиск таких сочетаний значений предикторов, которые действительно можно назвать взаимодействиями. Он позволяет получать истинные суждения такого типа: “5-е или 6-е значение 8-го признака в сочетании с 3-м значением 14-го и 1-м значением 2-го детерминирует 2-е значение 30-го". Однако очевидно, что при этом имеются в виду не все наши обобщенные взаимодействия. Не учитываются следующие обстоятельства.

(1) В обобщенном определении взаимодействия в качестве объясняющего положения может выступать любая логическая функция от значений исходных признаков. Помимо конъюнкции и дизъюнкции, задействованных в ДА, могут использоваться отрицание и импликация. Это в какой-то мере не принципиально, поскольку функции второй пары в нашем случае могут быть выражены через функции первой, но социологу при формулировке содержательных задач часто бывает легче, естественнее использовать все элементарные функции логики высказываний. Например, предположим, что вопрос о занятии респондента предусматривает 15 ответов: токарь, пекарь, …, аптекарь, бомж. Наверное, исследователю удобнее проверять истинность суждения "если респондент – не бомж, то он согласен на оплату благоустройства дворов", чем суждение "если респондент или токарь, или пекарь, или …, или аптекарь, то он согласен на оплату …");

(2) При использовании ДА в качестве объясняемого положения выступает некоторое единственное значение какого-либо независимого признака При расширенном же определении взаимодействия, в соответствии с нашим определением, объясняемым положением может служить также любая логическая функция от сочетаний значений одного или нескольких признаков, некоторым другим образом задаваемое "поведение" респондента (см. ниже обсуждение алгоритма CHAID), частота таблицы сопряженности; кроме того, предусматривается возможность отсутствия объясняемого положения. Всего этого ДА не учитывает.

Перейдем к рассмотрению алгоритмов THAID и CHAID. Нетрудно видеть, что они, как и ДА, направлены на поиск взаимодействий. Но здесь тоже учитываются не все свойства наших обобщенных взаимодействий. Названные алгоритмы позволяют делать выводы такого плана:

“5-е или 6-е значение 8-го признака в сочетании с 3-м значением 14-го и 1-м значением 2-го детерминирует групповое поведение, описанное (в определенном в п. 2.5.3 смысле) в терминах 30-го признака”. Для алгоритма THAID упомянутое “поведение” означает долю модального значения 30-го признака. Выделенные группы – те, для которых эта доля достаточно высока. Для алгоритма CHAID – “поведение” характеризуется распределением выходного (в данном случае – 30-го) признака. Выделенные группы таковы, что отвечающие им распределения максимально отличаются друг от друга.

По поводу объясняющего положения, фигурирующего в обоих алгоритмах, можно сказать то же, что было сказано выше применительно к возможностям ДА.

Переходя к обсуждению объясняемого положения, рассмотрим сначала алгоритм THAID. Цели ДА здесь достигаются. Это является следствием того, что обеспечение максимальной (из возможных) доли модального значения выходного признака по существу означает обеспечение того, что соответствующее объясняющее выражение детерминирует это самое модальное значение. Преимуществом алгоритма THAID является определенная гарантия того, что, если искомые детерминации существуют в исследуемой совокупности, то они будут выявлены. Кроме того, THAID позволяет не “замыкаться” на единственном значении выходного признака, а искать все такие его значения, для которых можно найти соответствующее объясняющее выражение.

Пока мы говорили о возможности пропустить интересующие исследователя факты. Теперь попытаемся сравнить сами критерии качества детерминаций. Другими словами, сравним способы формализации понятия приближенности связи между объясняющим и объясняемым положениями в рассматриваемых ситуациях.

В ДА упомянутый способ формализации – это точность и полнота строящихся детерминаций. В случае использования THAID степень приближенности найденных детерминаций определяется выбором пороговой доли модальной частоты целевого признака. Такая доля – это “точность правила” в смысле ДА. А поскольку мы при использовании THAID ищем сразу все достаточно точные детерминации, то можно сказать, что в результате нами находятся и достаточно полные правила. Объясняющие положения, отвечающие одному и тому же объясняемому значению выходного признака, при этом объединяются в дизъюнкцию.

Таким образом, в принципе THAID позволяет решать те же задачи, что и ДА, но с большей эффективностью. Явным преимуществом ДА является то, что здесь мы активно используем интуицию исследователя. Это обстоятельство может существенно восполнить сформулированные в п.2.5.3.2 недостатки алгоритма THAID, приводящие к определенным “проколам” в его работе, к пропуску части искомых сочетаний значений предикторов.

При использовании алгоритма CHAID объясняемое положение – это такое "поведение" объектов выделенной группы, которое отождествляется с характерным только для нее распределением целевого признака. Подчеркнем, что такое "поведение" в принципе отличается от того, что было обсуждено выше. При использовании ДА и ТHAID поведение определяется одним значением выходного признака. Это значение выступает как вполне самостоятельная сущность, описывающая что-то важное для социолога. При использовании же CHAID выходной признак предстает перед нами целиком, в виде вероятностного (частотного) распределения. Здесь мы явно имеем дело с той группой методов, которая в п. 2.2.3 связывалась нами с существованием числовых латентных переменных, стоящих за наблюдаемыми номинальными признаками. Это предполагает само использования критерия “Хи-квадрат”.

Ясно, что и при использовании CHAID учитываются не все требования, фигурирующие в нашем обобщенном определении взаимодействия. Не учитывается, что в качестве объясняемого положения может быть логическая функция от значений одного или нескольких признаков, частота таблицы сопряженности и то, что объясняющее положение может отсутствовать. Последнее обстоятельство будет рассмотрено в следующих двух параграфах. Там речь пойдет о проверке истинности некоторой логической формулы.

Алгоритм CHAID тоже не гарантирует получения всех интересующих исследователя решений. Более того, он не всегда позволяет повышать качество выделяемых типов объектов. Об этом шла речь в п. 2.5.3.3. Тем не менее, он как и THAID, все же в большей мере позволяет осуществлять целенаправленный поиск закономерностей, чем это делает ДА.