Дихотомизация номинальных данных. Обоснование допустимости применения к полученным дихотомическим данным любых "количественных" методов

Конечно, использовать регрессионную технику для анализа “чисел”, являются метками, отвечающими некоторой номинальной шкале, бессмысленно (считаем это интуитивно ясным, хотя можно было бы доказать такое утверждение строго, используя понятие адекватности математического метода из теории измерений (см., например, (Толстова, 1998)). Для того, чтобы на основе информации, полученной по номинальной шкале, можно было построить уравнение регрессии, эту информацию необходимо преобразовать. Соответствующее преобразование носит название дихотомизации номинальных данных. Этот подход применяется очень широко, поскольку его использование как бы “открывает дверь” для применение подавляющего большинства “количественных” методов с целью анализа номинальных данных. Опишем суть преобразования.

Вместо каждого номинального признака, принимающего к значений, вводим к новых дихотомических (т.е. принимающих два значения, будем обозначать эти значения 0 и 1). Надеемся, что то, как это делается, станет ясным из следующего примера.

Предположим, что рассматриваемый номинальный признак Х – это национальность и что в соответствующем закрытом вопросе анкеты фигурируют три национальности: русский, грузин и чукча. Каждой из этих альтернатив поставим свой дихотомический признак, задаваемый следующим правилом (напомним, что задать признак - значит задать правило приписывания отвечающих ему значений каждому респонденту):

Применение регрессионной техники к преобразованным номинальным данным называется номинальным регрессионным анализом. Поясним подробнее, что именно при реализации соответствующего подхода происходит с зависимой и независимыми переменными. Предположим, что мы хотим изучить связь вида

Y = f(X),

где Х – скажем, та же национальность (предусматривающая, как и выше, три варианта ответов), а Y – профессия. Вместо признака Х в уравнение необходимо вставить три новых предиктора – Х₁, Х_2, Х₃, описанные выше. Однако здесь имеется один нюанс. В конце п. 2.6.1. мы отмечали нежелательность включения в регрессионную модель таких предикторов, которые заведомо связаны друг с другом. А относительно наших Х₁, Х_2, Х₃ такая связь как раз имеет место. Покажем это.

Нетрудно видеть, что если мы знаем значения двух из трех рассматриваемых предикторов, то значение третьего определяется автоматически. Мы можем не спрашивать респондента, какая у него национальность, а сами определить ее, если знаем, какие значения для него имеют признаки Х₁ и Х₂. Это демонстрируется приведенной ниже таблицей 28.

Таблица 28.