Данные, иллюстрирующие зависимость величины меры качественной вариации от объема выборки

Наименование градации рассматриваемого признака Число респондентов (частота) в первой выборке (120 человек) Гипотетические частоты, отвечающие максимальному значению J Число респондентов (частота) во второй выборке (12 человек) Гипотетические частоты, отвечающие максимальному значению J
A
B
C

 

При объеме выборки в 12 человек (и, конечно, при трех градациях признака) максимальное количество пар из разнородных элементов равно (4×4 + 4×4 + 4×4) = 48. И реализация такой возможности (отвечающая последнему столбцу таблицы) говорит о наличии максимального разброса по рассматриваемому признаку. Другими словами, для выборки в 12 человек число 48 говорит о максимальном разбросе. А при объеме выборки в 120 человек (при тех же трех градациях) такого малого количества пар не может быть даже при самом минимальном (но ненулевом) разбросе. Ясно, такой минимальный разброс будет иметь место, если какое-то одно значение будет встречаться 119 раз, а другое – один раз (при отсутствии третьего значения). Количество же пар из разнородных элементов в таком случае будет равно 119, что больше 48.

Итак, если мы будем пользоваться только числителем дроби, выражающей коэффициент J, то в одном случае число 48 будет говорить о максимальном разбросе, а в другом – число 119 – о практическом отсутствии разброса. Мы полностью теряем возможность сравнивать величину коэффициента для разных совокупностей. Это вряд ли может быть приемлемо: любой анализ – это сравнение.

Именно для того, чтобы избежать описанного недоразумения, обычно поступают таким образом: в числитель помещают формулу, выражающую суть строящегося коэффициента, а в знаменатель – максимально возможное значение этого коэффициента для рассматриваемой ситуации (в нашем случае эта ситуация определяется объемом выборки и количеством градаций рассматриваемого признака). В итоге получившийся показатель “загоняется” в интервал от 0 до 1 (иногда используется интервал от -1 до +1, как в случае многих коэффициентов связи, начиная с известного коэффициента корреляции). Такая процедура называется нормировкой коэффициента.

Нетрудно проверить, что в рассматриваемом случае описанная нормировка есть деление числителя на аналогичную сумму произведений, отвечающую равномерному распределению (т.е. распределению, когда все градации признака встречаются с одинаковой частотой). Именно это отвечает приведенной выше формуле для вычисления J.

Строгое доказательство того, что именно в случае равномерного распределения число возможных пар рассматриваемого вида будет максимальным, можно найти в [Паниотто, Максименко, 1982]; там же приведена общая формула для коэффициента J (в названной работе он обозначен символом a k):

где N - объем выборки, k - количество градаций рассматриваемого признака, ni и nj - соответственно, частоты встречаемости i -й и j -й градаций.

В заключение обсуждения вопроса о коэффициенте качественной вариации отметим следующий важный для дальнейшего факт. Если мы имеем дело с дихотомическим признаком, принимающим два значения – 0 и 1, то, вычислив для такого признака обычную дисперсию, мы фактически получим соответствующий коэффициент качественной вариации (точнее, величину, равную этому коэффициенту, деленному на 4; предлагаем читателю самому это проверить). Этот факт подтверждает то, что далее станет для нас очень важным: для анализа дихотомических номинальных данных оказывается возможным использование “количественных” методов.

Еще один коэффициент разброса, также подходящий для анализа номинальных данных, основан на понятии энтропии распределения, к рассмотрению которой мы переходим.