Проблемы измерения, возникающие при выборе способа анализа данных

Измерение в социологии зачастую переплетается с проблемой выбора возможных способов анализа собранных с его помощью данных. Это очень важно. Ведь измерение в конце концов нужно не само по себе, а именно для последующего изучения его результатов. И качество подходов к измерению должно оцениваться не в последнюю очередь с точки зрения возможности конструктивного определения того, что можно делать с этими результатами.

А вопросов здесь множество.

1) Выбор способа анализа данных зависит от характера исходных шкал. Это обстоятельство на интуитивном уровне знакомо каждому социологу. Каждый знает, что, скажем, среднее арифметическое можно использовать для интервальных шкал, но нельзя для порядковых и номинальных (об этом говорится во многих ориентированных на социолога работах). Но в действительности ситуация не столь проста, как кажется. Поясним это на том же примере.

С одной стороны, со сказанным остается только согласиться, поскольку явно нелепо придавать смысл среднему арифметическому значению, к примеру, чисел 3 и 4, из которых 3 означает код токаря, 4 — код пекаря. Но, с другой, рассмотрим другую ситуацию: пусть "О" означает мужчину, "1" — женщину, а соответствующее среднее арифметическое для какой-то совокупности респондентов равно 0,4. Это вполне можно принять, если интерпретировать значение среднего не как то, что наиболее типичный представитель рассматриваемой совокупности на 40% является женщиной, а как оценку доли женщин в совокупности — их 40%. Конечно, то, что мы сказали, довольно очевидно. Но за этими простыми примерами скрывается проблема. Нужна теория, которая позволяла бы в любой ситуации определять, какой метод и в каком смысле пригоден для анализа конкретных данных. Эта теория будет рассмотрена нами в разделе 4.

Указанная проблема не встает для данных, полученных по шкалам низких типов, если мы будем использовать для их анализа специально предназначенные для этого методы (таких методов известно довольно много; см., например, [Анализ нечисловой..., 1985; Интерпретация и анализ..., 1987]. Но здесь возникает вопрос другого рода. Далеко не для всех методов, отвечающих естественной логике социолога, изучающего такие данные,


 

разработаны соответствующие математико-статистические концепции. Так, для них часто бывает совершенно неясно, каким образом переносить результаты с выборки на генеральную совокупность (о задачах математической статистики см. [Гласс, Стэнли, 1976; Статистические методы..., 1979]). Отметим, однако, что в соответствующем направлении ведется работа [Орлов, 1985].

2) Характер шкалы (интерпретация данных) зависит от выбора метода анализа результатов измерения. Этот аспект связи выглядит своеобразным, он редко затрагивается в литературе.

Рассматриваемое положение говорит о том, что наша трактовка (интерпретация) данных обусловлена не только "доизмерительными" шагами (способом их физического получения, предположениями о свойствах ЭС), но и, как ни странно, "послеизмерительными" представлениями о сути тех методов, которые предположительно будут использоваться для анализа результатов измерения.

Выделим в этом аспекте две стороны.

а) Содержательная сторона. Имея в сознании определенную содержательную концепцию того явления, которое должно изучаться на основе анализа результатов измерения, социолог часто вкладывает в исходные данные смысл, определяемый этой концепцией и соответственно характером предполагаемых методов анализа.

В качестве примера можно упомянуть рассуждения из [Типология и классификация..., 1982, гл. 7], где речь идет об осуществлении типологии времяпрепровождения на базе данных о бюджетах времени респондентов: определенный взгляд на искомые типы обусловливает необходимость считать, что фактически используемый тип шкал отличается от типа, обусловленного физическим способом получения исходных данных. Сходные вопросы применительно к типологии респондентов по их ценностным ориентациям рассматриваются в [Толстова, 1978а, б]). Заметим, что приведенные примеры являются также иллюстрациями к рассуждениям о признаках-приборах из п. 1.3.

Отметим работу [Котов, 1985], в которой, хотя и идет речь об измерении в биологии, но рассматриваются проблемы, весьма важные и для социолога, в частности, влияние выбора метрики того пространства, в котором исследователь осуществляет классификацию объектов, на интерпретацию данных.

Представляется, что частному случаю рассмотренного аспекта понятия ЭС отвечает понятие вспомогательной теории измерений Блейлока [Blalock, 1982; Девятко, 1991а], которое он ввел


 

для учета в процессе измерения гипотез об изучаемых далее связях. Примерно те же соображения высказываются Гуттманом в его президентском послании Психометрическому обществу [Guttman, 1971], где он говорит о том, что в рамках измерения необходима разработка специальных теоретических конструкций и что теория измерений в отличие от статистической теории имеет дело не с выводами из выборки, а с конструктуированием структурных гипотез. Но Гуттман, на наш взгляд, слишком узко понимает конструируемые гипотезы: как и Блейлок, он имеет в виду только структуру корреляций между переменными.

б) Формальная сторона. Некоторые методы анализа данных опираются на предположения, что эти данные удовлетворяют определенным условиям. Эти условия не всегда бывают безобидными. А опираются на них и многие широко используемые алгоритмы анализа данных. Так, хорошо известный социологам способ измерения связи между двумя номинальными переменными с помощью критерия "Хи-квадрат" предполагает, что за каждой из этих переменных "стоит" непрерывный континуум [Кендалл, Стьюарт, 1973] (о сути такого предположения см. п. 1.3, п. 2).