Методы построения интегральных (multiitem) шкал

Часто на основании содержащихся в анкете частных шкал нужно выявить интегральное (multiitem), обобщенное отношение каждого респондента к каждому изучаемому объекту. Например, на основании того, как он оценивает разные марки зубной пасты по отдельным характеристикам, попытаться сделать заключение о его отношении в целом к этим маркам. Это позволит нам предсказать, за какую марку респондент в итоге "проголосует" своими деньгами.

Что касается интегральных шкал, возникает вопрос, на каком основании и каким образом включаются или не включаются в анкету (или в форму для наблюдений) те или иные частные шкалы. Полный комплекс направленных на это работ весьма длителен, трудоемок и требует значительных затрат. Он состоит из нескольких этапов.

Предположим, мы хотим сформировать интегральную шкалу оценок, комплексно характеризующую отношение респондентов к определенным объектам, например к брендам какого-то товара.

На первом этапе на основании теоретических соображений, вторичных данных и качественных исследований составляется первоначальный, как правило, гораздо более широкий, чем может реально "выдержать" анкета, набор частных шкальных вопросов - кандидатов на включение.

На втором этапе сам исследователь, а также другие специалисты просматривают этот первоначальный набор и удаляют те вопросы, которые считают относительно менее существенными. (В ходе этого отбора часто применяются количественные оценки того, насколько, по мнению эксперта, существенна каждая шкала.) После этого набор шкал - кандидатов на включение в анкету - обычно все еще остается слишком большим.

На третьем этапе, который проводится в том случае, если позволяют время и финансовые возможности, все эти частные шкалы включаются в пробную анкету и проводится пробный опрос достаточно большой выборки респондентов. Данные этого опроса подвергаются статистической обработке. При этом могут использоваться корреляционный, факторный, кластерный, дискриминантный анализ и иные статистические методы. По результатам этого опроса удаляются еще некоторые плохо работающие частные шкалы.

На четвертом этапе проверяются надежность и валидность интегральной шкалы, построенной на основе полученного набора частных шкал. Это, как мы увидим, может вновь потребовать проведения опроса по еще одной пробной выборке респондентов. Итоговый набор частных шкал формируется с учетом указанных показателей качества интегральной шкалы.

Мы видим, что процесс отбора частных шкал весьма дорог, трудоемок и долог. Применять его в полной мере целесообразно для разработки длительно используемых шкал, например при подготовке к большой серии стандартизованных исследований. При этом пробные опросы, о которых шла речь выше, могут представлять собой, по сути, первые опросы серии, после которых в методику продолжают вноситься изменения. Когда же методика "оттачивается", она перестает меняться. Что же касается других, нестандартизованных исследований, то в этих случаях тоже целесообразно в той или иной мере учитывать приведенные выше положения.

Построение интегральной шкалы

Мы обсудили вопрос о том, как сформировать набор частных шкал. Теперь обсудим то, как получить на основе этих частных шкал итоговый интегральный индикатор. Прежде всего, что содержательно должен отражать этот интегральный индикатор? Предполагается, что он должен служить количественным выражением скрытой (латентной) переменной, изменение которой служит основным источником различий в значениях всего набора частных шкал. Например, респондент, который в целом положительно относится к товару определенной марки, будет хоть немного "подсуживать" этой марке, оценивая ее по самым разным признакам, а тот, кому марка в целом не нравиться, - будет занижать свои оценки. Важно, что люди могут это делать даже неосознанно. Таким образом, искомая латентная переменная может быть скрытой не только от исследователя, но даже и от респондента.

На практике довольно широко распространен простой метод построения интегрального индикатора путем усреднения балльных оценок по частным шкалам. Частный случай такого подхода - широко распространенный метод расчета диффузных индексов. Метод состоит в следующем. Положительным оценкам по частным шкалам приписывается 100 баллов, отрицательным - 0 баллов, всем остальным - 50 баллов, после чего производится усреднение. Достоинством метода является простота интерпретации полученных результатов: 50 баллов является нейтральной точкой на его оси, значения от 51 до 100 баллов свидетельствуют о наличии у респондента в той или иной степени положительного отношения к товару, а значения от нуля до 49 баллов - отрицательного.

Такой подход, однако, негласно предполагает, что каждый частный индикатор одинаково важен с точки зрения итоговой оценки. Например, что оценки респондентом разных качеств некоторого товара в равной мере учитываются им при выборе товара. Зачастую это оказывается не так. Так, для очень многих покупателей при выборе зубной пасты вера в ее эффективность в предупреждении кариеса имеет большее значение, чем внешний вид ее упаковки, который нельзя все же полностью сбрасывать со счетов. А в какой степени важен тот или иной частный индикатор, можно судить, только сравнивая различия между респондентами в значениях этого индикатора с различиями в значениях остальных частных индикаторов. Если одни респонденты в основном хвалят товар во всех отношениях, кроме внешнего вида упаковки, а другие - в основном ругают, причем в обеих группах респондентов встречаются самые разные оценки внешнего вида упаковки, значит, внешний вид упаковки вносит малый вклад в колебания искомой латентной переменной. Поэтому, чтобы использовать такие методы построения интегральной шкалы, необходимо отбирать частные шкалы так, чтобы их роли в формировании итогового мнения о товаре были примерно равными. Для этого, как уже отмечалось, привлекают экспертов и тем не менее данное требование во многом остается благим пожеланием.

Более тонкий метод построения интегрального индикатора основан на использовании классического или категориального (в зависимости от типа используемых частных шкал) метода главных компонент2. Первый фактор, получаемый с помощью этих методов, объясняет наибольшую долю дисперсии частных шкал и служит количественным выражением искомой скрытой (латентной) переменной. При этом вес, с которым учитывается каждая частная шкала, определяется путем анализа матрицы корреляции между частными шкалами.

Поясним простейший вариант применения этого метода. Предположим, 1000 респондентов оценили в баллах качество каждого из десяти конкурирующих товаров по пяти частным шкалам. Будем считать, что в основе этих оценок лежит скрытое от исследователя, а возможно, даже и от самого респондента, отношение к каждому товару. Каждому респонденту в зависимости от выставленных им оценок по всем частным шкалам ставится в соответствие определенное значение фактора. Таким образом, задача заключается в том, чтобы понять, какому значению фактора должно соответствовать то или иное сочетание оценок по пяти частным шкалам.

Для этого надо проследить, какие сочетания оценок и как часто встречались. В соответствии с нашей методикой, для этого необходимо составить массив исходных данных из 10 тыс. строк (по числу респондентов, умноженному на число конкурирующих товаров) и 5 столбцов (по числу частных шкал). Этот числовой массив и используется в качестве исходных данных для классического или категориального метода главных компонент. В итоге к нему добавляется еще один столбец - фактор, который затем преобразуется в искомую интегральную шкалу.

С помощью регрессионного анализа выясняется, на какие коэффициенты нужно умножить значение по каждой частной шкале, чтобы получить фактор. Среднее значение фактора по определению равно нулю, а дисперсия - единице. Для итоговой же шкалы из содержательных соображений более предпочтителен диапазон изменения от 0 до 100 баллов. Каждой градации каждой частной шкалы приписывается определенное число баллов, найденное с помощью регрессионного анализа, причем так, чтобы после суммирования этих баллов по всем шкалам при всех наиболее положительных оценках получалось 100 баллов, а при всех наиболее отрицательных - 0 баллов.

В итоге получается правило расчета значений интегральной шкалы, исходя из оценок, выставленных респондентами по частным шкалам.

Приведем в качестве примера методику расчета значений интегральной шкалы, полученной одним из авторов в ходе исследования результатов опроса россиян, проводимого в рамках проекта "Человек и деньги". С помощью этой шкалы в настоящее время осуществляются регулярные замеры воспринимаемого гражданами уровня инфляции в стране.

Вопрос: "Как, по вашему мнению, в целом изменились цены на продукты питания, непродовольственные товары и на услуги за прошедший месяц?"

Число баллов, начисляемых респонденту в зависимости от данных им ответов на вопросы анкеты

выросли очень сильно

12,0

выросли умеренно

7,1

выросли незначительно

3,1

не изменились

0,0

снизились

0,0

затрудняюсь ответить

2,8

Вопрос: "На ваш взгляд, как изменились за прошедший месяц цены на..."

"...хлеб?"

выросли очень сильно

14,7

выросли умеренно

8,3

выросли незначительно

3,4

не изменились

0,0

снизились

0,0

затрудняюсь ответить

0,4

"...мясо?"

выросли очень сильно

13,6

выросли умеренно

8,7

выросли незначительно

2,4

не изменились

0,0

снизились

0,0

затрудняюсь ответить

3,0

"...молочные продукты?"

выросли очень сильно

13,4

выросли умеренно

8,3

выросли незначительно

1,9

не изменились

0,0

снизились

0,0

затрудняюсь ответить

2,2

"...коммунальные услуги?"

выросли очень сильно

9,1

выросли умеренно

5,8

выросли незначительно

0,8

не изменились

0,0

снизились

0,0

затрудняюсь ответить

1,4

"...лекарства?"

выросли очень сильно

11,7

выросли умеренно

7,7

выросли незначительно

2,9

не изменились

0,0

снизились

0,0

затрудняюсь ответить

3,6

"...бензин?"

выросли очень сильно

12,9

выросли умеренно

7,7

выросли незначительно

1,8

не изменились

0,0

снизились

0,0

затрудняюсь ответить

3,2

"...бытовые услуги?"

выросли очень сильно

12,6

выросли умеренно

7,2

выросли незначительно

2,5

не изменились

0,0

снизились

0,0

затрудняюсь ответить

3,1

Легко заметить, что респонденту, который на все четыре вопроса ответил "выросли очень сильно", будет приписано 100 баллов, а который на все вопросы сказал либо "не изменились", либо "снизились" - 0 баллов. Динамика средних значений получившегося в результате расчета числового столбца позволяет судить о воспринимаемой динамике цен на потребительские товары и услуги.

Отметим одну предложенную авторами модификацию изложенной методики разработки интегральной шкалы. В некоторых случаях целесообразно произвести "огрубление" полученной интегральной шкалы с помощью метода классификационного дерева (Classification Tree). Такая модификация, названная нами "методом структурированного фактора", позволяет выяснить, от значений какой частной шкалы зависит интегральная шкала в первую очередь, от какой - во вторую и т.д. При этом, во-первых, некоторые категории каждой частной шкалы могут "склеиваться", если это мало меняет значение интегральной шкалы. А во-вторых, нередко оказывается, что при одном значении частной шкалы, выбранной на верхнем уровне "дерева", далее вершина "дерева" должна делиться, исходя из значений одного частного индикатора, а при другом - исходя из другого. В результате становится ясно, какие частные шкалы критически важны, а от каких (не вошедших в "дерево") можно без существенных потерь отказаться. Кроме того, выясняется, какое сочетание значений частных шкал свидетельствует о лучшем, а какое - о худшем отношении респондентов к товару в целом.

Пример 7.2

Методика прогнозирования результатов выборов

Прогноз результатов выборов в Государственную Думу в декабре 1999 г. был основан на данных опроса Фонда Общественное Мнение, проведенного 11-12 декабря в 56 населенных пунктах 29 областей, краев и республик всех экономико-географических зон РФ. Объем выборки составлял 2000 респондентов.

Прогноз строился на предположении, что склонность каждого респондента проголосовать за ту или иную партию можно измерить, т.е. выразить числом. Респондент отдаст свой голос той партии, для которой это число самое большое.

Набор чисел, выражающих склонность респондентов проголосовать за какую-либо определенную партию, назовем индикатором данной партии. Главная задача исследования состояла в разработке методики и построении индикаторов для всех 26 партий избирательного списка.

Индикаторы партий строились по ответам респондентов на следующие вопросы анкеты (для удобства в скобках после каждого вопроса приведена его условная формулировка, которая будет использована в табл. 7.2).

o Из перечисленных партий назовите, пожалуйста, все те, чье представительство в Государственной Думе у вас лично не вызвало бы серьезных возражений. (Без возражений.)

o Если бы выборы в Государственную Думу состоялись в ближайшее воскресенье, за какую партию (политический блок, движение) вы бы проголосовали скорее всего? (Голосование.)

o Как вы думаете, ваше решение голосовать за эту партию окончательное или еще может измениться? (Окончательность решения.)

o Если бы в списке не было партии (движения, блока), за которую вы решили голосовать, то за какую из перечисленных партий вы бы тогда проголосовали? (Вторая партия.)

o Представителей каких из перечисленных партий (политических блоков, движений) вы бы не хотели видеть в Государственной Думе? (Против.)

Основная проблема состояла в том, чтобы присвоить числовое значение каждому из возможных сочетаний ответов на приведенные выше вопросы, т.е. решить, какое сочетание ответов свидетельствует о более высокой, а какое - о более низкой склонности проголосовать за партию. Эта проблема была решена путем обработки данных опроса упоминавшимися выше статистическими методами. В результате был получен следующий принцип построения индикатора каждой партии.

Таблица 7.2. Индикаторы партий

Без

возражений

Голосование

Окончательность

решения

Вторая

партия

Против

Индикатор

(баллы)

назвал

не назвал

назвал

не назвал

да

скорее да

затрудняюсь ответить

скорее нет

нет

назвал

не назвал

не назвал

назвал

+

+

+

+

любой ответ

9

+

+

+

+

любой ответ

8

+

+

+

+

+

любой ответ

7

+

любой ответ

любой ответ

+

любой ответ

6

+

+

любой ответ

+

любой ответ

5

+

+

+

+

любой ответ

4

+

+

любой ответ

+

любой ответ

+

любой ответ

любой ответ

+

любой ответ

3

+

+

любой ответ

+

+

2

+

+

любой ответ

+

+

1

Таким образом, склонность каждого респондента проголосовать за ту или иную партию из списка можно измерить по девятибалльной шкале. Как видно из приведенной таблицы, 1 балл свидетельствует о негативном отношении к партии, 2 балла - о нейтральном, 3 и более баллов - о различной степени положительного отношения.

После того как для каждого респондента были рассчитаны значения всех индикаторов, стало возможным рассчитать, какое число голосов будет подано за каждую партию теми, кто придет на выборы. Голос каждого предположительно пришедшего на выборы респондента относился к той партии, где значение индикатора больше.

Вероятность того, что респондент будет участвовать в выборах, определялась эмпирически, исходя из ответа на вопрос: "В декабре пройдут выборы в Государственную Думу. Вы будете или не будете принимать в них участие?".

Таблица 7.3. Вероятность участия в выборах

Ответ

Вероятность участия

Безусловно буду

0,95

Скорее буду

0,20

Скорее не буду

0,10

Безусловно не буду

0,00

Пока не решил (-а), затрудняюсь ответить

0,15

При этих предположениях средняя явка должна была составить 65%. (Фактическая явка была ниже и составила 61,85%.) Приведем полученный в итоге прогноз распределения голосов на выборах в Государственную Думу и фактическое их распределение в % от числа голосующих (табл. 7.4).

Таблица 7.4. Прогноз распределения голосов, %

Партия

Прогноз

Факт

Коммунистическая партия Российской Федерации

22-23

24,29

"Медведь"

19-20

23,32

"Отечество - Вся Россия"

12-13

13,33

"Союз Правых Сил"

8-9

8,52

"Яблоко"

7-8

5,93

"Блок Жириновского"

5-6

5,98

Прочие (20 партий)

22-23

15,33

Против всех

1-2

3,30

Мы видим, что прогноз в целом достаточно близок к фактическому результату выборов, если не считать того, что оказались сильно завышенными результаты партий, объединенных в таблице в строке "прочие партии". Впоследствии этот дефект методики был устранен путем исключения из расчетов тех респондентов, которые ни в одном вопросе не выразили своего отношения ни к одной партии и потому им присвоено 2 балла по всем индикаторам. Причина завышения в прогнозе суммарного результата двадцати малых партий состояла в том, что такие ничего не ответившие респонденты равновероятно распределялись между всеми 26 партиями. Исключение же их из расчета эквивалентно распределению их голосов пропорционально прогнозируемым результатам партий, набравших большее число голосов. Как показали последующие выборы, такое предположение дает результаты, более близкие к фактическим.