Способы проверки процедуры первичного измере­ния на надежность

 

Следует иметь в виду, что операции повышения на­дежности первичного измерения, которые мы будем здесь рассматривать, используются лишь на стадии отра­ботки инструмента измерения в процессе пилотажа. После окончательной проверки надежности построен­ных шкал и сбора данных на объектах исследования ак­цент контроля их достоверности переносится с первич­ного измерения на вторичные, т. е. комбинаторные про­цедуры, и так последовательно вплоть до обоснования достоверности итоговых выводов.

В целом же достоверность результатов исследова­ния зависит от многих составляющих, начиная с того, насколько обоснована его общая концепция и все ком­поненты теоретико-методологического раздела програм­мы, а далее — от качества исходных данных, системы их отбора, т. е. соответствия типа выборки (и ее организа­ции) целям исследования, качества анализа данных и, наконец, от глубины интерпретации полученных зависи­мостей и связей.4

4 О требованиях и операциях, необходимых для гарантии общей Достоверности данных, см. [68, 200, 233]. Если учесть все возможные ошибки, связанные с неполным соответствием теоретической модели объекта самому объекту, возможными упущениями на разных этапах исследования (например, при расчетах выборки, тиражирования поле­вых документов и т. д.), спецификой типов возможных ошибок (напри-Мер, систематические или случайные), а также некоторые другие при­чины, то, как показал Б. 3. Докторов [68], в так называемой мет­рологической карте можно обнаружить 162 (I) составляющие возмож­ных ошибок.

 

К сожалению, нет единообразия в толковании терми­на "надежность" применительно к социологической информации. Главная причина состоит в том, что одни ав­торы трактуют надежность слишком расширительно как качество всего исследования и, следовательно, его итогов, а другие, напротив, отождествляют надежность с тем или иным особым ее проявлением (например, с.ус­тойчивостью данных, их адекватностью целям исследо­вания и т. д.).

Не останавливаясь здесь на дискуссии терминологи­ческого характера, заметим, что в строгом смысле слова понятие надежности измерения правомерно относить именно к инструменту, с помощью которого произво­дится измерение, но не к самим данным, подлежащим измерению, В отношении данных, как и заключитель­ных выводов из исследования, правильнее говорить, что они достоверны (или относительно достоверны) в том числе и потому, что фиксированы надежным инстру­ментом.

Возможны различные типологии приемов оценки надежности первичной информации, например, с точки зрения внешнего или внутреннего контроля данных, по­лучаемых определенным способом. Мы будем пользо­ваться обобщающим понятием надежности инструмен­та измерения (и соответственно надежности данных, фиксируемых этим инструментом), имея в виду три со­ставляющие: (1) обоснованность, (2) устойчивость и (3) правильность измерения. Естественно, что и методы контроля на надежность нужно рассматривать в этих трех аспектах5.

5 Наиболее детально методы и техника контроля данных на на­дежность изложены в работах Г. И. Саганенко [233] и В. И. Папиотто [200]. Последний применяет аналитический подход к предмету, выде­ляя множество разновидностей надежности и технических приемов оценки ее уровня [200. С. 74—75], тогда как Саганоцко, ряд идей и примеров из книги которой мы используем, акцентирует внимание на наиболее существенных, непременных требованиях и сравнительно простых способах контроля надежности.

Обоснованность6 шкалы заключается в том, что с ее помощью целенаправленно измеряют вполне опреде­ленное свойство или признак, не смешивая его с другими.

6 В зарубежной и отечественной (особенно в психологической) литературе вместо термина "обоснованность" часто используется как его аналог понятие "валидность". Однако в английском "reliability" (обоснованность) подчеркивает возможность полагаться на кого-либо, в данном случае доверять полученной информации благодаря тому, что она адекватна объекту измерения [337. С, 132—138], a "validity" семан­тически имеет оттенок устойчивости, "прочности" полученной инфор­мации. Поэтому термин "валидность" правильнее было бы соотносить ве с обоснованностью, во с устойчивостью данных измерения.

 

Предположим, при опросе телезрителей им предла­гают указать, каким из перечисленных в прилагаемом списке передачам телевидение уделяет "слишком мно­го", "достаточно" и "слишком мало" времени. Если с по­мощью этой трехчленной шкалы исследователь наме­рен фиксировать среднее время, отводимое телепереда­чам, его измерение будет необоснованным. В действи­тельности он измеряет отношение людей к данным пе­редачам, а не объем времени, отводимого для их транс­ляции. Обоснованное измерение объема времени на пе­редачи разного типа — документальный анализ "сетки" программ телевидения.

Чтобы повысить обоснованность измерения, исполь­зуют ряд технических приемов.

(1) Наиболее простой способ — логические рассуж­дения на основе опыта и здравого смысла.

Обратимся к примеру из обследования, проведенного Б. М. Фирсовым. Задача: определить среднюю интенсивность просмотра телепередач путем массового опроса телезрителей.

Первый вариант построения шкалы был таков. Вопрос: "Сколько приблизительно часов в день Вы проводите у телеви­зора?" Шкала для ответа содержала пять интервалов: (не больше 1 часа) — (от 1 до 2 часов) — (от 2 до 3 часов) — (от 3 до 4 часов) — (свыше 4 часов).

Путем логических рассуждений были высказаны следую­щие сомнения в обоснованности такого метода. Следует указать день просмотра телепередач: будний, субботний или вос­кресный. Иначе неясно, какой из дней зритель выберет за эталон оценки. Не спасет положения и вопрос, сколько в сред­нем часов в неделю зритель проводит у телевизора, так как люди не привыкли думать в "средних" величинах.

Значит, надо поставить вопрос так, чтобы: а) выделить дни недели и б) указать понятный для зрителя эталон оценки. По­этому более удачный вариант построения шкалы для решения той же задачи следующий [274. С. 142].

Первый вопрос: "Сколько дней в неделю Вы, как правило, смотрите телевизионные передачи?":

1) почти все дни недели;

2) 3 или 4 дня в неделю;

3) 1 или 2 дня в неделю;

4) меньше, чем один раз в педелю, т. е. не каждую неделю;

5) в сущности, совсем не смотрю.

Второй вопрос: "Не могли бы Вы приблизительно оце­нить, сколько в среднем часов Вы проводите у телевизора в тот день, когда смотрите передачи?" Сделайте отметку в каж­дой строке.

Дни недели Время просмотра
    не больше 1 часа от 1 до 2 часов от 2 до 3 часов от 3 до 4 часов свыше 4 часов
В будние дни
В субботу _
В воскресенье _ -

Теперь, пользуясь простыми арифметическими действия­ми, можно рассчитать "среднепросмотровое" время за неделю и составить шкалу.

Обозначим а число дней в неделю, уделяемых просмотру телепередач. Числовые индикаторы ответов на первый вопрос взяты как средние эмпирически полученных интервалов (в числе дней просмотра), а именно: 6; 3,5; 1,5; 0,7; 0. Обозна­чим Ъ количество часов, затраченных на просмотр телепрог­рамм в определенные дни (ответы на второй вопрос) также по средним: 4,5; 3,5; 2,5; 1,5; 1.

Обозначив будние дни как d, субботние s, воскресные w, рассчитаем среднепросмотровое время за неделю Т:

Для телезрителя, который в ответе на первый вопрос по­метил "3 или 4 раза в неделю", в ответе на второй указал "до 1 часа в будни" и "от 2 до 3 часов в субботу и воскресенье" среднепросмотровое время исчисляется по формуле:

Неадекватное понимание того, что же мы измеряем, может привести к серьезным последствиям. Поучительный пример: дискуссия в прессе относительно добросовестности служб обще­ственного мнения в опросах о рейтинге политических деятелей.

В ноябре 1997 г. два ведущих российских центра изуче­ния общественного мнения представили данные общероссийс­ких опросов. Рейтинги Президента, премьера и некоторых дру­гих ключевых фигур в правительстве по опросам центра "А" на 10—12% отличались от рейтингов по опросам службы "Б". Это вызвало публичный скандал: одна служба подыгрывает правительству, а другая — оппозиции. Что же в действитель­ности случилось? Служба "А" задавала вопрос "Одобряете ли Вы деятельность..?", а служба "Б" предлагала формулировку "Доверяете ли Вы..?". На протяжении трех месяцев все пока­затели доверия/недоверия на 10—12% уступали показателям одобрения/неодобрения, причем этот разрыв устойчиво сохра­нялся в отношении Президента и премьера, но сильно колебал­ся в отношении ряда других правительственных чиновников (т. е. граждане сформировали позицию относительно Прези­дента и премьера, но не имели четкой позиции в отношении Других, неключевых фигур в правительстве). Через две недели после этого скандала служба "Б" в общероссийском опросе предложила респондентам обе формулировки в одном интер­вью. Обнаружилось, что доверяют правительству 14-16% опро­шенных, но одобряют его деятельность в той же выборке 29%. Логика здесь такая: "Я могу не очень доверять искренности намерений правительства, но то, что оно делает, я склонен сей­час одобрить".

Заметим, однако, что логические рассуждения, наподо­бие приведенных выше, повышают обоснованность, но не являются прямым доказательством того, что мы меряем ис­комое свойство.

(2) Тест по "эталонной грynne" - более сильный прием проверки инструмента на обоснованность. Смысл проверки — в сопоставлении данных, полученных пу­тем измерения по шкале, с достоверными сведениями об объекте измерения.

Так, шкала на отношение к соблюдению норм права может быть обоснована опросом осужденных правона­рушителей (они рассматриваются как "эталон" нега­тивного полюса шкалы), в сравнении с "эталонной" группой законопослушных граждан. Дихотомизация полярных групп по шкале должна созпадать с факти­ческой поляризацией эталонных групп в пределах до­пустимой ошибки, величина которой зависит от задач исследования.

(3) Поиск независимого критерия как разновид­ность внешнего контроля надежности для измерения того же самого объекта или свойства.

Если подключить к телевизионному приемнику при­бор, регистрирующий время его работы, и сопоставить показания прибора с результатами опроса о частоте и длительности просмотра телепрограмм, можно точно ус­тановить обоснованность данных опроса.

Не имея такой возможности, Б. М. Фирсов сопоставлял сведения, полученные по шкале среднепросмотрового времени, с данными по другой шкале, названной "изменение привычек" (табл. 1) [274, С, 107]. Последняя конструировалась по отве­там на вопрос: "Придется ли Вам в случае длительного отсут­ствия телевизора менять свои привычки, способ проведения досуга, жизненный уклад?" Берем два крайних варианта от­ветов по второй шкале, отбрасывая промежуточные (в процен­тах к численности представителей каждого типа, т. е. по стро­ке). Очевидно, что шкала "увлеченности", полученная как вто­ричная группировка данных среднепросмотрового времени Т, высоко согласуется со шкалой "привычек" и, следовательно, может считаться вполне обоснованной.7

7 Пользуясь той же шкалой, автор провел повторное сравнительное исследование аналогичной выборки ленинградцев спустя 10 и 12 лет. За период с 1967 г. по 1979 г. обнаружилось, что доля "весьма умерен­ных" телезрителей упала с 32% до 6% и "весьма увлеченных" повыси­лась с 16% до 40% [157. С. 701].

Таблица 1