Проверка интегральных шкал

Мы обсудили, каким образом подбираются частные шкалы и как на их основе строится интегральная шкала. В данном подразделе мы остановимся на вопросе о том, каким требованиям должна удовлетворять интегральная шкала и как убедиться, удовлетворяет она им или не удовлетворяет. Вот эти требования:

o надежность (reliability);

o валидность (validity);

o возможность обобщения (generalizability).

Надежность (reliability) результатов измерения

Результаты замера должны быть надежными. Под надежностью (reliability) результатов замера с помощью интегральной шкалы понимается их устойчивость, воспроизводимость, повторяемость. Это показатель, аналогичный показателю кучности стрельбы. Надежный результат - это когда стрелок "кладет" все пули в одну и ту же точку мишени, хотя, может быть, совсем не в ее центр. При этом ружье может быть не пристреленным, в результате чего все пули в среднем будут несколько смещаться от центра мишени в одну и ту же сторону. Такая ошибка называется "систематической". Таким образом, систематические ошибки не снижают надежности замера.

Для проверки надежности шкалирования применяются три метода.

Тест-ретест (Test-retest reliability). При реализации этого метода замер проводится дважды с интервалом две-четыре недели на одних и тех же респондентах. После этого рассчитывается коэффициент корреляции между двумя рядами интегральных оценок. Первый ряд представляет собой набор интегральных оценок, рассчитанных на основании ответов респондентов, которые они дали на частные вопросы при первом опросе, а второй ряд - при втором. Чем выше корреляция между результатами этих замеров, тем выше надежность замеров.

Этот метод имеет ряд недостатков. Во-первых, его результаты весьма чувствительны к величине промежутка времени между замерами: чем больше времени прошло, тем менее надежной окажется шкала. Во-вторых, сам факт первого замера может изменить отношение респондентов к изучаемому объекту. Например, обращение к ним с вопросом об отношении к низкокалорийным продуктам может натолкнуть их на мысль о пользе этих продуктов. В-третьих, бывают случаи, когда повторный замер вообще невозможен, например если нужно замерить первую реакцию респондентов на новый продукт. В-четвертых, при втором замере респонденты могут стараться припомнить, что они говорили в первый раз. В-пятых, за прошедшее время взгляды респондентов по данным вопросам могут измениться, например, из-за знакомства с рекламой или с самим продуктом. Из-за присущих этому методу недостатков его надо применять обязательно в сочетании с другими методами проверки надежности.

Эквивалентные шкалы (Alternative-forms reliability). При использовании этого метода разрабатываются два эквивалентных набора частных шкал для построения одной и той же по смыслу интегральной шкалы. Одних и тех же респондентов сначала опрашивают с использованием первого набора, а через 2-4 недели - второго. Надежность шкалы проверяется затем аналогично описанному выше методу: на основании коэффициента корреляции между двумя рядами интегральных оценок, соответствующих первому и второму замерам соответственно.

У этого метода тоже есть два крупных недостатка. Во-первых, разработка двух наборов частных шкал, которые к тому же были бы эквивалентными, очень сложно, требует чрезвычайно серьезных затрат времени и средств. Во-вторых, эти наборы все равно фактически могут оказаться не эквивалентными по содержанию. Строго говоря, если интегральные шкалы строятся путем усреднения частных, для эквивалентности необходимо, чтобы два вышеупомянутых набора содержали по одинаковому числу частных шкал с одинаковыми средними значениями, дисперсией и парными корреляциями.

Но даже если эти условия удовлетворены, все равно неясно, достигнута ли эквивалентность. Таким образом, если в результате применения метода выявлена низкая корреляция между интегральными шкалами, никогда нельзя с уверенностью сказать, с чем это связано - с отсутствием надежности интегральной шкалы или с неэквивалентностью наборов частных шкал.

Внутренняя непротиворечивость (Internal consistency reliability). Для проверки внутренней непротиворечивости набор частных шкал разбивается на два поднабора произвольным образом. Например, в первый поднабор включаются четные: 2-я, 4-я и т.д., а во второй поднабор - нечетные: 1-я, 3-я и т.д. по порядку их расположения в анкете частные шкалы. Далее, путем усреднения значений частных шкал в каждом поднаборе получают две интегральные шкалы. Между векторами значений этих двух шкал рассчитывают коэффициент корреляции, на основании значения которого вновь судят о надежности шкалы.

Мы говорили о разбиении набора частных шкал на четные и нечетные. Но почему именно так? Ведь значение искомого коэффициента корреляции зависит от способа разбивки! Выход был предложен Л. Кронбахом: брать всевозможные разбиения набора частных шкал на два поднабора, для каждого разбиения рассчитывать коэффициент корреляции, а затем усреднять эти коэффициенты корреляции. Среднее значение таких коэффициентов корреляции называется а-Кронбаха. Если этот показатель ниже 0,6, принято считать, что набор частных шкал внутренне противоречив, а интегральная шкала ненадежна.

Понятно, что набор частных шкал, характеризующих совершенно разные, совершенно не связанные между собой стороны имиджа объекта, заведомо может оказаться внутренне противоречивым. Например, качество продаваемых в магазине товаров, их разнообразие и ассортимент, сервис, удобство расположения и т.д. В таких случаях нужно строить не одну, а несколько интегральных шкал: для каждой стороны имиджа - свою и для каждой интегральной шкалы проверять внутреннюю непротиворечивость.