Послідовність перевірки валідності

Універсальний алгоритм діяльності психолога з перевірки валідності створити важко, оскільки існують різні підходи до її забезпечення. Для прагматично зорієнтованих тестологів (англо-американська школа) основним завданням є пошук операціонально заданого соціально-прагматичного критерію валідності, за яким діагностичні тести і їх складові (пункти) підбирають ніби "автоматично" - у процесі емпірико-статистичних процедур збирання і кореляційного аналізу результатів.

Сучасні методологи психологічного тестування одностайно визнають оптимальною раціонально-емпірйчну стратегію конструювання тесту і перевірки валідності, яка передбачає:

- теоретичний аналіз діагностичного конструкту, розроблення теоретичної концепції.тестованої психічної властивості; виявлення системи взаємозалежних діагностичних конструктів, усередині якої новий діагностичний конструкт має певні структурно-функціональні зв'язки і відношення; прогнозування результатів кореляційних експериментів;

- виокремлення складових теоретичного конструкту; формулювання системи "емпіричних індикаторів" - операціонально однозначних показників, що фіксують прояв конструкту в різних поведінкових ситуаціях; конструювання пунктів тесту;

- визначення релевантного соціально-прагматичного критерію для перевірки валідності (ефективності) методики;

- планування і проведення кореляційного дослідження на спеціально підібраній вибірці досліджуваних, яким відоме (буде відоме) значення критеріального показника, а також результати подібних психологічних тестів. За необхідності здійснюють додаткове тестування з метою кореляційної перевірки конструктної валідності тесту (експертні оцінки при цьому розглядають як одну з можливих рівнобіжних процедур одержання критеріальної або психологічної інформації); оцінювання валідності емпіричних індикаторів;

- дослідження вірогідності результатів;

- відсіювання пунктів (індикаторів), що не задовольняють критеріїв валідності та вірогідності; вимірювання надійності для скороченої шкали, що складається тільки з валідних пунктів. Якщо надійність виявляється невисокою, то психолог повертається до першого етапу.

У психологічній діагностиці валідність є обов'язковою частиною інформації про методику (тест), що містить дані про ступінь узгодженості результатів тестування з іншими відомостями про досліджувану особистість, отриманими з різних джерел (теоретичні очікування, спостереження, експертні оцінки, результати інших достовірних методик), судження про обґрунтованість прогнозу розвитку досліджуваної якості, зв'язок досліджуваної поведінки чи особливості особистості з певними психологічними конструктами. Валідність також описує спрямованість методики і обґрунтованість висновків у конкретних умовах використання тесту.

Перевірка валідності застосовується на етапі розроблення й адаптації тесту, під час опрацювання отриманих з його допомогою даних.

21 У традиційній тестології термін «надійність» означає відносне сталість, стійкість, узгодженість результатів тесту при первинному і повторному його застосуванні на одних і тих же випробовуваних. Надійність методики - це такий критерій, який говорить про точність психологічних вимірів, тобто дозволяє судити про те, наскільки вселяють довіру отримані результати.
Ступінь надійності методик залежить від багатьох причин. Тому важливою проблемою практичної діагностики є з'ясування чинників, що знижують точність вимірювань. Була зроблена спроба скласти класифікацію таких чинників:
1) нестабільність діагностиуємого властивості, 2) недосконалість діагностичних методик (недбало складена інструкція, завдання за своїм характером різнорідні, нечітко сформульовані вказівки, як методику пред'являти випробуваним, і т. д.), 3) змінюється ситуація обстеження; 4) відмінності в манері поведінки експериментатора, 5) коливання у функціональному стані випробуваного; 6) елементи суб'єктивності в способах оцінки та інтерпретації результатів (коли ведеться протоколювання відповідей випробовуваних, оцінюються відповіді за ступенем повноти, оригінальності і т. п.).
Види. К. М. Гуревич запропонував тлумачити надійність як комплексну характеристику, що включає:
♦ надійність самого вимірювального інструмента; коефіцієнтом надійності
♦ стабільність досліджуваного ознаки; коефіцієнтом стабільності
♦ константність, тобто відносну незалежність результатів від особистості експериментатора; коефіцієнтом константності.
Визначення надійності вимірювального інструмента. Від того, як складена методика, наскільки правильно підібрані завдання з точки зору їх взаємоузгодженості, наскільки вона однорідна, залежить точність, об'єктивність якого психологічного виміру. Внутрішня однорідність методики показує, що її завдання актуалізують одне і те ж властивість, ознака.
Для перевірки надійності вимірювального інструмента, що говорить про його однорідності (або гомогенності), використовується так званий метод «розщеплення». Зазвичай завдання діляться на парні і непарні, окремо обробляються, а потім результати двох отриманих рядів корелюються між собою. Для застосування цього способу потрібно поставити піддослідних в такі умови, щоб вони змогли встигнути вирішити (або спробувати вирішити) всі завдання. Якщо методика однорідна, то великої різниці в успішності рішення з таких половинкам не буде, і, отже, коефіцієнт кореляції буде досить високим.
Можна ділити завдання і іншим шляхом. Наприклад, можна зіставити першу половину тіста з другої, першу і третю чверть з другої і четвертої і т. п. Однак «розщеплення» на парні і непарні завдання представляється найбільш доцільним, оскільки саме цей спосіб найбільш незалежний від впливу таких факторів, як врабативаемості, тренування, стомлення і пр. Методика визнається надійною, коли отриманий коефіцієнт не нижче 0,75-0,85. Кращі за надійністю тести дають коефіцієнти порядку 0,90 і більше.
Визначення стабільності досліджуваного ознаки. Визначити надійність самої методики - це не значить вирішити всі питання, пов'язані з її застосуванням. Потрібно ще встановити, наскільки стійкий, стабільний ознака, який дослідник має намір вимірювати. Було б методологічною помилкою розраховувати на абсолютну стабільність психологічних ознак. У тому, що вимірюється ознака з часом змінюється, немає нічого небезпечного для надійності. Вся справа в тому, в яких межах варіюються результати від досвіду до досвіду у одного і того ж випробуваного, не приводять ці коливання до того, що випробуваний з незрозумілих причин виявляється то на початку, то в середині, то в кінці вибірки. Зробити якісь конкретні висновки про рівень представленості вимірюваного ознаки у такого випробуваного можна. Таким чином, коливання ознаки не повинні мати непередбачуваний характер. Якщо не ясні причини, за якими відбувається різке коливання, то така ознака не може бути використаний в діагностичних цілях.
Для перевірки стабільності диагностируемого ознаки, властивості використовується прийом, відомий під назвою тест-ретест. Він полягає в повторному обстеженні випробовуваних за допомогою тієї ж методики. Про стабільність ознаки судять по коефіцієнту кореляції між результатами першого і другого обстеження. Він буде свідчити про збереження або незбереження кожним випробуваним свого порядкового номера у вибірці.
На ступінь стійкості, стабільності диагностируемого властивості впливають різноманітні фактори. Число їх досить велике. Вище вже говорилося про те, як важливо дотримуватися вимог однаковості процедури проведення експерименту. Так, наприклад, якщо перше тестування проводилося в ранкові години, то і повторне повинно бути проведено вранці, якщо перший досвід супроводжувався попередніми показом завдань, то і при повторному випробуванні ця умова також має бути дотримано і т. д.

При визначенні стабільності ознаки велике значення має проміжок часу між першим і другим обстеженням. Чим коротше термін від першого до другого випробування, тим (за інших рівних умов) більше шансів, що діагностується ознака збереже рівень першого випробування. Зі збільшенням тимчасового інтервалу стабільність ознаки має тенденцію знижуватися, тому що зростає число сторонніх чинників, що впливають на неї. Отже, напрошується висновок, що доцільно проводити повторне тестування через короткий строк після першого. Однак тут є свої складності: якщо термін між першим і другим досвідом невеликий, то деякі випробовувані можуть відтворити свої колишні відповіді по пам'яті і, таким чином, відійдуть від сенсу виконання завдань. В цьому випадку результати двох передавальний методики вже не можна розглядати як незалежні.
Важко чітко відповісти на запитання, який термін можна вважати оптимальним для повторного експерименту. Тільки дослідник, виходячи з психологічної сутності методики, умов, в яких вона проводиться, особливостей вибірки досліджуваних, повинен визначити цей термін. При цьому такий вибір має бути науково обгрунтований. У те-стологіческой літературі найбільш часто називаються тимчасові інтервали в кілька місяців (але не більше півроку). При обстеженні дітей молодшого віку, коли вікові зміни і розвиток відбуваються дуже швидко, ці інтервали можуть бути порядку декількох тижнів. Коефіцієнт стабільності методики повинен бути досить високим (не нижче 0,80).
Визначення константності (відносної незалежності результатів від особистості експериментатора). Оскільки методика, розроблена для діагностичних цілей, не призначена для того, щоб вічно залишатися в руках своїх творців, вкрай важливо знати, якою мірою її результати піддаються впливу особистості експериментатора. Хоча діагностична методика завжди забезпечується детальними інструкціями щодо її застосування, правилами та прикладами, що вказують, як проводити експеримент, однак регламентувати манеру поведінки експериментатора, швидкість його мови, тон голосу, паузи, вираз обличчя дуже важко. Випробуваний у своєму ставленні до досвіду завжди відобразить те, як сам експериментатор до цього досвіду відноситься (допускає недбалість або діє точно у відповідності до вимог процедури, проявляє вимогливість, наполегливість чи безконтрольність і т. п.).
Хоча в тестологічний практиці критерієм константності користуються нечасто, проте це не може служити підставою для його недооцінки. Якщо у авторів методики виникають підозри з приводу можливого впливу особистості експериментатора на результат діагностичної процедури, то доцільно перевірити методику за цим критерієм. При цьому важливо мати на увазі наступний момент. Якщо під впливом нового експериментатора всі випробувані в однаковій мірі стали працювати трохи краще чи трохи гірше, то сам по собі цей факт (хоча і заслуговує уваги) на надійність методики не матиме впливу. Надійність зміниться лише тоді, коли вплив експериментатора на піддослідних різному: одні стали працювати краще, інші гірше, а треті так само, як і при першому експериментатора. Іншими словами, якщо випробовувані при новому експериментатора змінили свої порядкові місця у вибірці.
Коефіцієнт константності визначається шляхом кореляції результатів двох дослідів, проведених у відносно однакових умов на одній і тій же вибірці випробуваних, але різними експериментаторами. Коефіцієнт кореляції не повинен бути нижче 0,80.
Так як надійність відбиває ступінь узгодженості двох незалежно отриманих рядів показників, то математико-статистичний прийом, за допомогою якого встановлюється надійність методики - це кореляції (по Пирсону або Спирмену). Надійність тим вище, чим ближче отриманий коефіцієнт кореляції наближається до одиниці, і навпаки.