Надежность критериально-ориентированного теста

 

Существует способ подсчета надежности, который используется для критериально-ориенитированных тестов. Для этого тестируем испытуемых по двум вариантам одного и того же теста (варианты должны быть параллельны), затем создаем таблицу сопряжения:

 

  Параллельная форма теста - А
    НЕЗАЧЕТ   ЗАЧЕТ
Параллельная форма теста - Б   НЕЗАЧЕТ   a   b
  ЗАЧЕТ   c   d

 

Где a, b, c, d – доли студентов, получивших соответствующую аттестацию по 1 и 2 вариантам. a+b+c+d=1.

Например, всего 100 студентов, критериальный балл 60%.

20 студентов получили незачет по обоим вариантам а=0,2

10 студентов получили зачет по А и незачет по В b=0,2

20 студентов получили зачет по В и незачет по А с=0,2

50 студентов получили зачет по обоим вариантам d=0,2

 

Коэффициент надежности считается по формуле:

Иногда считают еще один коэффициент , где P=a+d, показатель хорошей работы теста, чем больше Р, тем лучше, Рс=(a+d)(d+b)+(a+b)(c+a).

 

Для хорошей надежности необходимо, чтобы оба эти коэффициента были больше, чем 0,8.

 

Методы повышения надежности.

 

1. Повышение содержательной однородности. Однако чрезмерное повышение однородности может привести к нежелательным последствиям, так как в тест могут попасть задания, дублирующие друг друга, что снизит дифференцирующую способность теста.

2. Увеличение длины теста. В достаточно длинных тестах не очень высокая однородность может сочетаться с высокой надежностью. Однако не всегда возможно использование тестов длиной более 100 заданий, но, тем не менее, необходимо помнить, что чем длиннее тест, тем выше надежность. Существует формула, по которой можно определить, во сколько раз надо увеличить длину теста, чтобы достич желаемой надежности:

3. К методам повышения надежности теста можно отнести совершенствование качества отдельных заданий теста.

 

Причины снижения надежности теста.

 

1. Субъективизм при оценке заданий открытой формы

2. Угадывание в заданиях закрытой формы

3. Некорректные формулировки заданий

4. Неоправданный выбор весовых коэффициентов

5. Длина теста

6. Отсутствие стандартных инструкций к тесту

7. Случайные источники снижения надежности теста, связанные не со знаниями, а с испытуемыми.

 

Валидность:

Содержательная валидность показывает, насколько тест соответствует программе обучения. Определяется экспертным путем (3 эксперта) и не имеет числового выражения.

Критериальная валидность – степень соответствия между результатами тестирования и внешней переменной критерия. Мы будем считать критериальную валидность как корреляцию между результатами тестирования и экспертной оценкой преподавателя каждого из студентов. Валидность большая 0,3 считается удовлетворительной.

 

Имеем таблицу с результатами тестирования и список тех же студентов с экспертной оценкой преподавателя (-ей).

В качестве критерия берем оценки преподавателей при традиционной проверке знаний без использования тестов.

 

Формула: ,

 

Sx2 – дисперсия индивидуальных баллов


N – число студентов

-отклонение тестового балла i – го студента от среднего балла по тесту

 
 

-отклонение экспертного балла i – го студента от среднего арифметического экспертных оценок

ЗАДАНИЕ (выполняется в Excel). Слушатели работают с файлом приложение.xls.