Анализ характеристик заданий теста

Анализ теста по математике в рамках IRT

Данный тест по математике состоит из 26 вопросов, разделенных на 3 части: А, В и С (10, 11 и 5 заданий в каждой части соответственно). Части А и В оценивались дихотомически, а часть С – политомически. Тест выполнили 1339 учеников. Распределение баллов за тест представлено на рисунке 1, общие сведения по тесту в таблице 1.

Рис.1. Распределение общего балла за тест

Таблица 1 Общие характеристики заданий и испытуемых

			Среднее	Ст.откл.	Max	Min
Характеристики испытуемых		Балл за тест	14.0	6.1	36.0	1.0
	Подготовленность	.13	1.81	5.47	-5.46
	ERROR	.56	.08	1.17	.37
INFIT	MNSQ	.99	.43	4.40	.15
ZSTD	.0	1.0	4.5	-2.9
OUTFIT	MNSQ	1.01	1.26	9.90	.07
ZSTD	.2	.7	6.7	-.8
Характеристики заданий		total score	719.1	370.1	1310.0	107.0
	Трудность	.00	2.48	4.31	-5.28
	ERROR	.08	.03	.21	.05
INFIT	MNSQ	.99	.11	1.24	.76
ZSTD	-.1	2.4	5.2	-5.0
OUTFIT	MNSQ	1.08	.36	2.05	.48
ZSTD	.5	2.4	6.2	-3.8
	Дискриминативность	0,5
		Надежность теста (КТТ)	0,9

Средний балл за тест составил 14 баллов. Максимальный балл 36 и минимальный 1.

Тестируемые имеют средний уровень подготовленности (по шкале логитов составляет 0,13). Есть как учащиеся с высоким уровнем подготовленности (5.47 логитов), так и те, кто имеет проблемы с изучением математики (уровень подготовленности -5,46 логитов).

Ошибка измерения в среднем составила 0,56 (немного большая, лучше бы до 0,3)

В целом согласие с моделью хорошее. Об этом говорит не взвешенное и взвешенное значение статистик mnsq. Они находятся в пределах единицы. Однако их максимальные и минимальные значения говорят о том, что не все испытуемые находятся в согласии с моделью.

В среднем на 1 задание отвечали 719 людей. Согласие заданий теста с моделью хорошее. Взвешенные и невзвешенные статистики mnsq находятся в пределах единицы. Максимальные и минимальные значения mnsq говорят о том, что есть тестовые задания, которые не находятся в согласии с моделью. Максимальная ошибка достигает 0,21, что подтверждает хорошее согласие заданий с моделью.

Средняя трудность заданий равна 0 (как и должно быть). Средняя ошибка заданий теста (0,08) меньше ошибки испытуемых, так как на 1 задание приходится больше человек, чем на 1 испытуемого - заданий. Вот тут будем что-то писать про то что центрирование не совпадает??

Далее проведем более подробный анализ заданий и профилей испытуемых.

Анализ характеристик заданий теста

В таблице 2 представлены характеристики всех заданий и согласие каждого задания с моделью.

Таблица 2. Характеристики тестовых заданий и согласия с моделью

	Характеристики заданий	Согласие с моделью
№	Общий результат	Дискрими-нативность	Трудность	S.E	OUTFIT	PT-MEASURE	EXACT	MATCH
MNSQ	ZSTD	MNSQ	ZSTD
A1		.48	-2.71	.10	.92	-1.3	1.26	1.3
A2		.29	-5.28	.21	.97	-.1	.76	-.8
A3		.45	-2.84	.10	.98	-.3	1.12	.7
A4		.51	-.67	.07	1.11	3.1	1.43	4.4
A5		.38	-4.10	.14	.92	-.8	.95	-.1
A6		.46	-1.95	.08	1.11	2.4	1.20	1.4
A7		.55	-2.27	.09	.87	-2.7	.69	-2.1
A8		.45	-1.73	.08	1.15	3.3	2.05	6.2
A9		.46	-2.80	.10	.98	-.3	.95	-.2
A10		.49	-.84	.07	1.15	4.3	1.27	2.7
B1		.58	-.39	.07	.99	-.3	1.06	.8
B2		.54	-.91	.07	1.03	.9	1.39	3.8
B3		.57	1.16	.07	.97	-.8	.94	-.6
B4		.63	-.65	.07	.84	-5.0	.83	-2.0
B5		.53	.41	.07	1.11	3.2	1.10	1.2
B6		.58	.31	.07	1.00	.0	.92	-1.0
B7		.60	1.34	.07	.88	-3.3	.76	-2.6
B8		.60	.52	.07	.92	-2.3	.99	-.1
B9		.39	2.04	.08	1.24	5.2	1.80	5.1
B10		.52	2.77	.09	.86	-2.9	.48	-3.8
B11		.43	3.01	.10	.94	-1.0	1.22	1.2
C1		.64	2.08	.06	.91	-1.8	.69	-2.4
C2		.65	1.77	.05	.96	-.8	.92	-.7
C3		.55	3.45	.06	.95	-.7	.79	-1.3
C4		.31	3.96	.08	1.16	1.0	.70	-.9
C5		.35	4.31	.09	.76	-1.7	1.69	2.2
Среднее	719.1	0.5	.00	.08	.99	-.1	1.08	.5
S.D.	370.1		2.48	.03	.11	2.4	.36	2.4

Тест содержит как очень трудные задания (С3-5, В11), так и очень простые (А2, 3, 5). Дискриминативность (коэф. корреляции) варьируется от 0,31 до 0,6; среднее значение 0,5, что говорит о том, что все задания и тест в целом обладают хорошей дифференцирующей способностью.

При исследовании согласия с моделью ответов испытуемых на каждое из заданий, было выявлено, что такие задания как А1, А4, А6, А8, А10, В2, В9, В11, С5 – плохо согласуются с моделью. В данных заданиях более чем на 20% больше вариации, чем это предсказывалось моделью. Хуже всего с моделью согласуется задание А8. Оно является достаточно легким (по шкале логитов -1,73) и относится к блоку A. Его выполнили 1034 человека из всей выборки.

Задание 19 (B9) -явялется достаточно сложным (2,04 логита). Выполнили 301 человек из 1339.

Задание 26-явялется очень сложным (4,31 логита). Выполнили только 107 человек из 1339.

Ошибка измерения данного задания немного увеличивается по сравнению с преыдущими (до 0,1), так как на на него приходится меньше решающих детей.

Задания 14,20,7,17 ,22 и т.д. плохо соотносятся с моделью тоже. В наблюдаемых данных меньше вариации, чем это предсказывалось моделью. Нужно ли это писать?

На рисунке 2 изображена карта заданий теста.

Рисунок 2. Карта заданий

Данный рисунок подтверждает, что тест обладает хорошей дифференцирующей способностью: испутыемые равномерно распределились по заданиям разного уровня трудности. Так же из рисунка видно, что тест построен по принципу возрастающей трудности, задания части А проще, нежели задания части В, которые в свою очередь легче заданий части С. Что еще мы можем тут сказать? Наверное что-то про центрирование тоже надо

Дальше характеристические кривые всех заданий и отдельно дерьмовых заданий + можно политомические отдельно.