Трудоемкость отражает изменения результата труда работников текущего периода времени с ему предшествующим.

§

§ 1) По процедуре создания:

§ - стандартизированные (осуществляется во время итоговой аттестации);

§ - не стандартизированные (осуществляется текущий контроль знаний на этапе обучения).

§ Стандартизация — это последовательный ряд процедур по планированию, проведению оценивания и выставления баллов.

§

§ Цель стандартизации — обеспечить всем учащимся возможность проходить оценивание в равных условиях, чтобы их оценки имели одинаковое значение и не подвергались влиянию различных условий.

§ 2) По способу предъявления:

§ - бланковые (тесты «бумага и карандаш», в которых используются тестовые тетради или бланки. В них испытуемые отмечают или вписывают правильные ответы, большинство тестов школьных достижений и др.);

§ - предметные (манипуляция материальными объектами);

§ - аппаратурные (используется специальная аппаратура — различного рода датчиков);

§ - практические (аналоги лабораторных работ с тестовыми условиями задач);

§ - компьютерные.

§ 3) По ведущей ориентации:

§ - тесты на скорость (содержат простые задачи, время решения которых ограничено настолько, что ни один испытуемый не успевает решить все задачи в заданное время);

§ - тесты на результативность (включают трудные задачи, время решения которых либо вовсе не ограничено, либо мягко лимитировано. Оценке подлежат успешность и способ решения задачи);

§ - смешанные тесты (в них представлены задачи различного уровня сложности от самых простых до очень сложных. Время испытания в данном случае ограничено, но достаточное для решения предлагаемых задач большинством обследуемых. Оценкой служат как скорость выполнения заданий, так и правильность решения.).

§ 4) По степени однородности задач:

§ - гомогенные тесты (однородные по составу задания, позволяющие измерять одно качество или уровень подготовки по одному предмету или изученному навыку);

§ - гетерогенные тесты (многомерные тесты, измеряющие уровень подготовленности по нескольким учебным предметам).

§ 5) По характеру ответов на вопросы:

§ - открытого типа;

§ со свободными ответами, когда испытуемому необходимо самостоятельно дописать слово, словосочетание, предложение, знак, формулу и т.д.;

§ задания дополнения (с ограничениями на ответы, с заданными ограничениями) — испытуемый должен сформулировать ответы с учетом предусмотренных в задании ограничений;

§ свободного изложения (свободного конструирования, без заданных ограничений) — испытуемый должен самостоятельно сформулировать ответы, никакие ограничения на них в задании не накладываются.

§ - закрытого типа

§ с предписанными ответами, когда испытуемому необходимо выбрать из предложенных вариантов ответов тот или иной вариант

§ альтернативных ответов — испытуемый должен ответить «да» или «нет»;

§ 6) По целям использования в учебном процессе:

§ - определяющий (показывает знания учащихся в начале обучения);

§ - формирующий (тест прогресса, достигнутого в обучении);

§ - диагностический (тест на выявление трудностей в обучении и их источников);

§ - суммирующий (тест достижений в конце обучения).

§

§ Преимущество такой формы - невозможность угадывания правильного ответа, что особенно важно при проверке номенклатуры понятий учебной эрудиции учащихся[2].

§ Существует довольно большое количество автоматизированных электронных систем тестирования, поддерживающие тестовые задания различной формы[2,3].

§ В результате анализа 35 автоматизированных систем контроля знаний и 15 конструкторов тестов получены следующие результаты по использованию различных форм тестовых заданий в существующих системах компьютерного тестирования: закрытая форма – 89.1%, открытая форма – 54.5%, установление соответствия – 63.6%, установление правильной последовательности – 81.8%.

§ Проведенный анализ систем тестовых заданий показал, что тестовые задания открытой формы можно классифицировать по типу вопросов, а также по вводимой информации. Исходя из этого, классификацию тестовых заданий открытой формы по типу вопросов можно представить следующими группами: вставка; дополнение; кодировка. Классификацию тестовых заданий открытой формы по вводимой информации можно представить следующими группами: вещественное число; текстовое выражение; формула; графика; звук.

§ При анализе систем, поддерживающих тестовые задания открытой формы, была установлена, в процентном соотношении, наиболее распространенная форма тестовых заданий: вещественное число(83.3%), текстовое выражение(93.3%), формула(33.3%), графика(23.3%), звук(16.7%).[1,3]

§ Исходя из вышесказанного, актуальным является развитие систем тестового контроля, введением тестовых заданий открытой формы с вводом графического типа ответа.

§ Формализованное описание тестового задания открытой формы можно представить как:

§ ТЗ(N,P1,R1,P2, R2 ,…..,Pi , Ri ,V ),

§ где N-название вопроса теста, P1 , P2 ,…, Pi - пропуск1,…,пропуск i в вопросе теста,

§ R1 , R2 ,…., Ri - продолжение1,..,продолженин i после i-го пропуска в вопросе теста,

§ V – вариант ответа в тесте, где Pi → Vi, то есть каждому i-му пропуску соответствует свой i-й вариант ответа.

§ Формализованное описание тестового задания открытой формы положено в основу алгоритма хранения тестов и соответствующих им вариантов ответов.

§ Задача САПР тестовых заданий на сегодняшний день является актуальной. И развивать процессы создания таких систем необходимо в направлении расширения их функций по разработке всех форм тестовых заданий. В работе предлагается структура САПР тестовых заданий открытой формы, включающая следующие подсистемы: редактор тестовых заданий, проектирование тестовых заданий, внесения ответов в базу данных, сравнения ответов с эталонами, подсистема расчета результатов тестирования.

§ Практическая ценность работы заключается в том, что в результате разработки САПР тестовых заданий открытой формы появится возможность широкого их использования в современных автоматизированных системах контроля и обучения.

 

§ Группа А – цели формирования сознания и поведения.

§ Группа В – цели развития отношений к обществу, труду, теме урока, профессии, друзьям, родителям, искусству и т. д.

§ Группа С – цели воспитания творческой деятельности, воспитание способностей, задатков, интересов учащихся.

§ В управленческую функцию педагога входит задача постановки организационных целей. Эти цели могут заключаться в применении самоуправления в построении учебной деятельности учащихся, расширении функций учащихся, в оказании взаимопомощи в течение занятия.

§ Методические цели педагога – это перестройка технологии учебной и внеучебной деятельности обучающихся, например применение новых форм создания учебного процесса.

§ Задачи педагога заключаются в обучении учащихся процедурам целеполагания, постижении и знании целей каждого ученика, содействии исполнению полезных целей. В педагогическом процессе цели учащихся должны совпадать с целями, поставленными преподавателем, так как главным условием успешного педагогического процесса является совпадение целей педагога и учащихся.

§ Разработка цели – это логико-конструктивный процесс, он заключается:

§ – в сравнении и обобщении информации;

§ – выборе наиболее важной информации;

§ – выражении цели, или, по-другому, нахождении объекта цели, предмета цели и нужных действий. Объект педагогической цели – конкретный ученик или группа с определенными ролевыми взглядами. Предметом педагогической цели являются качества, которые необходимо изменить в течение данного педагогического процесса;

§ – осуществлении цели.

§

§ 1. Этап целеполагания.

§ Разработка теста начинается с формулирования его цели, то есть определения того, что тест должен измерять. Должны быть четко и однозначно описаны все знания, умения и навыки, владение которыми проверяется с помощью теста, т.е. необходимо четкое описание области содержания теста. Определяется вид теста, ресурсные возможности, круг привлекаемых специалистов и пр.

§ 2. Подготовительный этап (спецификация).

§ Анализируется и отбирается содержание проверяемого материала. Готовится структура работы, определяется тип и количество заданий, время проверки, система оценивания, условия проведения и проверки, рекомендации по подготовке к тестированию.

§ Спецификация теста представляет собой набор описательных схем, которые позволяют установить соответствие между тестовыми заданиями и областью содержания теста. Она обеспечивает репрезентативность заданий по отношению к области содержания. Спецификация представляет собой, по сути, правила, по которым должны разрабатываться задания. При разработке спецификации необходимо стремиться сделать эти привила настолько четкими, чтобы их можно было использовать как алгоритмы.

§ Спецификация является основным нормативным документом теста и выполняет следующие основные функции:

§ – дает разработчикам заданий правила, по которым можно конструировать задания;

§ – позволяет экспертам оценивать имеющиеся задания на предмет их соответствия области содержания теста и выбраковывать неудачные задания;

§ – помогает интерпретировать результаты тестирования, так как в ней ясно и конкретно объясняется, что измеряет тест;

§ – дает учащемуся (пользователю теста) четкое представление об измеряемых знаниях, умениях и навыках.

§ Основная проблема при написании спецификации состоит в обратном соотношении между широтой области содержания теста и четкостью спецификации. Если выбирается очень узкая область содержания, то довольно просто создать спецификацию, которая была бы краткой и в то же время четко задавала бы правила для написания заданий. Однако тесты с узкой областью содержания имеют ограниченное применение.

§ Ниже предлагается возможная схема составления спецификации:

§ - пример инструкции и тестового задания. Здесь дается представление о том, как выглядит тест, и какая форма заданий в нем используется.

§ - характеристика формы заданий. В этом разделе указывается какие формы заданий используются в тесте.

§ - характеристика содержания заданий. Указывается содержание, которое может и должно входить в тестовые задания. Подробно описываются все аспекты содержания, представляющиеся существенными при разработке заданий, в том числе обычно указывается, какое смежное содержание не должно входить в тест.

§ - характеристика ответов. Содержание этого раздела зависит от выбора формы задания. Для заданий закрытой формы даются правила, по которым формулируются правильные ответы и варианты неправильных ответов. Для заданий открытой формы даются, если это необходимо, критерии для оценки ответа испытуемого как правильного. Для заданий на установление соответствия и на установление правильной последовательности данный раздел может не заполняться. Если выполнение заданий оценивается более сложным способом, чем присвоение баллов 0 или 1, то этот способ также указывается в данном разделе.

§ 3. Этап составления плана теста.

§ Послесоставления спецификации разрабатывается план теста. Если, например, тест состоит из четырех разделов, то вначале делается примерная раскладка необходимого числа заданий на каждый раздел, исходя из общего предельного числа, обычно не превышающий 30-60 коротких заданий разного уровня сложности. Число заданий, выделяемых на каждый раздел, зависит от его важности в изучении дисциплины (см. пример табл. 1).

§ 4.Этап составления теста(разрабатываются тестовые задания, проходит экспертиза и доработка заданий, стандартизируется и нормируется тест).

§ При составлении заданий теста следует соблюдать ряд правил, необходимых для создания надежного, сбалансированного инструмента оценки успешности овладения определенными учебными дисциплинами или их разделами.

§ Правила для разработки тестовых заданий:

§ – необходимо проанализировать содержание заданий с позиции равной представленности в тесте разных учебных тем, понятий, правил, действий и т.д. Тест не должен быть перегружен второстепенными терминами, несущественными деталями с акцентом на механическую память, которая может быть задействована, если в тест включены точные формулировки из учебника или фрагменты из него;

§ – задания теста должны быть сформулированы четко, кратко и не двусмысленно, чтобы все учащиеся однозначно понимали смысл того, что у них спрашивается. Важно проследить, чтобы ни одно задание теста немогло служить подсказкой для ответа на другое;

§ – варианты ответов на каждое задание должны подбираться таким образом, чтобы исключались возможности простой догадки или отбрасывания заведомо неподходящего ответа. Важно выбирать и наиболее приемлемую форму ответов на задания;

§ – учитывая, что задаваемый вопрос должен быть сформулирован коротко, желательно также кратко и однозначно формулировать ответы. Например, удобна альтернативная форма ответов, когда учащийся должен подчеркнуть одно из перечисленных решений "да - нет", "верно -неверно". Часто в задании делаются пропуски, которые должен заполнить испытуемый, или же выбирать из представленного набора ответов верный. Обычно навыбор предлагаются 4-5 вариантов ответа.

§ 5. Этап проведения теста.

§ Отслеживается проведение теста.

§ 6. Этап анализа полученных результатов.

§ Обработка результатов, получение статистических данных для анализа и анализ результатов. Подготовка итогового отчета.

§
1. Компоненты и уровни измерений.

§ 2. Объективность педагогических измерений.

§ 3. Размерность пространства измерений, одномерные и многомерные конструкты, латентные переменные.

§ 4. Уровни измерений в образовании.

§ 5. Надежность и валидность результатов педагогических измерений.

§

§ Основные понятия теории педагогических измерений

§

§ Измерение в образовании, латентные переменные. Согласно наи­более распространенному определению, введенному в 1946 г. аме­риканским психологом С.Стивенсом, измерение – это процеду­ра приписывания чисел некоторым характеристикам объектов в соответствии с определенными правилами [6; 22]. Данное опреде­ление – результат формального обобщения опыта количествен­ных измерений, широко применяемых в физике и других есте­ственных науках, однако на протяжении многих лет его брали за основу и в эмпирических науках.

§ По мере развития педагогики, психологии и социологии воз­никла потребность во введении не только количественных, но и качественных оценок для величин, отличающихся по степени проявления того или иного свойства. Качественные оценки явля­ются менее точными по сравнению с количественными в силу применяемых способов и инструментов измерения. Например, классифицирующие понятия в образовании («знающий», «подготовленный» и др.), которые дифференцируют обучающихся по уровню знаний и играют важную роль в учебном процессе, опре­деляются субъективно учителем или группой учителей. Нередко качественные оценки выражают с помощью чисел, которые выби­рают на основе экспертных суждений и соглашений. Приписываемые числа могут трактоваться по-разному. Так, в традиционном педагогическом контроле у каждого учителя есть свои представления о том, за что нужно ставить «5», «4», «3» и т.д.

§ Неоднозначность оценивания в образовании усугубляется латентным (скрытым, исключающим возможность непосредственно­го измерения) характером измеряемых переменных. В силу латентности оцениванию подвергаются не сами характеристики обученности и обучаемости, а их эмпирические референты – наблюдаемые признаки измеряемых характеристик. Выбор по­следних происходит, интуитивно, поэтому их соответствие ла­тентным характеристикам нуждается в доказательстве на основе экспертного и статистического анализа эмпирических результа­тов измерения.

§ Современная трактовка понятия «педагогическое измерение». Современная теория измерений появилась в 80-х гг. XX в. Она стро­ится на более строгой аксиоматической основе [22; 34]. В соответ­ствии с новыми представлениями, измерение трактуется как кон­струирование числовой функции, осуществляющей изоморфное отображение некоторой эмпирической структуры в соответствую­щим образом подобранную числовую структуру.

§ Изоморфизм – важное понятие математики, которое опреде­ляет ряд условий взаимно однозначного, отображения двух мно­жеств с сохранением их свойств в процессе такого отображения. Хотя это понятие впервые появилось в высшей алгебре, в наше время оно используется довольно широко, хотя и не вполне стро­го, например в педагогических измерениях. Поскольку эмпири­ческая структура и строящаяся по результатам оценивания число­вая структура (шкала) изоморфны, имея шкалу, можно, не обра­щаясь непосредственно к измеряемым объектам, восстановить все их свойства, характерные для эмпирической структуры.

§ 1. Компоненты процесса педагогических измерений.

§ Процесс педа­гогических измерений включает:

§ - выбор предмета измерения (латентных характеристик объек­тов) и их числа;

§ - выбор эмпирических референтов (наблюдаемых характерис­тик объектов);

§ - выбор измерительных процедур;

§ - конструирование и использование измерительных инструмен­тов;

§ - выбор шкалы (если измеряемая переменная одна) или шкал (если измеряют более одной переменной при многомерных изме­рениях);

§ - построение отображения результатов измерения на шкалу (шкалы в случае многомерных измерений) по определенным про­цедурам и правилам;

§ - обработку, анализ и интерпретацию результатов измерения.

§ В силу неизбежности ошибок измерения оцениваемые характе­ристики объектов могут принимать более или менее точные значе­ния, поэтому эти характеристики принято называть переменными измерения. Любые отклонения от стандартизированных условий из­мерения, обработки, анализа и интерпретации полученных резуль­татов увеличивают ошибки измерения, которые представляют наи­большую опасность в эмпирических науках в силу латентного харак­тера переменных. Поэтому так важен анализ устойчивости и точно­сти (надежности) результатов тестирования, что выгодно отличает тесты от традиционных оценочных средств [22; 46; 60].

§ Еще одна характеристика качества результатов тестирования –валидность – отражает адекватность эмпирических результатов по­ставленным целям измерения [22; 60]. В силу многогранности целей анализ валидности должен быть многоаспектным, но в любом случае важное, место занимает доказательство адекватности эмпи­рических референтов концептуально выделенной переменной (пе­ременных) измерения (конструктная валидность).

§ Измерительный инструмент. Измерительный инструмент вклю­чает два компонента. Первый компонент – само измеряю­щее устройство, роль которого в педагогических измерениях чаще всего, но не всегда выполняет тест. В самом обобщенном виде под тестом можно понимать совокупность контрольных заданий в стандартизированной форме, обладающих необходимыми системооб­разующими статистическими характеристиками и обеспечиваю­щих обоснованные оценки концептуально выделенной переменной (переменных) измерения с высокой объективностью. Таким образом, в самом определении теста заложены требования к его качеству, отсутствующие в традиционных оценочных средствах.

§ Второй компонент измерительного инструмента – заранее подготовленная шкала, которая служит для фиксации ре­зультатов измерения и на которой откладываются оценки (коли­чественные или качественные) измеряемой переменной. В про­цессе упорядочения оценок каждому элементу совокупности на­блюдаемых эмпирических данных ставится в соответствие опреде­ленный балл, устанавливающий положение наблюдаемого эле­мента на шкале, где можно размещать сырые (первичные) баллы (результаты суммирования оценок по отдельным заданиям теста) или производные баллы, получающиеся в результате преобразования первичных оценок для повышения сопоставимости и удоб­ства интерпретации результатов учащихся.

§ Шкала с отложенными оценками переменной, является целью измерения. При измерениях с высокой надежностью, и валидностью она адекватно отображает оцениваемые характеристики и представляет их без существенных искажений. В зависимости от ко­личества оцениваемых характеристик объекта можно говорить об одномерных (одна переменная) или многомерных (более одной пере­менной)измерениях. Соответственно по результатам измерения стро­ился одна шкала или несколько шкал, число которых в последнем случае обычно бывает равно числу переменных измерения.

§ Обработка и анализ данных измерения. Последний компонент процесса педагогических измерений, включающий обработку, анализ и интерпретацию данных, служит для выявления обеспе­чиваемого качества результатов измерения, коррекции тестов и представления полученных данных в форме, удобной для интер­претации и сравнения. Благодаря сопоставимости тестовых бал­лов, достигаемой в процессе обработки, по результатам педагоги­ческих измерений можно выстраивать качественный анализ ре­зультатов учащихся, проводить мониторинг и принимать обосно­ванные управленческие решения в образовании.

§

§ 2. Объективность педагогических измерений

§

§ Может ли быть абсолютная объективность? Появление пер­вых стандартизованных тестов в образовании вызвало массовую позитивную реакцию, поскольку первоначально они рассматри­вались как средство получения объективных оценок подготов­ленности обучаемых, преодолевающее субъективизм традицион­ных оценочных средств. По мере развития теории педагогических измерений и накопления опыта применения тестов пришло по­нимание того, что абсолютная объективность – это недостижи­мая характеристика результатов любых, в том числе и педагоги­ческих, измерений в силу существования ошибочных компонен­тов, неизбежно смещающих оценки. Поэтому при использова­нии тестов можно говорить лишь о высокой или низкой объек­тивности, степень проявления которой связана с величиной на­дежности теста.

§ Наиболее полно трактовка термина «объективность измерений» представлена в исследованиях Е.Вебстера (E.Webster) [22], предложившего восемь толкований этого понятия. Три из них – процедурная объективность, классическая (традиционная) объективность и инвариантная (специфическая) объективность – не­посредственно относятся к педагогическим измерениям.

§ Процедурная объективность. Под процедурной объективностью (первая трактовка термина «объективность измерений») понима­ется независимость результатов тестирования от субъективных суж­дений педагога, использующего тест. Эта независимость обеспе­чивается благодаря равенству условий тестирования, использованию для одной группы тестируемых параллельных (совпадающих по трудности и другим характеристикам) вариантов теста, стан­дартизации процедуры проверки результатов и максимальной ее автоматизации, исключающей влияние педагога на оценки.

§ Сведение всех видов объективности только к процедурной не­допустимо, поскольку при таком подходе не выдвигается никаких требований к качеству теста. В этом случае может создаться впе­чатление, что для получения объективных данных о подготовленности испытуемых достаточно перейти от традиционных экзаме­нов к любым, в том числе некачественным, тестам, устранив вли­яние педагога на оценку тестирования путем автоматизации про­цедуры подсчета баллов испытуемых.

§ Классическая, или традиционная, объективность. Второе, углубленное, понимание объективности измерений рассматривается в классической теории тестов и основывается на понятиях «сырой балл» и «истинный балл», отличающихся друг от друга на величи­ну ошибки измерения.

§ Сырой (первичный, наблюдаемый, индивидуальный) балл по­лучается простым суммированием результатов испытуемого по отдельным заданиям теста. При дихотомической оценке резуль­татов по заданиям (1 или 0) индивидуальный балл равен количеству правильно выполненных заданий теста.Истинный балл вклассической теории отождествляется с абсолютно объективной оценкой свойств испытуемого, свободной от влияния любых ошибок измерения. В отличие от сырого балла, который меняется в зависимости от теста и способа подсчета результата испыту­емого, истинный балл трактуется как не зависящая от средств измерения константа, характеризующая оцениваемое свойство испытуемого в момент измерения, но меняющаяся в процессе обучения.

§ Согласно основной аксиоме классической теории тестов лю­бой наблюдаемый балл равен сумме истинного балла и ошибки измерения. В тех случаях, когда ошибка измерения не превышает выбранных пределов точности измерений, говорят о высокой объективности результатов тестирования, а оценки испытуемых принимают за их истинные баллы. Таким образом, углубленное понимание объективности измерений требует оценивания вели­чины ошибки измерения, на размер которой влияют не только условия проведения тестирования, но и качество теста.

§ Инвариантная, или специфическая, объективность. Третья трак­товка объективности основана на современной теории конструи­рования тестов – Item Response Theory (IRT). Преимущества.IRT, позволяющие оценить подготовленность обучаемых независимо от трудности заданий теста, приводят к достижению так называемой инвариантной объективности измерений, которая предпочтитель­нее объективности, обеспечиваемой классической теорией тестов [60].

§ Для достижения специфической объективности необходима подгонка данных тестирования к требованиям моделей теории IRT и длительная серьезная работа над тестом. Поэтому на практике тестологи часто сталкиваются с тем, что эффект инвариантной объективности либо реализуется со слишком большими затрата­ми, либо не реализуется вообще в силу недостаточно высокого качества теста.

§

§ 3. Размерность пространства измерений, одномерные и многомерные конструкты, латентные переменные.

§

§ Концептуальные и реальные переменные измерения, конструкты. Измерение начинается с постановки цели, в соответствии с ко­торой выбирают одну (одномерный случай) или несколько (мно­гомерный случай) переменных. В последнем случае для обозначе­ния измеряемых характеристик часто используют обобщающий термин – «конструкт». Каждый разработчик теста уверен в том, что он ясно представляет себе измеряемые характеристики и спо­собен на основании своего педагогического опыта точно подо­брать задания обеспечивающие оценивание конструкта. Многие тестологи так и остаются в полном заблуждении относительно того, что на самом деле измеряет тест, поскольку не проверяют соответствие задуманного конструкта и реальных результатов измерения.

§ Анализ такого соответствия является необходимым этапом оценивания валидности измерения. Нередко его пытаются провести априорно, до начала тестирования, экспертным путем, и в ре­зультате, как правило, получают недостоверную информацию. Для корректного оценивания валидности необходим статистический анализ эмпирических данных тестирования, поэтому понять, что же мы на самом деле измеряем, можно лишь после применения теста.

§ Сложность процедуры установления размерности пространства измерений увеличивает проблемы, связанные с неоднозначной трактовкой многих конструктов в образовании и в других социальных науках (рис. 2). Каждый педагог вкладывает в оценивание учебных достижений свое видение оптимального набора перемен­ных измерения. Неоднозначность трактовки конструкта усугубля­ется по мере продвижения от начальных ступеней образования к более высоким ступеням, когда содержание большинства учеб­ных курсов приобретает междисциплинарный характер.

§

§ Рис. 2. Пример неоднозначной трактовки конструкта и ошибки в выводах

§ о связи переменных

§

§ Операционализации. Операционализация заключается в прида­нии оцениваемым латентным характеристикам подготовленности учащихся формы, удобной для фиксации определенными прави­лами измерения. При педагогическом измерении в качестве таких характеристик подготовленности обучаемых обычно выступают зна­ния, умения, навыки, компетентности и т.д. ... В процессе операционализации происходит выделение, набора эмпирических индикаторов, в роли которых выступают задания теста. Количество правильно выполненных заданий, подсчитан­ное и преобразованное по определенным правилам, дает основа­ние для присвоения испытуемому определенного места на шкале переменной измерения.

§ Визуализация результатов педагогического измерения. Визуали­зация – геометрическая интерпретация связи между латентной переменной А (одномерной или многомерной) и наблюдаемой переменной В – показана на рис. 3.

§

§

§ Рис. 3. Связь между латентной и наблюдаемой переменными.

§

§ Стрелки на рисунке указывают характер связи между перемен­ными. Латентная переменная Аявляется первопричиной, порож­дающей множество наблюдаемых результатов выполнения теста. Однако при измерениях всегда ставят обратную задачу – по на­блюдаемым результатам тестирования найти достаточно точные оценки латентных переменных.

§ Взаимосвязь результатов измерения и положения испытуемого на шкале переменной для одномерного случая представлена на рис. 4. Каждая оценка переменной измерения для учащихся из те­стируемой группы соответствует одной из точек оси. В свою оче­редь каждая точка определяет положение испытуемого или груп­пы испытуемых с одинаковым тестовым баллом, полученным по результатам выполнения теста.

§

§

§ Рис. 4. Геометрическая интерпретация результата тестовых измерений

§

§ На изображенной оси более высокие баллы располагаются пра­вее, а более низкие – левее. Крайний слева результат отражает случай, когда испытуемый выполнил правильно лишь несколько заданий теста. Противоположной ситуаций, когда ученик выпол­нил все или почти все, соответствует крайняя правая точка на оси переменной измерения. Остальные точки занимают некоторое промежуточное положение на отрезке, где лежат тестовые баллы учащихся.

§ Если правильно выполненные задания теста соотнести с ре­зультатами учащихся и расположить их вдоль оси переменной из­мерения, то можно предположить, что более трудны задания сместятся вдоль оси вправо, так как их, скорее всего, будут вы­полнять правильно наиболее сильные учащиеся в классе. И наобо­рот, более легкие задания будут смещены влево – они по силам ученикам с низким уровнем подготовки (см. рис. 5).

§

§

§ Рис. 5. Соотношение между трудностью заданий и подготовленностью учащихся:

§ β– уровень трудности j -го задания, j = 1, 2,.... 4, θ1 и θ2 – тестовые баллы двух

§ учащихся

§

§ Из дидактических соображений на рисунке показано выполне­ние четырех заданий, однако все выводы, получаемые с помо­щью этого примера, применимы к любому числу заданий в тесте. Расположение тестового балла первого учащегося говорит о том, что он выполнил верно два самых легких задания, но не справил­ся с третьим и четвертым заданиями. Второй учащийся имеет бо­лее высокий тестовый балл и подготовлен лучше. Он не выполнил только самое трудное – четвертое задание теста.

§ Ошибки измерения. Локализация места расположения резуль­тата ученика на оси переменной зависит в основном от соотно­шения между величиной его истинного балла и трудностью зада­ний теста. Если балл довольно высок, а задание довольно лег­кое, то у ученика все основания для успешного выполнения этого задания теста. В противном случае ученика скорее всего ждет неудача.

§ Конечно, наверняка предугадать ничего нельзя в силу действия различных смещающих факторов (эффект забывания, подсказки и т.д.), поэтому обычно говорят лишь о некоторой вероятности успеха или неуспеха.

§ Вероятностный характер наблюдаемых результатов выполне­ния теста Обусловлен влиянием случайных и неслучайных ошибок измерения. В число последних входят те, которые появляются из-за просчетов разработчиков в процессе создания теста. К ошибкам систематического характера могут также привести нарушение требований к сбору статистических дан­ных, некачественная интерпретация ре­зультатов выполнения теста и ряд дру­гих причин. К случайным факторам можно отнести настроение испытуемого, поведение экзаменатора, обстанов­ку при тестировании в классе и многое другое – словом, все, что учесть и пред­видеть при тестировании попросту невозможно.

§ Одномерные измерения. Чаще всего при планировании измере­ний в образовании выбирают одномерные конструкты. Это упро­щает процесс построения шкалы, но не всегда бывает адекватно содержанию тестов. Рис. 6 иллюстрирует случай одномерных изме­рений, который может быть интерпретирован следующим обра­зом: одна латентная переменная Т – истинный уровень подготов­ленности каждого обучаемого – приводит к возникновению од­ной оценки наблюдаемой переменнойХ – уровня подготовлен­ности обучаемого. Помимо переменной Т на оценку X оказывает влияние фактор Е – ошибка измерения.

§

§ Рис. 6. Иллюстрация связи переменной измерения, истинного бала и ошибки при одномерном измерении

§

§ Чтобы принять гипотезу об одномерности теста, необходимо выявить связь между теоретическим конструктом и эмпирически­ми индикаторами, роль которых выполняют задания теста. Оцен­ка связи требует ответа на вопрос – есть ли разница между доказательством одномерности конструкта и доказательством одно­мерности заданий теста?

§ На рис. 7 представлена измерительная модель для одномерного случая, иллюстрирующая связь между конструктом, обозначенным символом Т, и четырьмя заданиями 1, Х2, Х3, Х4), Числа, стоящие у каждого луча, показывают меру предполагаемой корреляцион­ной связи между конструктом и эмпирическими индикаторами – заданиями теста.

§

§ Рис. 7. Измерительная модель, иллюстрирующая связь между конструктом и заданиями теста (одномерный случай)

§

§ При анализе модели важно пони­мать, что конструкт является латент­ным (скрытым от возможностей не­посредственного измерения) факто­ром, взаимодействие которого с заданиями порождает наблюдаемые ре­зультаты выполнения теста. Влияние конструкта на наблюдаемые перемен­ные показано на рис. 7 с помощью направленных лучей.

§ Поскольку каждое задание в рас­смотренном гипотетическом примере измеряет только один конструкт, то справедлив, вывод об одномерности за­даний теста. Обратный вывод, в общем случае, неверен: из одномерности заданий не следует одно­мерности теста.

§ Многомерные измерения. Если конструкт включает не одну, а несколько переменных, то измерения называются многомерны­ми, Совокупность переменных образует пространство переменных измерения, размерность которого равна их числу. Иногда при про­ведении многомерных измерений создают несколько субтестов, каждый из которых является одномерным и измеряет свою пере­менную с помощью одномерных заданий.

§ Примером такого подхода является полидисциплинарный тест, состоящий из набора одномерных субтестов. В другом случае в многомерных измерениях используют междисциплинарный тест, задания которого не являются одномерными. Каждое из заданий измеряет свою совокупность переменных, которые могут отличаться как по количеству, так и по содержательной трактовке конструкта.

§ В практике педагогических измерений существуют специаль­ные методы анализа размерности пространства измерений. Такую группу методов предоставляет исследовательский и конфирматорный факторный анализ, применение аппарата которого основано на использовании соответствующего программного обеспечения, например статистического пакета SPSS.

§

§ 4. Уровни измерений в образовании

§

§ Типология уровней измерения. Общая типология уровней изме­рения основывается на проявлении совокупности свойств, лежа­щей в основе построения шкал. В качестве таких свойств выделя­ют: идентичность, позволяющую однозначно относить объекты к одной из выделяемых совокупностей; транзитивность, способству­ющую ранжированию объектов в определенном порядке; метричность, обеспечивающую единую единицу измерения, и наличие абсолютного нуля.

§ Наиболее общая классификация, предложенная С.Стивенсон [18; 22; 60], включает четыре уровня измерений и фиксирует при­сущие им свойства. Согласно такой классификации различают шкалы качественные (шкала наименований, или классификаций, и порядковая шкала) и количественные (интервальная шкала и шкала отношений) шкалы. Качественные шкалы иногда называ­ют неметрическими (концептуальными), а количественные – мет­рическими (материальными). Для каждого уровня измерений су­ществуют группы допустимых преобразований и операций с различными математическими и статистическими величинами, ха­рактеризующими измеряемые признаки.

§ Качественные шкалы. На качественном уровне отнесение эмпи­рических объектов измерения к различным классам проводится по признаку эквивалентности (шкала наименований, или номиналь­ная шкала) или по признаку упорядочения внутри эквивалентных объектов одного класса (порядковая шкала). Для построения шка­лы наименований и порядковой шкалы в основном применяются экспертные методы, при которых оценки на шкале считаются дос­товерными, если они признаны большинством экспертов,

§ Примером номинальной шкалы могут служить результаты за­четной сессии, когда все студенты делятся на две труппы – полу­чивших и не получивших зачет. Порядковые шкалы используются в образовании в тех случаях, когда педагогический контроль осуществляется традиционными способами без применения тестов. Например, порядковой является привычная четырехбальная школьная шкала, которую иногда неоправданно называют пяти­балльной. Каждой группе учащихся, проявляющей согласно мне­нию, учителя сходные знания, присваивается одинаковый (один из четырех) номер места от двух до пяти.

§ Недостатки качественных шкал – ограниченная сфера приме­нения и низкая точность измерения. Числа или символы, припи­сываемые объектам путем экспертного оценивания, субъективны и носят исключительно условный характер. Их нельзя суммиро­вать или проводить с ними другие математические операции.

§ Количественные шкалы. К количественным шкалам относятся интервальная шкала и шкала отношений. Процесс их построения основывается на измерениях, поэтому представленные в них оцен­ки характеристик объектов отличаются более высокой объектив­ностью по сравнению с оценками в качественных шкалах и под­даются определенным математическим операциям.Интервальная шкала используется для упорядочения объектов, свойства кото­рых удовлетворяют отношениям эквивалентности, порядка и ад­дитивности. В ней определено расстояние между объектами и пред­усмотрена общая для всех объектов единица измерения, а нача­лом отсчета является условно выбранная нулевая точка. Благодаря существованию единицы измерения в интервальной шкале воз­можны все арифметические действия над числами, кроме опера­ции деления в силу отсутствия абсолютного нуля. Примером ин­тервальной шкалы в образовании, обеспечивающей корректную сравнимость результатов педагогических измерений, является шкала логитов, построение которой осуществляется на основе те­ории IRT [22; 60; 67; 83].

§ Шкала отношений описывает свойства объектов, удовлетворяю­щие отношениям эквивалентности, порядка, аддитивности и про­порциональности. Последнее свойство появляется благодаря су­ществованию в этой шкале однозначного естественно определенного критерия нулевого проявления измеряемого свойства – аб­солютного нуля. Другими словами, шкала отношений является интервальной шкалой с естественным, а не условным началом отсчета, что расширяет возможности преобразований чисел, приписанных объектам. По сравнению со всеми ранее рассмотренны­ми шкалами эта шкала обеспечивает самый высокий уровень из­мерений, но реализовать ее в образовании невозможно в силу отсутствия абсолютного нуля.

§

§ 5. Надежность и валидность результатов педагогических измерений

§

§ Общие замечания. Размерность, надежность и валидность явля­ются взаимосвязанными свойствами, характеризующими различ­ные аспекты качества педагогических измерений. Выявление раз­мерности – необходимый предварительный этап работ по оцени­ванию надежности и валидности результатов измерений.

§ Надежность результатов тестирования. Надежностью (reliability) называется характеристика точности тестовых результатов и их устойчивости к действию случайных факторов [60]. По сложив­шейся традиции термин «надежность» часто, хотя и не совсем верно, используют по отношению к тесту. Однако надежность те­ста является необходимым, но не достаточным условием получе­ния высокой точности измерений. В случае нарушений требова­ний к стандартизации условий проведения тестирования, проверке и оцениванию его результатов даже с помощью очень на­дежного измерителя можно получить результаты со значительным ошибочным компонентом.

§ Концепция истинного балла. Анализ надежности основан на предположении классической теории тестов о связи между на­блюдаемым баллом, истинным баллом и ошибкой измерения. Оценка истинных баллов (true scores) испытуемых – главная цель всех, кто создает или применяет педагогические тесты. Так как любые результаты тестирования всегда содержат в себе ошибоч­ные компоненты, то приходится заменять истинные баллы – па­раметры испытуемых – их наиболее достоверными оценками, которые тем точнее, чем надежнее тест.

§ Концептуальная формула для коэффициента надежности. Основ­ная аксиома классической теории тестов приводит к фундамен­тальному соотношению, позволяющему получить концептуальную формулу для коэффициента надежности результатов измерений (количественной характеристики надежности), которая связыва­ет дисперсию (показатель разброса) наблюдаемых баллов и дисперсию ошибок измерения с rн – коэффициентом надеж­ности теста. Эта формула имеет вид

§ (1)

§

§ Ее значение исключительно теоретическое, поскольку по эм­пирическим результатам выполнения теста нельзя подсчитать .

§ Несложный анализ формулы дляоценивая надежности (1) по­зволяет сделать выводы о возможных пределах величины rн.Очевидно, что дробь всегда неотрицательна, поэтому коэффици­ент надежности не может принимать значение больше единицы. Максимальное значение rн равное 1, получается в том случае, когда = 0, – случай, который не встречается в практике изме­рений. Так как величина дроби уменьшается с ростом знаменате­ля, то естественно предположить, что надежность увеличивается в тех случаях, когда тест обеспечивает высокий разброс тестовых баллов учеников.

§ Факторы, влияющие на надежность гомогенного теста. На осно­ве постулатов классической теорий тестов и различных модифи­каций концептуальной формулы (1) можно определить факторы, влияющие на повышение надежности теста.

§ 1. Если при компоновке теста отбирать задания, имеющие наи­большую корреляцию с другими заданиями теста, то тест будет иметь высокую надежность и обеспечит низкую погрешность изме­рения. Другими словами, чем выше содержательная однородность (гомогенность) теста, тем он надежнее. Этот вывод представляет особую важность для коротких тестов (от 20 до 35 заданий). В очень длинных тестах (более 100 заданий) малые значения интеркорре­ляции заданий могут сочетаться с высокой надежностью теста.

§ 2. Надежность измерений повышается с увеличением длины теста. Этот формальный вывод не всегда согласуется с реальными возможностями учеников. По мере роста длины теста повышается утомляемость и снижается мотивация к выполнению заданий, что в совокупности ведет к росту ошибки измерения. Поэтому при выборе оптимальной длины теста разработчики анализируют груп­пу факторов, среди которых: высокая дисперсия тестовых баллов, нормальный характер их распределения, форма используемых за­даний, возраст учеников и время выполнения теста, выбранное в соответствии с целями тестирования и физиологическими воз­можностями учащихся.

§ По данным Н.Гронлунда, учащиеся старших классов в сред­нем за 1 мин могут выполнить одно задание с выбором ответа (при числе ответов не более четырех) [88]. На задание с кратким дополняемым ответом требуется в среднем до 2 мин, а с полным свободно конструируемым ответом – до 5 мин. В целом для обес­печения достаточно высокой надежности измерений рекоменду­ется проводить тестирование выпускников неполной средней школы (IX класс) в течение 2 – 3 уроков, а выпускников средней школы (XI класс) – в течение 2—4 уроков.

§ Валидность результатов педагогических измерений. Валидность – это характеристика адекватности результатов измерения постав­ленной цели создания теста [60]. Другими словами, валидность – это характеристика того, в какой мере удается измерить именно запланированный конструкт. Поэтому оценивание валидности тес­но связано с анализом размерности пространства педагогических измерений.

§ Оценивание валидности. Количественная опенка валидности получается путем соотнесения результатов измерения с различ­ными внешними критериями (обычно качественного характера), независимо описывающими вне ситуации тестирования все, что собирались измерять. Высокая корреляция результатов измерений с внешними критериями свидетельствует о высокой валидности теста. Наоборот, слабая корреляция указывает на неполную адек­ватность теста своему предназначению и позволяет сделать вывод о низкой валидности теста. Поскольку можно выбрать достаточно много внешних критериев адекватности теста поставленным це­лям измерения, существуют различные виды валидности и мно­гочисленные методы ее исследования.

§ Конструктная валидность. Оценка конструктной валидности связана с выявлением того, насколько хорошо измеряется кон­цептуально выбранный латентный конструкт. При анализе конст­руктной валидности часто рассматривают корреляцию между ре­зультатами по новым и уже существующим тестам, валидность которых подтверждена многолетней практикой их применения. Проводят независимую экспертизу качества содержания теста, ис­пользуют факторный анализ, позволяющий выстроить факторную структуру теста, анализируют внутреннюю согласованность теста методами корреляционного анализа и т.д.

§ Содержательная валидность. В педагогических измерениях на первый план выходит исследование содержательной валидности теста, основанное на тщательной экспертизе. В общем случае со­держательная валидность – это степень релевантности и репре­зентативности отражения концептуально выделенного конструк­та в содержании заданий теста. В основе работы экспертов обычно лежит анализ полноты, значимости, правильности пропорций со­держания теста и его соответствия запланированным для провер­ки видам учебной деятельности (рис. 8).

§

§ Рис. 8. Модель обеспечения содержательной валидности измерения

§

Методы априорного анализа включают:
• выявление экономически обоснованных и существенных причинно-следственных связей между признаками и явлениями;
• оценку однородности исследуемой совокупности;
• анализ характера распределения совокупности по изучаемым признакам.

Одной из основополагающих предпосылок проведения научно обоснованного статистического анализа, адекватно отражающего причинно-следственные связи и зависимости, тенденции .развития реальных явлений и процессов в статике и динамике, является однородность статистической совокупности.

Анализ однородности статистической совокупности целесообразно проводить в следующей последовательности:

1. определение степени однородности всей совокупности по одному или нескольким существенным признакам;

2. определение и анализ аномальных наблюдений;

3. выбор оптимального варианта выделения однородных совокупностей.

Однако следует учитывать, что любая исследуемая совокупность наряду со значениями признаков, сложившихся под влиянием факторов, непосредственно характерных для анализируемой совокупности, может содержать и значения признаков, полученных под воздействием иных факторов, не характерных для основной совокупности. Такие значения резко выделяются, и, следовательно, использование методологии статистического анализа данной совокупности без предварительного анализа и изучения аномальных наблюдений приводит к серьезным ошибкам. Резко выделяющиеся из общей совокупности наблюдения требуют изучения.

Причины появления в совокупности аномальных наблюдений условно подразделяют следующим образом:

1. внешние, возникающие в результате технических ошибок;

2. внутренние, объективно существующие.

Такие наблюдения представляют интерес для исследователя, так как могут содержать за счет влияния неучтенных факторов особую информацию. На практике в зависимости от условий места и времени влияние одних факторов в каждый конкретный исследуемый момент или промежуток времени значительнее, чем других. Выбор того или иного метода выявления, анализа аномальных наблюдений определяется объемом совокупности, характером исследуемых процессов и задач (одномерных и многомерных).

Нецелесообразность исключения аномальных наблюдений из изучаемой совокупности реализуется широким использованием метода группировок.
Важной задачей статистических исследований на этапе априорного анализа является выделение однородных групп (даже аномальных). В данном случае в анализе эффективно применять сложные комбинационные группировки с развернутым сказуемым.

Всесторонний качественный анализ исходных данных является залогом проведения научно-обоснованного, логически выверенного экономико-статистического исследования социально-экономических явлений и процессов.