Парная корреляция. Для оценки степени тесноты и направления связи между двумя линейно зависимыми признаками используется парный (линейный) коэффициент корреляции.

Линейный коэффициент корреляции изменяется в пределах от —1 до +1. Равенство коэффициента нулю свидетельствует об отсутствии линейной связи. Равенство коэффициента —1 или +1 показывает наличие функциональной связи. Знак «+» указывает на связь прямую (увеличение или уменьшение одного признака сопровождается аналогичным изменением другого признака), знак «—» — на связь обратную (увеличение или уменьшение одного признака сопровождается противоположным по направлению изменением другого признака).

 

23. Уравнение регрессии Y = A + В * Х

Это математическое выражение корреляционной зависимости называется уравнением регрессии. Коэффициенты a и b называются параметрами уравнения регрессии. Параметр а определяет на графике (рис.12) отрезок, отсекаемый графиком уравнения (прямой линией) на оси Y. Параметр b показывает, как изменяется признак Y при изменении признака X. Это "b " еще называют коэффициентом регрессии.

Уравнение регрессии тем лучше описывает корреляционную зависимость, чем ближе она к линейной и чем больше ее достоверность. В случае нелинейной зависимости математически запись может выражаться в виде более сложных уравнений различных кривых линий (экспоненциальной кривой, параболы, гиперболы и т.д.).

При наличии достоверной криволинейной корреляционной зависимости можно подобрать уравнение, хорошо ее описывающее. Особенно эта возможность становится реальной при наличии электронно-вычислительной техники.

24. Интерпретация коэффициента регрессии. Уравнение регрессии не только определяет форму анализируемой связи, но и показывает, в какой степени изменение одного признака сопровождается изменением другого признака.

Коэффициент при х, называемый коэффициентом регрессии, показывает, на какую величину в среднем изменяется результативный признак у при изменении факторного признака х на единицу.

В примере 9 коэффициент регрессии получился равным 24,58. Следовательно, с увеличением посева, приходящегося на душу, на одну десятину сбор хлеба на душу населения в среднем увеличивается на 24,58 пуда.

Средняя и предельная ошибки коэффициента регрессии. Поскольку уравнения регрессии рассчитываются, как правило, для выборочных данных, обязательно встают вопросы точности и надежности полученных результатов. Вычисленный коэффициент регрессии, будучи выборочным, с некоторой точностью оценивает соответствующий коэффициент регрессии генеральной совокупности. Представление об этой точности дает средняя ошибка коэффициента регрессии.

АНАЛИЗ РЕГРЕССИОННЫЙ - группа методов статистического анализа данных, предназначенных для исследования причинных связей между количественными переменными.

 

25. В практических исследованиях возникает необходимость апроксимировать (математически описать приблизительно) корреляционную зависимость между двумя признаками уравнением. Для линейной зависимости сделать это относительно просто: вытянутое корреляционное поле заменить усредненной прямой линией и найти ее уравнение по статистическим данным коррелируемых признаков. В прямоугольной системе координат уравнение прямой линии записывается в виде:
У = А + В * Х
Это математическое выражение корреляционной зависимости называется уравнением регрессии. Коэффициенты a и b называются параметрами уравнения регрессии. Параметр а определяет на графике (рис.12) отрезок, отсекаемый графиком уравнения (прямой линией) на оси Y. Параметр b показывает, как изменяется признак Y при изменении признака X. Это "b " еще называют коэффициентом регрессии.

 

26. Корреляция - систематическая и обусловленная связь между двумя рядами данных.

Корреляция - связь переменных, при которой одному значению одного признака соответствует несколько значений другого признака, отклоняющегося в ту или иную сторону от своего среднего значения.

Нулевая гипотеза - предположение об отсутствии взаимосвязи или корреляции между исследуемыми переменными.

ГИПОТЕЗА СТАТИСТИЧЕСКАЯ - предположение о некоторых свойствах генеральной совокупности (см.), которое можно проверить, опираясь на данные выборочного исследования. В социологии часто проверяют гипотезы о равенстве средних значений переменной в двух или нескольких группах, об однородности распределений, о статистической связи и независимости переменных и пр.

Г.С. - это форма представления содержательной гипотезы, позволяющая проверить ее статистическими средствами (см.: Статистическая проверка гипотез). В отличие от содержательной гипотезы, Г.С. формулируется в виде двух взаимно исключающих утверждений, называемых нулевой и альтернативной гипотезами. Нулевая гипотеза (см.) (Н0) постулирует отсутствие различий между исследуемыми характеристиками генеральной совокупности или отсутствие связи между переменными. Она выступает в роли утверждения, которое считается справедливым до тех пор, пока не обнаружатся противоречащие ему факты. Доказав с помощью вычислений, что нулевая гипотеза не верна, исследователь косвенно демонстрирует, что признаки на самом деле связаны друг с другом, а различия существуют.

Альтернативная гипотеза (Н1) утверждает существование определенных различий между характеристиками генеральной совокупности или наличие определенного типа связи между переменными. Большинство исследовательских гипотез формулируются как альтернативные. Доказательство альтернативной гипотезы осуществляется косвенно, через отклонение нулевой гипотезы. В то же время принятие нулевой гипотезы во многих случаях означает не отклонение альтернативной гипотезы, а только то, что данные, собранные для ее подтверждения, недостаточно убедительны.

Во многих случаях одна и та же нулевая гипотеза может служить базой для проверки нескольких альтернативных гипотез. Например, исследователь, изучающий связь между употреблением подростками наркотиков и подростковым суицидом, в качестве нулевой гипотезы, вероятно, будет использовать утверждение типа: "употребление наркотиков и суицид не связаны друг с другом". Альтернативные гипотезы могут быть следующими: (1) употребление наркотиков повышает вероятность суицида; (2) употребление наркотиков снижает вероятность суицида; (3) суицид каким-то образом связан с употреблением наркотиков. Альтернативные гипотезы (1) и (2) в этом примере являются односторонними, гипотеза (3) - двусторонней, в ней не уточняется направление постулируемой связи. С точки зрения интерпретации результатов исследования, двусторонняя альтернативная гипотеза обладает меньшей содержательной ценностью, чем односторонние. Однако для некоторых нулевых гипотез односторонние альтернативы сформулировать невозможно.

 

27. КРИТЕРИЙ СТАТИСТИЧЕСКИЙ (ТЕСТ СТАТИСТИЧЕСКИЙ)

критерий принятия решения по проверке статистической выборки.

Статистические тесты (например, Т-критерий Стьюдента или U-критерий Манна-Уитни) могут показать вероятность того, что две случайным образом взятые выборки (см.) принадлежат к одной генеральной совокупности. Если эта вероятность мала, то нуль-гипотеза может быть отброшена, т.е. можно сделать заключение, что утверждение "результаты обеих групп являются случайными выборками одной генеральной совокупности" неверно (правильнее было бы сказать - маловероятно). Следует учитывать, что единственный вывод, который правомочно сделать после статистической обработки данных Э., состоит в факте отрицания нуль-гипотезы, а не в "подтверждении" исследовательской гипотезы.

 

29. Независимые (несвязанные) выборки - выборки, в которые объекты исследования набирались независимо друг от друга. Альтернатива независимым выборкам — зависимые (связанные, парные) выборки.

t-критерий является наиболее часто используемым методом обнаружения различия между средними двух выборок. Выборки могут быть независимыми (например, t-критерий для независимых выборок можно использовать для сравнения средних показателей группы пациентов, принимавших определенное лекарство, с контрольной группой, где принималось безвредное лекарство) или зависимыми (например, до и после лечения, до и после приема лекарства, см. ниже). Теоретически, t-критерий может применяться, даже если размеры выборок очень небольшие (например, 10; некоторые исследователи утверждают, что можно исследовать меньшие выборки), и если переменные нормально распределены (внутри групп), а дисперсии наблюдений в группах не слишком различны (см. также Элементарные понятия).

t-критерий для зависимых выборок. t-критерий для зависимых выборок очень полезен в тех довольно часто возникающих на практике ситуациях, когда важный источник внутригрупповой вариации (или ошибки) может быть легко определен и исключен из анализа. Например, это относится к экспериментам, в которых две сравниваемые группы основываются на одной и той же совокупности наблюдений (субъектов), которые тестировались дважды (например, до и после лечения, до и после приема лекарства). В подобных экспериментах значительная часть внутригрупповой изменчивости (вариации) в обеих группах может быть объяснена индивидуальными различиями субъектов. Поэтому, в свою очередь, критерий становится более чувствительным.

t-критерий для одной выборки. В так называемом t-критерии для одной выборки, наблюдаемое среднее (из одной выборки) ставнивается с ожидаемым средним популяции (например, некое теоретическое среднее), а вариация в популяции подсчитывается на основе вариации в наблюдаемой выборке.

32. Стьюдента критерий,

статистическое правило проверки гипотез (см. Статистическая проверка гипотез), основанное на Стьюдента распределении.

татистическая проверка гипотез, система приёмов в математической статистике, предназначенных для проверки соответствия опытных данных некоторой статистической гипотезе. Процедуры С. п. г. позволяют принимать или отвергать статистические гипотезы, возникающие при обработке или интерпретации результатов измерений во многих практически важных разделах науки и производства, связанных с экспериментом. Правило, по которому принимается или отклоняется данная гипотеза, называется статистическим критерием. Построение критерия определяется выбором подходящей функции Т от результатов наблюдений, которая служит мерой расхождения между опытными и гипотетическими значениями. Эта функция, являющаяся случайной величиной, называется статистикой критерия, при этом предполагается, что распределение вероятностей Т может быть вычислено при допущении, что проверяемая гипотеза верна. По распределению статистики Т находится значение Т0, такое, что если гипотеза верна, то вероятность неравенства T >T0 равна a, где a — заранее заданный значимости уровень. Если в конкретном случае обнаружится, что Т > T0, то гипотеза отвергается, тогда как появление значения Т £ T0 не противоречит гипотезе. Пусть, например, требуется проверить гипотезу о том, что независимые результаты наблюдений x1,..., xn подчиняются нормальному распределению со средним значением а = a0 и известной дисперсией s2. При этом предположении среднее арифметическое результатов наблюдений распределено нормально со средним а = a0 и дисперсией s2/n, а величина распределена нормально с параметрами (0, 1). Полагая можно найти связь между T0 и a по таблицам нормального распределения. Например, при гипотезе а = a0 событие Т > 1, 96 имеет вероятность а = 0,05. Правило, рекомендующее считать, что гипотеза а = a0 неверна, если Т > 1,96, будет приводить к ложному отбрасыванию этой гипотезы в среднем в 5 случаях из 100, в которых она верна. Если же Т £ 1,96, то это ещё не означает, что гипотеза подтверждается, т.к. указанное неравенство с большой вероятностью может выполняться при а, близких к a0. Следовательно, при использовании предложенного критерия можно лишь утверждать, что результаты наблюдений не противоречат гипотезе а = a0. При выборе статистики Т всегда явно или неявно учитывают гипотезы, конкурирующие с гипотезой а = a0. Например, если заранее известно, что а ³ a0, т. е. отклонение гипотезы а = a0 влечёт принятие гипотезы а > a0, то вместо Т следует взять . Если дисперсия s2 неизвестна, то вместо данного критерия для проверки гипотезы а = a0 можно воспользоваться т. н. критерием Стьюдента, основанным на статистике которая включает несмещенную оценку дисперсии

и подчинена Стьюдента распределению с n — 1 степенями свободы (подобную задачу см. в ст. Математическая статистика, табл. 1a). Такого рода критерии называются критериями согласия и используются как для проверки гипотез о параметрах распределения, так и гипотез о самих распределениях (см. Непараметрические методы). При решении вопроса о принятии или отклонении какой-либо гипотезы H0 с помощью любого критерия, основанного на результатах наблюдения, могут быть допущены ошибки двух типов. Ошибка «первого рода» совершается тогда, когда отвергается верная гипотеза H0. Ошибка «второго рода» совершается в том случае, когда гипотеза H0 принимается, а на самом деле верна не она, а какая-либо альтернативная гипотеза Н. Естественно требовать, чтобы критерий для проверки данной гипотезы приводил возможно реже к ошибочным решениям. Обычная процедура построения наилучшего критерия для простой гипотезы заключается в выборе среди всех критериев с заданным уровнем значимости и (вероятность ошибки первого рода) такого, который приводил бы к наименьшей вероятности ошибки второго рода (или, что то же самое, к наибольшей вероятности отклонения гипотезы, когда она неверна). Последняя вероятность (дополняющая до единицы вероятность ошибки второго рода) называется мощностью критерия. В случае, когда альтернативная гипотеза Н простая, наилучшим будет критерий, который имеет наибольшую мощность среди всех других критериев с заданным уровнем значимости а (наиболее мощный критерий). Если альтернативная гипотеза Н сложная, например зависит от параметра, то мощность критерия будет функцией, определенной на классе простых альтернатив, составляющих Н, т. е. будет функциейпараметра. Критерий, имеющий наибольшую мощность при каждой альтернативной гипотезе из класса Н, называется равномерно наиболее мощным, однако следует отметить, что такой критерий существует лишь в немногих специальных ситуациях. В задаче проверки гипотезы о среднем значении нормальной совокупности а = а0 против альтернативной гипотезы а > a0равномерно наиболее мощный критерийсуществует, тогда как при проверке той жегипотезы против альтернативы а ¹ a0 его нет. Поэтому часто ограничиваются поиском равномерно наиболее мощных критериев в тех или иных специальных классах (Инвариантных, несмещенных критериев и т.п.).

Теория С. п. г. позволяет с единой точки зрения трактовать выдвигаемые практикой различные задачи математической статистики (оценка различия между средними значениями, проверка гипотезы постоянства дисперсии, проверка гипотезы независимости, проверка гипотез о распределениях и т.п. Идеи последовательного анализа, примененные к С. п. г., указывают на возможность связать решение о принятии или отклонении гипотезы с результатами последовательнопроводимых наблюдений (в этом случае число наблюдений, на основе которых по определённому правилу принимается решение, не фиксируется заранее, а определяется в ходе эксперимента) (см. также Статистические решения).

28.33. Статистическая проверка гипотез

Статистическая проверка гипотез, система приёмов в математической статистике, предназначенных для проверки соответствия опытных данных некоторой статистической гипотезе. Процедуры С. п. г. позволяют принимать или отвергать статистические гипотезы, возникающие при обработке или интерпретации результатов измерений во многих практически важных разделах науки и производства, связанных с экспериментом. Правило, по которому принимается или отклоняется данная гипотеза, называется статистическим критерием. Построение критерия определяется выбором подходящей функции Т от результатов наблюдений, которая служит мерой расхождения между опытными и гипотетическими значениями. Эта функция, являющаяся случайной величиной, называется статистикой критерия, при этом предполагается, что распределение вероятностей Т может быть вычислено при допущении, что проверяемая гипотеза верна. По распределению статистики Т находится значение Т0, такое, что если гипотеза верна, то вероятность неравенства T >T0 равна a, где a — заранее заданный значимости уровень. Если в конкретном случае обнаружится, что Т > T0, то гипотеза отвергается, тогда как появление значения Т £ T0 не противоречит гипотезе. Пусть, например, требуется проверить гипотезу о том, что независимые результаты наблюдений x1,..., xn подчиняются нормальному распределению со средним значением а = a0 и известной дисперсией s2. При этом предположении среднее арифметическое результатов наблюдений распределено нормально со средним а = a0 и дисперсией s2/n, а величина распределена нормально с параметрами (0, 1). Полагая можно найти связь между T0 и a по таблицам нормального распределения. Например, при гипотезе а = a0 событие Т > 1, 96 имеет вероятность а = 0,05. Правило, рекомендующее считать, что гипотеза а = a0 неверна, если Т > 1,96, будет приводить к ложному отбрасыванию этой гипотезы в среднем в 5 случаях из 100, в которых она верна. Если же Т £ 1,96, то это ещё не означает, что гипотеза подтверждается, т.к. указанное неравенство с большой вероятностью может выполняться при а, близких к a0. Следовательно, при использовании предложенного критерия можно лишь утверждать, что результаты наблюдений не противоречат гипотезе а = a0. При выборе статистики Т всегда явно или неявно учитывают гипотезы, конкурирующие с гипотезой а = a0. Например, если заранее известно, что а ³ a0, т. е. отклонение гипотезы а = a0 влечёт принятие гипотезы а > a0, то вместо Т следует взять . Если дисперсия s2 неизвестна, то вместо данного критерия для проверки гипотезы а = a0 можно воспользоваться т. н. критерием Стьюдента, основанным на статистике которая включает несмещенную оценку дисперсии

и подчинена Стьюдента распределению с n — 1 степенями свободы (подобную задачу см. в ст. Математическая статистика, табл. 1a). Такого рода критерии называются критериями согласия и используются как для проверки гипотез о параметрах распределения, так и гипотез о самих распределениях (см. Непараметрические методы). При решении вопроса о принятии или отклонении какой-либо гипотезы H0 с помощью любого критерия, основанного на результатах наблюдения, могут быть допущены ошибки двух типов. Ошибка «первого рода» совершается тогда, когда отвергается верная гипотеза H0. Ошибка «второго рода» совершается в том случае, когда гипотеза H0 принимается, а на самом деле верна не она, а какая-либо альтернативная гипотеза Н. Естественно требовать, чтобы критерий для проверки данной гипотезы приводил возможно реже к ошибочным решениям. Обычная процедура построения наилучшего критерия для простой гипотезы заключается в выборе среди всех критериев с заданным уровнем значимости и (вероятность ошибки первого рода) такого, который приводил бы к наименьшей вероятности ошибки второго рода (или, что то же самое, к наибольшей вероятности отклонения гипотезы, когда она неверна). Последняя вероятность (дополняющая до единицы вероятность ошибки второго рода) называется мощностью критерия. В случае, когда альтернативная гипотеза Н простая, наилучшим будет критерий, который имеет наибольшую мощность среди всех других критериев с заданным уровнем значимости а (наиболее мощный критерий). Если альтернативная гипотеза Н сложная, например зависит от параметра, то мощность критерия будет функцией, определенной на классе простых альтернатив, составляющих Н, т. е. будет функциейпараметра. Критерий, имеющий наибольшую мощность при каждой альтернативной гипотезе из класса Н, называется равномерно наиболее мощным, однако следует отметить, что такой критерий существует лишь в немногих специальных ситуациях. В задаче проверки гипотезы о среднем значении нормальной совокупности а = а0 против альтернативной гипотезы а > a0равномерно наиболее мощный критерийсуществует, тогда как при проверке той жегипотезы против альтернативы а ¹ a0 его нет. Поэтому часто ограничиваются поиском равномерно наиболее мощных критериев в тех или иных специальных классах (Инвариантных, несмещенных критериев и т.п.).

Теория С. п. г. позволяет с единой точки зрения трактовать выдвигаемые практикой различные задачи математической статистики (оценка различия между средними значениями, проверка гипотезы постоянства дисперсии, проверка гипотезы независимости, проверка гипотез о распределениях и т.п. Идеи последовательного анализа, примененные к С. п. г., указывают на возможность связать решение о принятии или отклонении гипотезы с результатами последовательнопроводимых наблюдений (в этом случае число наблюдений, на основе которых по определённому правилу принимается решение, не фиксируется заранее, а определяется в ходе эксперимента) (см. также Статистические решения).

34. Понятие об истинном результате теста является абстракцией ( в опыте измерить нельзя). Поэтому приходится использовать косвенные методы. Наиболее предпочтителен для оценки надежности дисперсионный анализ с последующим расчетом внутриклассовых коэффициентов корреляции. Дисперсионный анализ позволяет разложить зарегистрированную в опыте вариацию результатов теста на составляющие, обусловленные влиянием отдельных факторов. Например, если зарегистрировать у исследуемых их результаты в каком-либо тесте, повторяя этот тест в разные дни, причем каждый день делать по несколько попыток, периодически меняя экспериментаторов, то будут иметь место вариации:

а) от испытуемого к испытуемому;

б) ото дня ко дню;

в) от экспериментатора к экспериментатору;

г) от попытки к попытке.

Дисперсионный анализ дает возможность выделить и оценить эти вариации.

Таким образом, чтобы оценить практически надежность теста надо, во-первых, выполнить дисперсионный анализ, во-вторых, рассчитать внутриклассовый коэффициент корреляции (коэффициент надежности).

При двух попытках величина внутриклассового коэффициента корреляции практически совпадает со значениями обычного коэффициента корреляции между результатами первой и второй попыток. Поэтому в таких ситуациях для оценки надежности можно использовать обычный коэффициент корреляции (он при этом оценивает надежность одной, а не двух попыток).

Говоря о надежности тестов, необходимо различать их стабильность (воспроизводимость), согласованность, эквивалентность.

 

35.36.37. 38. 39.40. Основные понятия теории тестов
Измерение или испытание, проводимое с целью определения состояния или способностей спортсмена, называется тестом.

Не всякие измерения могут быть использованы как тесты, а только те, которые отвечают специальным требованиям. К ним относятся:

1. стандартизованность (процедура и условия тестирования должны быть одинаковыми во всех случаях применения теста);
2. надежность;
3. информативность;
4. наличие системы оценок.
Тесты, удовлетворяющие требованиям надежности и информативности, называют добротными или аутентичными (греч. аутентико — достоверным образом).

Процесс испытаний называется тестированием; полученное в итоге измерения числовое значение — результатом тестирования (или результатом теста). Например, бег 100 м — это тест, процедура проведения забегов и хронометража — тестирование, время забега — результат теста.

Тесты, в основе которых лежат двигательные задания, называют двигательными или моторными . Результатами их могут быть либо двигательные достижения (время прохождения дистанции, число повторений, пройденное расстояние и т.п.), либо физиологические и биохимические показатели.

Иногда используется не один, а несколько тестов, имеющих единую конечную цель (например, оценку состояния спортсмена в соревновательном периоде тренировки). Такая группа тестов называется комплексом или батареей тестов.

Один и тот же тест, примененный к одним и тем же исследуемым, должен дать в одинаковых условиях совпадающие результаты (если только не изменились сами исследуемые). Однако при самой строгой стандартизации и точной аппаратуре результаты тестирования всегда несколько варьируют. Например, исследуемый, только что показавший в тесте становой динамометрии результат 215 кГ, при повторном выполнении показывает лишь 190 кГ.

. Надежность тестов и пути ее определения

Надежностью теста называется степень совпадения результатов при повторном тестировании одних и тех же людей (или других объектов) в одинаковых условиях.

Вариацию результатов при повторном тестировании называют внутри индивидуальной, или внутри групповой, либо внутриклассовой.

Четыре основные причины вызывают эту вариацию:

1. Изменение состояния исследуемых (утомление, врабатывание, научение, изменение мотивации, концентрации внимания и т.п.).
2. Неконтролируемые изменения внешних условий и аппаратуры (температура, ветер, влажность, напряжение в электросети, присутствие посторонних лиц и т.п.), т.е. все то, что объединяется термином “случайная ошибка измерения”.
3. Изменение состояния человека, проводящего или оценивающего тест (и, конечно, замена одного экспериментатора или судьи другим).
4. Несовершенство теста (есть такие тесты, которые заведомо малонадежные. Например, если исследуемые выполняют штрафные броски в баскетбольную корзину, то даже баскетболист, имеющий высокий процент попаданий, может случайно ошибиться при первых бросках).
Основное различие теории надежности тестов от теории ошибок измерения состоит в том, что в теории ошибок измеряемая величина считается неизменной, а в теории надежности тестов предполагается, что она меняется от измерения к измерению. Например, если необходимо измерить результат выполненной попытки в прыжках в длину с разбега, то он вполне определенный и с течением времени значительно измениться не может. Конечно, в силу случайных причин (например, неодинакового натяжения рулетки) нельзя с идеальной точностью (скажем до 0,0001 мм) измерить этот результат. Однако используя более точный измерительный инструмент (например, лазерный измеритель), можно повысить их точность до необходимого уровня. Вместе с тем, если стоит задача определить подготовленность прыгуна на отдельных этапах годичного цикла тренировки, то самое точное измерение показанных им результатов мало чем поможет: ведь они от попытки к попытке изменятся.

 

41.Надежность тестов и пути ее определения
Надежностью теста называется степень совпадения результатов при повторном тестировании одних и тех же людей (или других объектов) в одинаковых условиях.

Вариацию результатов при повторном тестировании называют внутри индивидуальной, или внутри групповой, либо внутриклассовой.

Четыре основные причины вызывают эту вариацию:

1. Изменение состояния исследуемых (утомление, врабатывание, научение, изменение мотивации, концентрации внимания и т.п.).
2. Неконтролируемые изменения внешних условий и аппаратуры (температура, ветер, влажность, напряжение в электросети, присутствие посторонних лиц и т.п.), т.е. все то, что объединяется термином “случайная ошибка измерения”.
3. Изменение состояния человека, проводящего или оценивающего тест (и, конечно, замена одного экспериментатора или судьи другим).
4. Несовершенство теста (есть такие тесты, которые заведомо малонадежные. Например, если исследуемые выполняют штрафные броски в баскетбольную корзину, то даже баскетболист, имеющий высокий процент попаданий, может случайно ошибиться при первых бросках).
Основное различие теории надежности тестов от теории ошибок измерения состоит в том, что в теории ошибок измеряемая величина считается неизменной, а в теории надежности тестов предполагается, что она меняется от измерения к измерению. Например, если необходимо измерить результат выполненной попытки в прыжках в длину с разбега, то он вполне определенный и с течением времени значительно измениться не может. Конечно, в силу случайных причин (например, неодинакового натяжения рулетки) нельзя с идеальной точностью (скажем до 0,0001 мм) измерить этот результат. Однако используя более точный измерительный инструмент (например, лазерный измеритель), можно повысить их точность до необходимого уровня. Вместе с тем, если стоит задача определить подготовленность прыгуна на отдельных этапах годичного цикла тренировки, то самое точное измерение показанных им результатов мало чем поможет: ведь они от попытки к попытке изменятся.

Чтобы разобраться в идее методов, используемых для суждения о надежности тестов, рассмотрим упрощенный пример. Предположим, что необходимо сравнить результаты прыжков в длину с места у двух спортсменов по двум выполненным попыткам. Допустим, что результаты каждого из спортсменов варьируют в пределах ± 10 см от средней величины и равны соответственно 230 ± 10 см (т.е. 220 и 240 см) и 280± 10 см (т.е. 270 и 290 см). В таком случае вывод, конечно, будет совершенно однозначным: второй спортсмен превосходит первого (различия между средними в 50см явно выше случайных колебаний в ± 10 см). Если же при той же самой внутригрупповой вариации ( ± 10 см) различие между средними значениями исследуемых (межгрупповая вариация) будут маленькими, то сделать вывод будет гораздо труднее. Допустим, что средние значения будут примерно равны 220 см (в одной попытке — 210, в другой — 230 см) и 222 см (212 и 232 см). При этом первый исследуемый в первой попытке прыгает на 230 см, а второй — только на 212 см; и создается впечатление, что первый существенно сильнее второго. Из этого примера видно, что основное значение имеет не сама по себе внутриклассовая изменчивость, а ее соотношение с межклассовыми различиями. Одна и та же внутриклассовая изменчивость дает разную надежность при равных различиях между классами (в частном случае между исследуемыми, рис. 14).

короткие вертикальные штрихи — данные отдельных попыток;

— средние результаты трех исследуемых.

Теория надежности тестов исходит из того, что результат любого измерения, проводимого на человеке , есть сумма двух значений:

где: — так называемый истинный результат, который хотят зафиксировать;

— ошибка, вызванная неконтролируемыми изменениями в состоянии исследуемого и случайными ошибками измерения.

Под истинным результатом понимают среднее значение х при бесконечно большом числе наблюдений в одинаковых условиях (по этому при х ставят знак ).

Если ошибки случайны (их сумма равна нулю, и в равных попытках они не зависят друг от друга), тогда из математической статистики следует:


т.е. зарегистрированная в опыте дисперсия результатов равна сумме дисперсий истинных результатов и ошибок .
Коэффициентом надежности называется отношение истинной дисперсии к дисперсии, зарегистрированной в опыте:

Кроме коэффициента надежности используют еще индекс надежности:



который рассматривают как теоретический коэффициент корреляции зарегистрированных значений теста с истинными.

Понятие об истинном результате теста является абстракцией ( в опыте измерить нельзя). Поэтому приходится использовать косвенные методы. Наиболее предпочтителен для оценки надежности дисперсионный анализ с последующим расчетом внутриклассовых коэффициентов корреляции. Дисперсионный анализ позволяет разложить зарегистрированную в опыте вариацию результатов теста на составляющие, обусловленные влиянием отдельных факторов. Например, если зарегистрировать у исследуемых их результаты в каком-либо тесте, повторяя этот тест в разные дни, причем каждый день делать по несколько попыток, периодически меняя экспериментаторов, то будут иметь место вариации:

а) от испытуемого к испытуемому;

б) ото дня ко дню;

в) от экспериментатора к экспериментатору;

г) от попытки к попытке.

Дисперсионный анализ дает возможность выделить и оценить эти вариации.

Таким образом, чтобы оценить практически надежность теста надо, во-первых, выполнить дисперсионный анализ, во-вторых, рассчитать внутриклассовый коэффициент корреляции (коэффициент надежности).

При двух попытках величина внутриклассового коэффициента корреляции практически совпадает со значениями обычного коэффициента корреляции между результатами первой и второй попыток. Поэтому в таких ситуациях для оценки надежности можно использовать обычный коэффициент корреляции (он при этом оценивает надежность одной, а не двух попыток).

Говоря о надежности тестов, необходимо различать их стабильность (воспроизводимость), согласованность, эквивалентность.

Под стабильностью теста понимают воспроизводимость результатов при его повторении через определенное время в одинаковых условиях. Повторное тестирование обычно называют ретестом.

Согласованность теста характеризуется независимостью результатов тестирования от личных качеств лица, проводящего или оценивающего тест.

При выборе теста из определенного числа однотипных тестов (например, спринтерский бег на 30, 60 и 100 м) методом параллельных форм оценивается степень совпадения результатов. Рассчитанный между результатами коэффициент корреляции называют коэффициентом эквивалентности.

Если все тесты, входящие в какой-либо комплекс тестов, высоко эквивалентны, он называется гомогенным. Весь этот комплекс измеряет одно какое-то свойство моторики человека (например, комплекс, состоящий из прыжков с места в длину, вверх и тройного; оценивается уровень развития скоростно-силовых качеств). Если в комплексе нет эквивалентных тестов, то есть тесты, входящие в него, измеряют разные свойства, то он называется гетерогенным (например, комплекс, состоящий из становой динамометрии, прыжка вверх по Абалакову, бега на 100 м).

Надежность тестов может быть повышена до определенной степени путем:

а) более строгой стандартизации тестирования;

б) увеличения числа попыток;

в) увеличения числа оценщиков (судей, экспериментов) и повышения согласованности их мнений;

г) увеличения числа эквивалентных тестов;

д) лучшей мотивации исследуемых.

 

42.43.Надежность тестов и пути ее определения
Надежностью теста называется степень совпадения результатов при повторном тестировании одних и тех же людей (или других объектов) в одинаковых условиях.

Вариацию результатов при повторном тестировании называют внутри индивидуальной, или внутри групповой, либо внутриклассовой.

Четыре основные причины вызывают эту вариацию:

1. Изменение состояния исследуемых (утомление, врабатывание, научение, изменение мотивации, концентрации внимания и т.п.).
2. Неконтролируемые изменения внешних условий и аппаратуры (температура, ветер, влажность, напряжение в электросети, присутствие посторонних лиц и т.п.), т.е. все то, что объединяется термином “случайная ошибка измерения”.
3. Изменение состояния человека, проводящего или оценивающего тест (и, конечно, замена одного экспериментатора или судьи другим).
4. Несовершенство теста (есть такие тесты, которые заведомо малонадежные. Например, если исследуемые выполняют штрафные броски в баскетбольную корзину, то даже баскетболист, имеющий высокий процент попаданий, может случайно ошибиться при первых бросках).
Основное различие теории надежности тестов от теории ошибок измерения состоит в том, что в теории ошибок измеряемая величина считается неизменной, а в теории надежности тестов предполагается, что она меняется от измерения к измерению. Например, если необходимо измерить результат выполненной попытки в прыжках в длину с разбега, то он вполне определенный и с течением времени значительно измениться не может. Конечно, в силу случайных причин (например, неодинакового натяжения рулетки) нельзя с идеальной точностью (скажем до 0,0001 мм) измерить этот результат. Однако используя более точный измерительный инструмент (например, лазерный измеритель), можно повысить их точность до необходимого уровня. Вместе с тем, если стоит задача определить подготовленность прыгуна на отдельных этапах годичного цикла тренировки, то самое точное измерение показанных им результатов мало чем поможет: ведь они от попытки к попытке изменятся.

Чтобы разобраться в идее методов, используемых для суждения о надежности тестов, рассмотрим упрощенный пример. Предположим, что необходимо сравнить результаты прыжков в длину с места у двух спортсменов по двум выполненным попыткам. Допустим, что результаты каждого из спортсменов варьируют в пределах ± 10 см от средней величины и равны соответственно 230 ± 10 см (т.е. 220 и 240 см) и 280± 10 см (т.е. 270 и 290 см). В таком случае вывод, конечно, будет совершенно однозначным: второй спортсмен превосходит первого (различия между средними в 50см явно выше случайных колебаний в ± 10 см). Если же при той же самой внутригрупповой вариации ( ± 10 см) различие между средними значениями исследуемых (межгрупповая вариация) будут маленькими, то сделать вывод будет гораздо труднее. Допустим, что средние значения будут примерно равны 220 см (в одной попытке — 210, в другой — 230 см) и 222 см (212 и 232 см). При этом первый исследуемый в первой попытке прыгает на 230 см, а второй — только на 212 см; и создается впечатление, что первый существенно сильнее второго. Из этого примера видно, что основное значение имеет не сама по себе внутриклассовая изменчивость, а ее соотношение с межклассовыми различиями. Одна и та же внутриклассовая изменчивость дает разную надежность при равных различиях между классами (в частном случае между исследуемыми, рис. 14).

короткие вертикальные штрихи — данные отдельных попыток;

— средние результаты трех исследуемых.

Теория надежности тестов исходит из того, что результат любого измерения, проводимого на человеке , есть сумма двух значений:

где: — так называемый истинный результат, который хотят зафиксировать;

— ошибка, вызванная неконтролируемыми изменениями в состоянии исследуемого и случайными ошибками измерения.

Под истинным результатом понимают среднее значение х при бесконечно большом числе наблюдений в одинаковых условиях (по этому при х ставят знак ).

Если ошибки случайны (их сумма равна нулю, и в равных попытках они не зависят друг от друга), тогда из математической статистики следует:

т.е. зарегистрированная в опыте дисперсия результатов равна сумме дисперсий истинных результатов и ошибок .
Коэффициентом надежности называется отношение истинной дисперсии к дисперсии, зарегистрированной в опыте:

Кроме коэффициента надежности используют еще индекс надежности:
который рассматривают как теоретический коэффициент корреляции зарегистрированных значений теста с истинными.

Понятие об истинном результате теста является абстракцией ( в опыте измерить нельзя). Поэтому приходится использовать косвенные методы. Наиболее предпочтителен для оценки надежности дисперсионный анализ с последующим расчетом внутриклассовых коэффициентов корреляции. Дисперсионный анализ позволяет разложить зарегистрированную в опыте вариацию результатов теста на составляющие, обусловленные влиянием отдельных факторов. Например, если зарегистрировать у исследуемых их результаты в каком-либо тесте, повторяя этот тест в разные дни, причем каждый день делать по несколько попыток, периодически меняя экспериментаторов, то будут иметь место вариации:

а) от испытуемого к испытуемому;

б) ото дня ко дню;

в) от экспериментатора к экспериментатору;

г) от попытки к попытке.

Дисперсионный анализ дает возможность выделить и оценить эти вариации.

Таким образом, чтобы оценить практически надежность теста надо, во-первых, выполнить дисперсионный анализ, во-вторых, рассчитать внутриклассовый коэффициент корреляции (коэффициент надежности).

При двух попытках величина внутриклассового коэффициента корреляции практически совпадает со значениями обычного коэффициента корреляции между результатами первой и второй попыток. Поэтому в таких ситуациях для оценки надежности можно использовать обычный коэффициент корреляции (он при этом оценивает надежность одной, а не двух попыток).

Говоря о надежности тестов, необходимо различать их стабильность (воспроизводимость), согласованность, эквивалентность.

Под стабильностью теста понимают воспроизводимость результатов при его повторении через определенное время в одинаковых условиях. Повторное тестирование обычно называют ретестом.

Согласованность теста характеризуется независимостью результатов тестирования от личных качеств лица, проводящего или оценивающего тест.

При выборе теста из определенного числа однотипных тестов (например, спринтерский бег на 30, 60 и 100 м) методом параллельных форм оценивается степень совпадения результатов. Рассчитанный между результатами коэффициент корреляции называют коэффициентом эквивалентности.

Если все тесты, входящие в какой-либо комплекс тестов, высоко эквивалентны, он называется гомогенным. Весь этот комплекс измеряет одно какое-то свойство моторики человека (например, комплекс, состоящий из прыжков с места в длину, вверх и тройного; оценивается уровень развития скоростно-силовых качеств). Если в комплексе нет эквивалентных тестов, то есть тесты, входящие в него, измеряют разные свойства, то он называется гетерогенным (например, комплекс, состоящий из становой динамометрии, прыжка вверх по Абалакову, бега на 100 м).

Надежность тестов может быть повышена до определенной степени путем:

а) более строгой стандартизации тестирования;

б) увеличения числа попыток;

в) увеличения числа оценщиков (судей, экспериментов) и повышения согласованности их мнений;

г) увеличения числа эквивалентных тестов;

д) лучшей мотивации исследуемых.


44.Теоретические сведения
Информативность теста — это степень точности, с какой он измеряет свойство (качество, способность, характеристику и т.п.), для оценки которого используется. Информативность нередко называют также валидностью (от англ. validity — обоснованность, действительность, законность). В разных случаях одни и те же тесты могут иметь разную информативность.

Вопрос об информативности теста распадается на два частных вопроса:

1) что измеряет данный тест?

2) как точно он измеряет?

Если тест используется для определения состояния спортсмена в момент обследования, то говорят о диагностической информативности теста. Если же на основе результатов тестирования хотят сделать вывод о возможных будущих показателях спортсмена — о прогностической информативности. Тест может быть диагностически информативен, а прогностически нет, и наоборот.

Степень информативности может характеризоваться количественно на основе опытных данных (так называемая эмпирическая информативность) и качественно — на основе содержательного анализа ситуации ( содержа-тельная или логическая информативность).

Идея определения эмпирической информативности (греч. эмпириа — опыт) состоит в том, что результаты сравнивают с некоторым критерием. Для этого рассчитывают коэффициент корреляции между критерием и тестом (такой коэффициент называют коэффициентом информативности и обозначают , где: t — первая буква в слове “тест”, k — в слове “критерий”).

В качестве теста-критерия берется показатель, заведомо и бесспорно отражающий то качество системы, которое собираются измерять с помощью теста.

Чаще всего в спортивной метрологии критериями служат:

1) спортивный результат;

2) какая-либо количественная характеристика соревновательной деятельности (например, длина шага в беге, сила отталкивания в прыжках, процент точных передач в футболе и т.д.);

3) результаты другого теста, информативность которого доказана;

4) принадлежность к определенной группе. Например, можно сравнивать мастеров спорта и спортсменов низших разрядов; принадлежность к одной из этих групп является критерием;

5) так называемый составной критерий, например, сумма очков в многоборье.

Коэффициент информативности очень сильно зависит от надежности теста и критерия. Тест с низкой надежностью всегда мало информативен, поэтому не имеет смысла проверять малонадежные тесты на информативность. Недостаточная надежность критерия также приводит к снижению коэффициентов информативности. Однако в данном случае было бы не правильно пренебрегать тестом как мало информативным; ведь верхней границей возможной корреляции теста является не ± 1, а его индекс надежности. Поэтому надо сравнивать коэффициент информативности с этим индексом.

 

45.46.47.48.ДВИГАТЕЛЬНЫЙ ТЕСТ - МЕТОДИКА диагностики уровня развития психомоторной координации. От испытуемого требуется производить различные физические движения и манипулировать объектами.

КЛАССИФИКАЦИЯ ДВИГАТЕЛЬНЫХ

(МОТОРНЫХ) ТЕСТОВ

Термин тест в переводе с английского языка означает проба, испытание.

Тесты применяются для решения многих научных и практических задач. Среди других способов оценки физического состояния человека (наблюдение, экспертные оценки) метод тестов (в нашем случае — двигательных или моторных) является главным методом, используемым в спортивной метрологии и других научных дисциплинах («учении о движениях», теории и методике физического воспитания).

Тест — это измерение или испытание, проводимое для определения способностей или состояния человека. Таких измерений может быть очень много, в том числе на основе использования самых разнообразных физичес­ких упражнений. Однако далеко не каждое физическое упражнение или испытание можно рассматривать как тест. В качестве тестов могут использоваться лишь те испытания (пробы), которые отвечают специальным тре­бованиям:

должна быть определена цель применения любого теста (или тестов);

следует разработать стандартизированную методику измерения результатов в тестах и процедуру тестирования;

необходимо определить надежность и информативность тестов;

результаты тестов могут быть представлены в соответствующей системе оценки.

Система использования тестов в соответствии с поставленной задачей, организацией условий, выполнением тестов испытуемыми, оценка и анализ результатов называется тестированием. Полученное в ходе измерений числовое значение — результатом тестирования (теста). Например, прыжок в длину с места — это тест; процедура проведения прыжков и измерение результатов — тестирование; длина прыжка — результат теста.

основе тестов, используемых в физическом воспитании, лежат двигательные действия (физические упражнения, двигательные гадания). Такие тесты называются двигательными или моторными.

В настоящее время еще не существует единой классификации двигательных тестов. Известна классификация тестов по их структуре и по их преимущественным показаниям.

Различают единичный и комплексный тесты. Единичный тест служит для измерения и оценки одного признака (координационной или кондиционной способности). Поскольку, как видим, структура каждой координационной или кондиционной способности является сложной, то с помощью такого теста оценивается, как правило, только один компонент такой способности (например, способность к равновесию, быстрота простой реакции, сила мышц рук).

С помощью учебного теста оценивается способность к двигательному обучению (по разности окончательной и начальной оценок за определенный период обучения технике движений).

Тестовая серия дает возможность один и тот же тест использовать в течение длительного времени, когда измеряемая способность существенно улучшается. При этом задачи теста по своей трудности последовательно повышаются. К сожалению, эта разновидность единичного теста пока недостаточно используется как в науке, так и на практике.

С помощью комплексного теста оценивается несколько признаков или компонентов разных или одной и той же способности, например, прыжок вверх с места (со взмахом рук, без взмаха рук, на заданную высоту). На основании этого теста можно получить информацию об уровне скоростно-силовых способностей (по высоте прыжка), координационных способностей (по точности дифференцирования силовых усилий, по разности высоты прыжка со взмахом и без взмаха рук).

Тестовый профиль состоит из нескольких отдельных тестов, на основании которых оцениваются или несколько различных физических способностей (гетерогенный тестовый профиль), или несколько проявлений одной и той же физической способности (гомогенный тестовый профиль). Результаты теста могут быть представлены в форме профиля, что дает возможность быстро сравнивать индивидуаль-10 и групповые результаты.

Тестовая батарея состоит также из нескольких отдельных тестов, результаты которых сводятся в одну окончательную оценку, рассматриваемую в одной из оценочных икал. Как и в тестовом профиле, различают гомогенную и гетерогенную батареи. Гомогенная батарея или гомогенный профиль находят применение в оценке всех компонентов комплексной способности (например, способности к реакции). При этом результаты отдельных тестов должны быть тесно взаимосвязаны (коррелировать).

Гетерогенный тестовый профиль или гетерогенная батарея служат оценке комплекса совокупности различных двигательных способностей. Например, такие батареи тестов используются для оценки силовых, скоростных способностей и способностей к выносливости — это батареи тестов физической подготовленности.

В тестах многоразовых задач испытуемые последовательно выполняют двигательные задания и за каждое решение двигательной задачи получают отдельные оценки. Эти оценки могут состоять в тесной связи друг с другом. Посредством соответствующих статистических расчетов можно получить дополнительную информацию об оцениваемых способностях. Примером могут служить последовательно решаемые задания прыжкового теста.

 

49.Основы теории оценок и норм
Показанные спортсменами результаты (в частности, результаты тестов) во-первых, выражаются в разных единицах измерения (время, расстояние и т.п.) и поэтому непосредственно не сопоставимы друг с другом. Во-вторых, сами по себе не указывают, насколько удовлетворительно состояние спортсмена (скажем, время бега не 100 м, равное 12,0 с, может рассматриваться и как очень хорошее, и как очень плохое, в зависимости от того, о чем идет речь).

Поэтому результаты превращаются в оценки (очки, баллы, отметки, разряды и т.п.).

Последовательность действий при оценивании видна из приведенной схемы, в которую включены также этапы тестирования и измерения результатов теста.
Не во всех случаях оценивание происходит по такой развернутой схеме. Порой промежуточное и итоговое оценивание сливаются.

Закон преобразования спортивных результатов в очки называют шкалой оценок.

Оценкой (или педагогической оценкой) называется унифицированная мера успеха в каком-либо задании, в частном случае — тесте. Процесс установления оценок называют оцениванием.

Различают учебные оценки, которые выставляют преподаватели ученикам, студентам по ходу учебного или учебно-тренировочного процесса, и квалификационные , под которыми понимают все прочие виды оценок (в частности, результаты официальных соревнований, тестирования и др.).

Процедура квалификационного оценивания, как правило, более сложная. В полном, развернутом виде квалификационное оценивание проводят в два этапа. На первом этапе показанные спортивные результаты превращают на основе шкал оценок в очки (промежуточная оценка), а на втором, после сравнения набранных очков с заранее установленными нормами, определяют итоговую оценку.

Шкалы оценок
Разновидности шкал

Шкала оценок может быть представлена:

· таблицей;

· графиком функции;

· математической формулой.

Все шкалы можно разделить на две группы:

1. Пропорциональные (линейные) шкалы.

2. Нелинейные шкалы.

Принято выделять четыре основных типа шкал оценок (рис. 17).
I — пропорциональная шкала,

II — регрессирующая,

III — прогрессирующая,

IV — сигмовидная.

Первый тип — пропорциональные шкалы. Этот тип шкал предполагает начисление одинакового числа очков за равный прирост результатов (например, за каждые 0,1с улучшения результата в беге на 100м начисляется 20 очков).

Второй тип — регрессирующие шкалы. В этом случае за один и тот же прирост результата начисляются по мере возрастания спортивных достижений все меньшее число очков (например, за улучшение результата в беге на 100 м с 15,0 с до 14,9 с добавляются 20 очков, а за 0,1 с в диапазоне 10,0–9,9 с — только 15 очков).

Третий тип — прогрессирующие шкалы. Здесь, чем выше спортивный результат, тем большей прибавкой очков оценивается его улучшение (например, за улучшение времени в беге от 15,0 с до 14,9 с добавляются 10 очков, а от 10,0–9,9 с — 100 очков).

Четвертый тип — комбинированные, сигмовидные (или S-образные). В этих шкалах улучшение результатов в зонах очень низких и очень высоких достижений поощряется скупо; больше всего очков приносит прирост результатов в средней зоне достижений, т.е. в этих шкалах за равный прирост результата дается меняющаяся сумма баллов.

В спортивной практике наиболее часто применяются шкалы, для которых эквивалентными принято считать результаты в различных видах спорта, в равной степени доступные одинаковому проценту спортсменов одного возраста и пола. Исходя из этого, считают все мировые рекорды эквивалентными, независимо от вида спорта, и оценивают их одинаковым числом очков, например 100. Составив список сильнейших спортсменов по каждому виду спорта, считают эквивалентными также сотые результаты, т.е. всем таким спортсменам начисляют один балл.

Стандартные шкалы Относятся к группе пропорциональных шкал. Названы они стандартными потому, что масштабом в них служат стандартные отклонения. Наиболее популярна среди стандартных шкал Т-шкала. Здесь средняя величина приравнивается к 50 очкам, а стандарт — к 10 очкам, и расчет суммы баллов ведется по формуле: Например, если средняя величина в прыжках в длину с места равнялась 224 см, а стандартное отклонение составило ± 20 см, то за результат 222 см начисляется 49 очков:
При массовых обследованиях спортсменов или групп здоровья можно использовать так называемую С-шкалу, описываемую формулой:

Достоинством этой шкалы является простота подсчетов, что достигается за счет меньшей точности.

. Перцентильная шкала

Основана на мере преимущества каждого спортсмена по сравнению с более слабыми участниками соревнования. Если, например, проводится кросс с общим стартом, спортсмену можно начислять столько очков, сколько участников (в процентах) он обогнал. Если спортсмен опередил всех участников (99%), то он получает 99 очков, если опередил 72% — 72 очка и т.д. Тот же принцип можно использовать и в других тестах: число начисляемых очков приравнивается к проценту лиц, которых опередил (по результату) данный участник.

Шкала, построенная таким образом, называется перцентильной, а интервал этой шкалы — перцентилем.

Один перцентиль включает 1% всех испытуемых. 50%-ный перцентиль называется медианой.

. Шкалы выбранных точек

Описанные шкалы можно построить, если известно статистическое распределение результатов теста: средняя, стандарты и другие параметры распределения. Такие данные не всегда удается получить. Это достижимо, например, при разработке таких шкал, как комплекс ГТО, нормы по физическому воспитанию в школе и т.п., и недостижимо при разработке таблиц по видам спорта.

В последнем случае обычно поступают так: берут какой-нибудь высокий спортивный результат (например, мировой рекорд или 10-й результат в истории данного вида спорта) и приравнивают его, скажем, к 1000 очкам. Затем на основе результатов массовых испытаний определяют среднее достижение группы слабо подготовленных лиц и приравнивают его, скажем, к 100 очкам. После этого, если используется пропорциональная шкала, остается выполнить лишь арифметические вычисления — ведь две точки однозначно определяют прямую линию. Шкала, построенная таким образом, называется шкалой выбранных точек.

Для примера рассмотрим построение шкалы выбранных точек на основе данных мирового табеля о рангах спортсменов по итогам выступления в течение года. В нем мировым рекордам во всех видах спорта дается наивысшая сумма баллов — 1000 очков, а худшие результаты оцениваются 100 очками. Используя принцип построения пропорциональных шкал, строится график шкалы выбранных точек, представленный на рисунке 18
Рис. 18. График шкалы выбранных точек
Далее производится расчет уравнения прямой для данной шкалы оценок по формуле:
K = ax + b — уравнение прямой,
где: K — сумма баллов или очков;

x — результат;

a — коэффициент пропорциональности;

b — свободный член уравнения.

Подставив в данное уравнение значение и соответствующее ему значение , которому соответствует — лучший результаты), составим систему уравнений:

Решая систему относительно a , получим:

. Подставляя a в уравнение (1) получим b:

Подставив полученные числовые значения a и b в уравнение прямой, получим формулу для расчета оценок по шкале выбранных точек:

Таким образом, конечный вид уравнения прямой для расчета оценок по шкале выбранных точек будет следующим:

Например, лучший результат в беге на 100 м в группе исследуемых спортсменов, равный 11,0 с, оценивался 100 очками, а худший (14,0 с) — 10 очками. Тогда сумма очков спортсмена, показавшего время забега, равное 12,5 с, по формуле уравнения прямой для расчета оценок по шкале выбранных точек равна:

Шкала ГЦОЛИФК

При периодических обследованиях состав и общая численность тестируемой команды по разным причинам не остаются постоянными: кто-то заболел, кто-то отозван для участия в других соревнованиях т.п.

Предположим, что в ноябре тестирование проводилось на 10, а в феврале на 20 спортсменах. Конечно, занять 10 место при 10 или при 20 участниках — ни одно и то же (во втором случае спортсмен опередил девятерых, а в первом — никого). Кроме того, ранговая шкала (шкала порядка), например, перцентильная, неудобна тем, что она однозначно не определяет интервалы между исследуемыми.

Для случаев, когда условия тестирования не остаются постоянными, в ГЦОЛИФКе была разработана шкала, в основе которой лежит следующее математическое выражение:

где: К — оценка результата в баллах или очках.

Например, лучший результат в ударе ногой по мячу на дальность (в метрах) для подростков 10-11 лет равнялся 30,5м, худший — 8,5м. Очки, начисляемые спортсмену за результат 19,5м, рассчитываются по следующей формуле:

Спортсмен, показавший лучший результат, по шкале ГЦОЛИФКа всегда получает 100 очков, занявший же последнее место очков не получает.

Шкала ГЦОЛИФК относится к сигмовидным шкалам оценок, в то время как стандартные, перцентильные и шкалы выбранных точек — это пропорциональные шкалы.

 

50.Тестовый профиль состоит из нескольких отдельных тестов, на основании которых оцениваются или несколько различных физических способностей (гетерогенный тестовый профиль), или несколько проявлений одной и той же физической способности (гомогенный тестовый профиль). Результаты теста могут быть представлены в форме профиля, что дает возможность быстро сравнивать индивидуаль-10 и групповые результаты.

Тестовая батарея состоит также из нескольких отдельных тестов, результаты которых сводятся в одну окончательную оценку, рассматриваемую в одной из оценочных икал. Как и в тестовом профиле, различают гомогенную и гетерогенную батареи. Гомогенная батарея или гомогенный профиль находят применение в оценке всех компонентов комплексной способности (например, способности к реакции). При этом результаты отдельных тестов должны быть тесно взаимосвязаны (коррелировать).

Гетерогенный тестовый профиль или гетерогенная батарея служат оценке комплекса совокупности различных двигательных способностей. Например, такие батареи тестов используются для оценки силовых, скоростных способностей и способностей к выносливости — это батареи тестов физической подготовленности.

В тестах многоразовых задач испытуемые последовательно выполняют двигательные задания и за каждое решение двигательной задачи получают отдельные оценки. Эти оценки могут состоять в тесной связи друг с другом. Посредством соответствующих статистических расчетов можно получить дополнительную информацию об оцениваемых способностях. Примером могут служить последовательно решаемые задания прыжкового теста.

 

51. Нормой в спортивной метрологии называется граничная величина результата теста, на основе которой производится классификация спортсмена.

Существует три вида норм: а) индивидуальные;

б) должные;

в) сопоставительные.

Индивидуальные нормы основаны на сравнении показателей одного и того же спортсмена в разных состояниях.

Должные нормы устанавливаются на основании требований, которые предъявляют человеку условия жизни. Примером могут служить нормы выполнения заданий в различных видах производственной деятельности.