Ковариационная матрица двумерной непрерывной случайной величины,коэффициенткорреляции,пределызначений,доказательство;независимость и некоррелированность:понятие и признаки. 7 страница
Простой называется гипотеза о значении числовой характеристики или параметра, когда область значений, предполагаемых этой гипотезой, и область альтернативных значений - каждая из них являются одноточечными.В других случаях гипотеза называется сложной.
44. Пример проверки простой гипотезы о математическом ожидании, графическое представление вариантов назначения критической области, вероятностей ошибок первого и второго рода, способы уменьшения вероятности ошибок.
Плотность распределения генеральной совокупности - нормальна, дисперсия известна и равна . Из генеральной совокупности X извлечена выборка . Проверяется простая гипотеза
: против альтернативы : .Примеры необходимости проверки подобного рода гипотез в технике:
- при цифровой передаче данных в условиях действия сильных помех с целью различения передаваемых двоичных символов ‘0’ и ‘1’,
- в системах управления технологическими процессами с целью выявления состояния двухпозиционных устройств, контроля исполнения дискретных управляющих воздействий, обнаружения разладки технологического процесса и т.д.
Для проверки этой гипотезы подходящей статистикой является среднее арифметическое значение, плотность распределения которого, как мы уже выяснили, также нормальна с дисперсией , а математическое ожидание равно a или b - в зависимости от того, какая из двух гипотез реально имеет место. В случае справедливости гипотезы , в случае справедливости гипотезы . Эти две плотности распределения статистики приведены на рис. 34. Они пересекаются, и стоит задача определения границы областей и , то есть критического значения , чтобы обеспечить требуемые значения вероятностей ошибочных решений a и b. Эти вероятности показаны на рис.34, как площади под кривыми плотностей распределения статистики, соответствующих гипотезам и .В самом деле, если гипотеза справедлива, среднее арифметическое значение из-за действия случайных факторов может попасть в критическую область с вероятностью . Тогда, если так случится, будет сделан ошибочный вывод, который приведет к отклонению этой, на самом деле справедливой гипотезы. В противном случае, когда справедлива гипотеза , среднее арифметическое значение из-за действия случайных факторов может попасть в область с вероятностью , что также приведет к ошибочному выводу.Как видно из рис. 34, перемещением границы между областями и можно устанавливать желательное соотношение между вероятностями a и b. Но может оказаться, что их значения слишком велики, и перемещение критического значения не приводит к их снижению. В таком случае необходимо увеличивать объем выборки. В результате дисперсия среднего арифметического уменьшится, его плотность распределения сузится, общая площадь под обеими кривыми уменьшится и, следовательно, уменьшатся вероятности ошибочных решений.Этот пример показывает, что при проверке простой гипотезы контролируются значения обеих вероятностей ошибочных решений: a и b.
45. Проверка гипотез о виде плотности распределения по критерию “хи-квадрат” - с выводом плотности распределения статистики критерия.
Из генеральной совокупности X ,образованной случайной величиной x, извлечена выборка . Выдвигается предположение о том, что плотность распределения случайной величины есть , где - вектор параметров. Для проверки этого предположения по выборочным данным вычисляются оценки параметров и проверяется сложная гипотеза:
: плотность распределения случайной величины x есть
против альтернативы
: плотность распределения случайной величины x не .
Поскольку эта гипотеза сложная, задается только вероятность ошибки первого рода a, которая в подобных случаях именуется уровнем значимости.Для проверки сформулированной гипотезы естественно построить оценку плотности распределения, то есть гистограмму (п. 2.2, рис. 27) и сопоставить ее с предполагаемой плотностью распределения. На рис. 36 приведен пример гистограммы и кривая предполагаемой плотности распределения , которая построена после того, как по выборочным значениям вычислены оценки ее параметров . Степень различия между гистограммой и предполагаемой плотностью распределения выражается суммой квадратов разностей ,где ,то есть вероятность попадания значения случайной величины в интервал при условии справедливости нулевой гипотезы, - оценки этих вероятностей, где - количество выборочных значений, попавших в интервал , n - объем выборки, К- общее количество интервалов, на которых построена гистограмма. Каждое слагаемое этой суммы является случайной величиной, поскольку случайным является число . Если выборочные значения независимы, - событие, которое заключается в том, что выборочное значение попадает в интервал , - противоположное событие. Поэтому в соответствии со схемой Бернулли вероятность того, что при n экспериментах событие произойдет ровно раз, равна (см. п. 1.3.2) .Из результатов, полученных в примере п. 1.3.5, следует, что
, .Пользуясь формулами для моментов линейных функций от случайных величин, приведенными в п. 1.3.4, можем записать, что
, .Преобразуем исходную сумму путем деления каждого из слагаемых на его дисперсию. Получим сумму .Легко видеть, что после этого деления , .Строго говоря, случайная величина является дискретной из-за того, что порождена дискретной случайной величиной , распределенной по биномиальному закону. При дискретности значений величины , равной 1, дискретность значений вновь сформированной случайной величины равна , и с ростом n убывает до нуля. Поэтому можно говорить, что эта случайная величина в ассимптотике при n®¥ становится непрерывной.
С другой стороны, по теореме Муавра - Лапласа (п. 1.3.7), распределение вероятностей случайной величины при n ®¥аппроксимируется значениями .После выполненных преобразований и с учетом того, что при n ®¥дискретность значений случайной величины
уменьшается до нуля, мы имеем право говорить, что эта случайная величина распределена асимптотически нормально с параметрами (0, 1), то есть
.
Как известно из п. 2.3.4.2 с), плотность распределения суммы квадратов таких случайных величин есть плотность распределения “хи-квадрат”. Таким образом, окончательно можем записать формулу для вычисления статистики критерия “хи - квадрат”, плотность распределения которой при условии справедливости нулевой гипотезы есть плотность распределения “хи - квадрат” с числом степеней свободы (K - r), где K - количество слагаемых в сумме (то есть число интервалов, на которых построена гистограмма), r - число параметров предполагаемой плотности распределения, которые были определены по выборочным данным (то есть число связей, наложенных на выборочные данные):
.
Поскольку, как правило, сомножитель (1 - в знаменателях слагаемых опущен.
Подобный функционал был использован нами ранее в п. 2.3.6 для нахождения оценок параметров плотности распределения методом минимума .
При заданной вероятности ошибки первого рода , здесь - уровня значимости, критическое значение (нижняя граница критической области ) назначается из следующих соображений.При справедливости нулевой гипотезы маловероятно, чтобы статистика критерия оказалась слишком большой. Ограничимся таким критическим значением, вероятность превышения которого будет не более заданного значения a. Поскольку нам известно, что при условии справедливости нулевой гипотезы статистика критерия распределена приблизительно по закону , мы можем принять в качестве критического значения - процентную квантиль .
Таким образом, сформирован критерий “хи - квадрат” проверки гипотезы о виде плотности распределения (или закона распределения) генеральной совокупности по экспериментальным данным.Процедура проверки гипотезы о виде плотности распределения по критерию “хи - квадрат”.
1. Задается уровень значимости a
2. По выборочным данным строится гистограмма в соответствии с указаниями п. 2.2.
3. Вычисляются точечные оценки моментов.
4. Из теоретических соображений, по виду гистограммы, по соотношениям между моментами, по значениям асимметрии и эксцесса, по другим соображениям выдвигается гипотеза о виде плотности распределения .5. Вычисляются оценки параметров предполагаемой плотности распределения, в результате будет получена плотность распределения .6. С использованием вычисляются вероятности .
7. Вычисляется статистика критерия
.
8. Полученное значение сравнивается с критическим значением
,
где r - количество оцениваемых параметров.
9. Если делается вывод о том, что экспериментальные данные не подтверждают справедливость выдвинутой гипотезы или о том, что отсутствуют достаточные основания для того, чтобы считать нулевую гипотезу справедливой. Гипотеза пересматривается, выдвигается новая нулевая гипотеза, переход на п. 4 настоящей процедуры.
10. Если делается вывод о том, что экспериментальные данные подтверждают справедливость выдвинутой гипотезы или о том, что имеются достаточные основания для того, чтобы считать нулевую гипотезу справедливой.
В заключение сделаем замечание о том, что с уменьшением вероятности a возрастает критическое значение , а это значит, что объективно растет вероятность ошибочного подтверждения нулевой гипотезы, когда она неверна. Крайний случай иллюстрирует это положение: если задать a = 0,то критическое значение , а это означает, что нулевая гипотеза, какой бы она ни была, не будет подвергаться сомнению ни при каком значении статистики критерия.
46. Проверка гипотез о виде плотности распределения по критерию Колмогорова-Смирнова
Из генеральной совокупности X ,образованной случайной величиной x, извлечена выборка . По этим данным строится выборочная функция распределения.По виду выборочной функции распределения выдвигается предположение о том, что функция распределения есть , где - вектор параметров. По выборочным данным вычисляются оценки параметров , по соотношениям между ними уточняется вид функции распределения, и, если это нужно, ранее выдвинутое предположение уточняется. Проверяется сложная гипотеза : функция распределения случайной величины x есть против альтернативы : функция распределения случайной величины x не .
Поскольку эта гипотеза сложная, задается только вероятность ошибки первого рода a, которая в подобных случаях именуется уровнем значимости.
В соответствии с формулировкой гипотезы сравниваются две функции распределения: выборочная (п. 2.2) и предполагаемая, представленные на рис. 37. Различие между ними определено, как
,
где - значения выборочной функции распределения при .
Статистикой критерия является величина D. Критические значения табулированы. Таблицы критических значений , как функций от вероятности a, приводятся практически во всех учебниках и справочниках по математической статистике. В таблице 5 приводятся некоторые часто употребляемые критические значения.
Таблица 5