Ковариационная матрица двумерной непрерывной случайной величины,коэффициенткорреляции,пределызначений,доказательство;независимость и некоррелированность:понятие и признаки. 6 страница
Выборка извлечена из нормальной генеральной совокупности X, образованной случайной величиной . Для этой генеральной совокупности определен (задан) симметричный относительно математического ожидания интерквантильный промежуток в соответствии с п. 1.6.2, рис. 10 а), такой, что .Поскольку плотность распределения генеральной совокупности нормальна, ,и границами этого промежутка являются и ,где - - процентная квантиль нормальной случайной величины, дисперсия которой . Например, при P = 0,8квантиль , при P = 0.95 квантиль .Наша задача состоит в том, чтобы по имеющейся выборке, используя точечные оценки математического ожидания и среднеквадратического значения случайной величины, определить границы доверительного интервала, который накрывает искомый интерквантильный промежуток с заданной доверительной вероятностью Q. Границы такого доверительного интервала называются толерантными пределами. Обозначим эти толерантные пределы, нижний и верхний соответственно через и . Поставленная задача будет решена, если с вероятностью, не меньшей Q, будут совместно выполняться неравенства и ,Понятно, что расположение толерантных пределов на оси должно определяться тремя параметрами: вероятностью P, для которой определен искомый интерквантильный промежуток , объемом выборки n, по которой мы будем находить точечные оценки M[x] и , а также значением доверительной вероятности Q.Толерантные пределы определяются с помощью толерантных множителей, которые зависят от перечисленных параметров и обозначаются, как . Доверительный интервал, накрывающий интерквантильный промежуток с доверительной вероятностью Q, определяется толерантными пределами ): ,где .Эти пределы называются параметрическими толерантными пределами, поскольку определяются через точечные оценки параметров плотности распределения. Они могут использоваться только для интервальной оценки интерквантильного промежутка нормальной генеральной совокупности.Значения толерантного множителя табулированы в Таблицах математической статистики).Сопоставим математическое определение генерального интерквантильного промежутка, ширина которого пропорциональна с коэффициентом пропорциональности , и доверительный интервал для него, Значения толерантного множителя и квантилей нормальной плотности распределения для P = 0.95
n Q | ||||||
0.9 | 4.152 | 3.264 | 2.863 | 2.564 | 2.170 | 1.96 |
0.95 | 5.079 | 3.732 | 3.162 | 2.752 | 2.231 | 1.96 |
ширина которого пропорциональна sс коэффициентом пропорциональности . С этой целью приведем сравнительную таблицу квантилей нормальной плотности распределения и толерантного множителя для одного значения вероятности P = 0,95.
В заключение заметим, что, в отличие от доверительных интервалов для математического ожидания и дисперсии границы доверительного интервала для интерквантильного промежутка, то есть толерантные пределы с увеличением объема выборки приближаются к границам искомого интерквантильного промежутка. В пределе при n ширина этого доверительного интервала равна ширине искомого интерквантильного промежутка.
41. Доверительный интервал для вероятности, определение границ этого интервала.Оценивается вероятность p события A по результатам n независимых испытаний, исходами которых может быть одно из двух событий A и . Пусть - количество появления события A в n испытаниях. -это испытания по схеме Бернулли (п. 1.2.4), в соответствии с которой вероятность того, что событие A появилось раз равна .Требуется найти нижнюю и верхнюю границы интервала, который накрывает истинное значение вероятности pс вероятностью Q. Начнем с поиска нижней границы на примере.Пусть было выполнено n = 100 испытаний, и событие A осуществилось 50раз.Предположим, что = 0.Но это предположение не подтверждается полученным результатом, ибо при такой вероятности событие A не должно осуществиться никогда, как невозможное событие, а оно осуществилось и неоднократно.Предположим, что = 0.01.Воспользуемся формулой для и расcчитаем вероятность того, что при 100 испытаниях событие A осуществится 50 раз. Эта вероятность равна примерно . Она настолько мала, что и в этом случае мы не можем заключить о подтверждении нашего предположения результатом испытанийЭто же заключение можно сформулировать иначе: “при вероятности события A,равной 0.01, полученный результат практически невозможен, а потому это предположение не может считаться достаточно обоснованным”.Предположим, что = 0.1. В этом случае вероятность того, что при 100 испытаниях событие A осуществится 50 раз, должна была бы быть равна примерно 0.014. Это весьма незначительная вероятность, и поэтому и в данной ситуации мы не можем считать, что наше предположение подтверждается экспериментально.Предположим, что = 0.2. В этом случае . Такая вероятность полученного исхода нашего испытания может считаться достаточной для того, чтобы считать этот исход возможным. Если это так, и такая вероятность представляется исследователю удовлетворительной, он принимает значение р = 0.2 в качестве нижней границы доверительного интервала.На этом примере мы видим, что с увеличением предполагаемого истинного значения вероятности p значение вероятности монотонно возрастает, и в этом конкретном примере нижняя граница доверительного интервала для вероятности находится из уравнения ,где a - заданное значение вероятности, достаточное для того, чтобы считать полученный исход вполне возможным.
Вероятность в схеме Бернулли имеет максимум в окрестности значений, связанных равенством m = np. Это означает, что приведенное уравнение имеет два решения, из которых для определения нижней границы следует выбрать только одно, удовлетворяющее условиюp < m/n. Чтобы избавиться от этой двузначности и обеспечить дополнительные гарантии, принято находить нижнюю границу доверительного интервала для вероятности в схеме Бернулли из уравнения .В этом уравнении левая часть монотонно зависит от , и тем самым имеет только одно решение. Решение этого уравнения имеет следующий смысл: в качестве нижней границы доверительного интервала для вероятности выбирается такое значение, при котором вероятность появления события A не менее 50 раз достаточна для того, чтобы считать полученный исход испытания вполне возможным.В общем случае для нахождения нижней границы доверительного интервала для вероятности используется неравенство .На том же примере рассмотрим подход к определению верхней границы доверительного интервала для вероятности в схеме Бернулли.Предположим, что = 1.Это предположение не подтверждается результатом выполненного испытания, поскольку в этих условиях событие A должно осуществиться 100 раз, а полученный результат невозможен, вероятность его осуществления равна нулю. Предположим теперь, что = 0.7.Если это было бы так на самом деле, то вероятность полученного результата была бы равна 0.0000064, то есть этот результат маловероятен, и говорить о том, что результат испытаний подтверждает наше предположение, мы вряд ли можем.Точно так же, как это было при отыскании нижней границы доверительного интервала, мы в конце концов найдем такое значение > m/n, при котором вероятность осуществления полученного нами результата окажется достаточной для того, чтобы считать это предположение оправданным: .И в этом случае из тех же соображений, что и ранее, верхняя граница доверительного интервала для вероятности отыскивается из неравенства .Таким образом мы построили доверительный интервал для вероятности с границами , такой, что ,с доверительной вероятностью .Обычно принимают a = b, и Q = 1 - 2a.
42. Доверительные интервалы, не зависящие от плотности распределения генеральной совокупности (непараметрические толерантные пределы).Непараметрические толерантные пределы являются границами доверительного интервала для интерквантильного промежутка. Для того, чтобы их определить, не требуется априорная информация о виде плотности распределения генеральной совокупности, а поэтому точечные оценки параметров не используются.В качестве непараметрических толерантных пределов служат непосредственно выборочные значения - члены вариационного ряда. Вероятностные меры полуоткрытых интервалов, заключенных между двумя соседними членами вариационного ряда в среднем, по множеству групп однородных экспериментов объемом n одинаковы и =1/n. Выборка извлекается из генеральной совокупности, образованной всеми значениями случайной величины , интегральная функция распределения которой есть . Поскольку при любом распределении случайная величина распределена равномерно в интервале (0, 1), значения функции от выборочных значений также распределены равномерно в том же интервале. При нанесении выборочных значений на числовую ось эти выборочные значения выстраиваются в вариационный ряд . Вероятностные меры интервалов равны соответственно . Поскольку случайная величина распределена равномерно, эти вероятностные меры одинаковы на множестве всех возможных групп выборочных значений, извлеченных из генеральной совокупности, образованной случайной величиной .В связи с этим свойством полуоткрытые интервалы между соседними членами вариационного ряда и называются статистически эквивалентными блоками.Первый статистически эквивалентный блок . Последний статистически эквивалентный блок .Вероятностная мера полуоткрытого интервала =, по частотному определению вероятности, (n - 1)/n, поскольку один статистически эквивалентный блок, а именно, не входит в интервал .Вероятностная мера полуоткрытого интервала по той же причине равна (n - 3)/n, поскольку в этот интервал не входят статистически эквивалентные блоки , , . Нашей целью является определение границ такого доверительного интервала, который накрывает интерквантильный промежуток с вероятностью, не <Q. Как и в предыдущем пункте, и ,то есть нижний и верхний толерантные пределы должны охватывать истинный интерквантильный промежуток с вероятностью Q. Это эквивалентно тому, что в силу монотонности вероятностной меры , исходная задача трансформируется в следующую.Необходимо найти такие значения и , что вероятностная мера интервала между ними не <, чем вероятностная мера P искомого интерквантильного промежутка. Из предыдущего материала мы можем заключить, что вероятностная мера полуоткрытых интервалов, заключенных между элементами вариационного ряда, может быть просто определена путем подсчета относительного количества статистически эквивалентных блоков, находящихсяв эти полуоткрытые интервалы. Требуется определить и обеспечить не точечную оценку этой вероятностной меры, а такое гарантированное значение этой меры, о котором с вероятностью, не меньшей Q, можно говорить, что истинное значение вероятности не меньше, чем заданное при определении искомого интерквантильного интервала, то есть P. В настоящем случае нам задана нижняя граница вероятности в виде вероятности P, для которой определен искомый интерквантильный промежуток, и задача заключается в определении условий, при которых интервал между элементами вариационного ряда будет с вероятностью Q иметь вероятностную меру, не меньше, чем P. Таким образом, неравенство для определения нижней границы доверительного интервала для вероятности, Поскольку нижняя =P, верхняя граница вероятности =1 и здесь нас не интересует, поэтому примем Q = 1 - a. Теперь, руководствуясь настоящим неравенством, нам остается подобрать такие значения n и , чтобы обеспечить заданные значения P и Q.Примеры точечных оценок вероятностной меры интервалов, заключенных между элементами вариационного ряда, свидетельствуют о том, что, по сути дела, это не что иное, как оценка вероятности по частости, то есть по относительной частоте попадания статистически эквивалентных блоков внутри этих интервалов. На основании этого выясненного факта и, учитывая близость вероятностей P и Q к 1, перепишем последнее неравенство в виде ,где n - k - число статистически эквивалентных блоков, находящихся внутри интервала между такими элементами вариационного ряда, которые желательно объявить толерантными пределами или, иными словами, границами доверительного интервала, который покрывает искомый интерквантильный промежуток, определенный при вероятности P. В теории непараметрического интервального оценивания число k именуется, как кол-во отброшенных статистически эквивалентных блоков.Отбрасываемыми статистически эквивалентными блоками должны быть крайние блоки.Это неравенство решают в двух вариантах постановки основной задачи:1. Зафиксировано количество k статистически эквивалентных блоков, не попавших между теми элементами вариационного ряда, которые желательно принять в качестве толерантных пределов, и отыскивается минимальный объем выборки, необходимый для обеспечения заданных параметров P и Q.2.Зафиксирован объем выборки, отыскивается количество k статистически эквивалентных блоков, которые необходимо отбросить, чтобы оставшиеся крайние члены вариационного ряда принять в качестве толерантных пределов, обеспечивающих заданные значения параметров P и Q.В большинстве случаев задача ставится и решается в первом варианте, и мы вскоре увидим, почему.Пусть при подготовке испытаний в качестве непараметрических толерантных пределов планируется использовать крайние члены вариационного ряда. Это решение может быть принято при практическом отсутствии факторов, способных привести к резким выбросам отдельных результатов. На нашем языке это означает, что из всех статистически эквивалентных блоков отбрасывается один первый блок , и доверительный интервал - полуоткрытый интервал . Необходимый объем выборки n находится, как наименьшее решение неравенства .При необходимости защиты от возможных импульсных помех или иных факторов, вызывающих резкие и значительные выбросы результатов измерений, пытаются принять в качестве толерантных пределов интервал ,что означает отбрасывание 3х статистически эквивалентных блоков. Необходимый объем выборки n находится, как наименьшее решение неравенства . Этом случае при фиксированныхP и Q объем выборки должен возрасти.В таблице приведены результаты расчетов объема выборки, минимально необходимого для определения непараметрических толерантных пределов - границ доверительного интервала для интерквантильного промежутка при P = 0.95и k = 1, 2, 3.Минимально необходимый объем выборки для нахождения непараметрических толерантных пределов.
Q | 0.8 | 0.9 | 0.95 | 0.99 | k |
n | |||||
n | |||||
n | |||||
n |
Из таблицы следует, что за независимость от вида плотности распределения исследуемой генеральной совокупности приходится “платить” существенным увеличением объема выборки.В ряде случаев, когда математическое ожидание случайной величины невелико по сравнению с ее среднеквадратическим значением, объем выборки может быть уменьшен без ущерба для достоверности оценок. Как правило, такая ситуация встречается при экспериментальном определении характеристик погрешности средств измерений или результатов измерений, или характеристик точности регуляторов, позиционеров, систем автоматического управления и регулирования, когда в составе погрешности этих устройств имеются и случайные, и систематические составляющие, но в документации на эти средства установлены нормы на сумму этих составляющих.Пример такого интерквантильного промежутка приведен на рис. Он обозначен там, как и имеет границы [-g, g].Исходная выборка значений погрешностей ,среди которых есть положительные и отрицательные значения, преобразуется в выборку, состоящую из абсолютных величин этих исходных значений. В результате весь вариационный ряд оказывается на правой полуоси, что снимает заботу об отбрасывании первого статистически эквивалентного блока, а именно, , поскольку обе границы доверительного интервала для интерквантильного промежутка, симметричного относительно начала координат, определяются конечными членами вариационного ряда, составленного из модулей выборочных значений .В этом случае толерантные пределы , составленные на основе одного лишь max члена этого вариационного ряда, являются границами доверительного интервала для интерквантильного промежутка , если, конечно, объем выборки достаточен для этого. Поскольку в этом конкретном случае не отбрасывается ни один статистически эквивалентный блок (ибо первый, как уже было сказано, нас не интересует, а последним блоком является ), min необходимый объем выборки находится из неравенства (k = 0): .Это-первая строчка в таблице 2. При этом доверительная вероятность не изменится.
43. Общие принципы теории проверки статистических гипотез, основные понятия, простые и сложные гипотезы, ошибки, вероятности ошибок, понятие о критической области, о критерии проверки гипотез, о мощности критерия.
Задача проверки гипотез заключается в проверке согласования теоретических априорных предположений об объекте исследования (испытаний, управления, регулирования) с опытными данными в условиях действия случайных факторов. Первичными являются опытные данные, как фактически полученные, при условии, что эти данные получены с помощью исправных средств корректными методами.Обозначения гипотез:
- нулевая гипотеза, как правило, априорное предположение исследователя, - гипотеза, альтернативная гипотезе .Говорят о проверке гипотезы против .Основной принцип заключается в следующем.Если при справедливости гипотезы вероятность появления полученных экспериментальных данных не слишком мала, то говорят об отсутствии достаточных оснований для отклонения этой гипотезы.Напротив, гипотезу считают недостаточно обоснованной, если при предположении о ее справедливости появление полученных данных маловероятно. Это означает, что экспериментальные данные не подтверждают справедливость нулевой гипотезы. В таких случаях говорят об отсутствии достаточных оснований для признания справедливости гипотезы .Вообще категорические выводы о бесспорной справедливости или несправедливости нулевой или альтернативной ей гипотезы при условии действия случайных факторов в математической статистике делать нельзя. Пусть - выборка, изъятая из генеральной совокупности X, плотность распределения которой . Для проверки гипотезы против вычисляется некоторая функция от выборочных значений , вид которой определяется характером проверяемой гипотезы и параметром (характеристикой), относительно которого выдвигается гипотеза.Область определения этой функции - все значения, которые образуют генеральную совокупностьX.Область значений функции Z : { X} делится на два непересекающихся множества и так, что , . Обычно областью определения функции является вся вещественная ось, или непрерывный ее отрезок, а каждая из областей и -непрерывные части этого отрезка, разделенные точкой или третьим непрерывным отрезком. Точка, разделяющая эти области отображает на оси критическое значение, которое обозначается, как . Совокупность функции и множеств , называется критерием проверки гипотезы против , функция - статистика критерия, множество - критическая область или критическое множество. Понятно, что будучи функцией от выборочных данных, статистика критерия является случайной функцией. выбирается так, чтобы при предположении о справедливости гипотезы условная вероятность попадания статистики критерия в критическую область была небольшой.Если оказалось, что при выдвинутом предположении о справедливости гипотезы и небольшой заранее назначенной вероятности статистика критерия попала в критическую область, что соответствует вероятности , то делается вывод о том, что, повидимому, экспериментальные данные не подтверждают справедливость нулевой гипотезы. В этой ситуации говорят, что нет достаточных оснований для признания справедливости гипотезы . В противном случае, когда статистика критерия попала в область , говорят, что нет достаточных оснований для отклонения гипотезы . Однако, из-за действия случайных факторов, особенно, если объем выборки недостаточен, возможны ошибки в таких суждениях, и вероятности этих ошибок необходимо, по крайней мере, знать. В теории и практике статистических методов проверки гипотез используются следующие определения и понятия: -вероятность ошибки первого рода, или риск поставщика, или риск продавца, или уровень значимости, (может применяться любой из этих терминов применительно к конкретной ситуации), - вероятность ошибки второго рода, или риск заказчика, или риск покупателя.Естественно,что , - называется мощностью критерия проверки гипотез.Вероятность a + есть вероятность ошибки.Вероятности aи обычно выбираются в каждом конкретном случае из экономических или технических соображений, а также из соображений безопасности.