Перевірка гіпотез про закон розподілу
Однією з найважливіших задач математичної статистики є встановлення теоретичного закону розподілу випадкової величини, що характеризує ознаку, яка вивчається, за дослідним (емпіричним) розподілом, що представляє варіаційний ряд. Для розв’язання цієї задачі необхідно визначити вид та параметри закону розподілу. Припущення про вид закону розподілу може бути висунуте виходячи з теоретичних міркувань.
Параметри розподілу, як правило, невідомі, тому їх заміняють найкращими оцінками за вибіркою.
Критерії узгодження: нехай необхідно перевірити нульову гіпотезу Н0 про те, що досліджувана випадкова величина Х підкоряється певному закону розподілу. Для перевірки гіпотези Н0 обирають деяку випадкову величину U, що характеризує степінь розходження теоретичного та емпіричного розподілів, закон розподілу якої при достатньо великих n відомий та практично не залежить від закону розподілу випадкової величини Х.
Знаючи закон розподілу U, можна знайти ймовірність того, що U прийняла значення не менше, ніж u, що фактично спостерігається у досліді, тобто . Якщо мала, то це значить у відповідності з принципом практичної впевненості, що такі, як в досліді, та більші відхилення практично неможливі. В цьому випадку гіпотезу Н0 відкидають. Якщо ж ймовірність не мала, розходження між емпіричним та теоретичним розподілами неістотне та гіпотезу Н0 можна вважати правдоподібною чи такою, що не суперечить дослідним даним.
Критерій Пірсона
В критерії -Пірсона, що найчастіше використовується на практиці, в якості міри розходження U береться величина , що дорівнює сумі квадратів відхилень частостей (статистичних ймовірностей) wi від гіпотетичних pi, розрахованих за передбачуваним розподілом, взятих з деякими вагами ci:
Ваги ci вводяться таким чином, щоб при одних і тих самих відхиленнях більшу вагу мали відхилення, при яких pi мала, та меншу вагу – при яких pi велика. Очевидно, цього вдається досягнути, якщо взяти ci обернено пропорційним ймовірностям pi. Якщо взяти в якості ваг , можна довести, що при статистика або має -розподіл з k = m – r – 1 степенями вільності, де m – число інтервалів емпіричного розподілу (варіаційного ряду); r – число параметрів теоретичного розподілу, обчислених за експериментальними даними.
Число ni = nwi та npi називають відповідно емпіричними та теоретичними частотами.
Схема застосування критерію для перевірки гіпотези Н0 зво-
диться до наступного:
1. Визначається міра розходження емпіричних та теоретичних частот за формулою .
2. Для обраного рівня значущості α за таблицею -розподілу знаходять критичне значення при числі степенів вільності k = m – r – 1.
3. Якщо значення , що фактично спостерігається більше критичного, тобто , то гіпотеза Н0 відкидається; якщо , то гіпотеза не суперечить експериментальним даним.
Зауваження. Статистика має -розподіл лише при , тому необхідно, щоб в кожному інтервалі була достатня кількість спостережень, якнайменше 5 спостережень. Якщо в будь-якому інтервалі кількість спостережень ni<5,доцільно об’єднати сусідні інтервали, щоб в об’єднаних інтервалах ni було не менше 5.
◄ Приклад 4.7Для емпіричного розподілу робітників цеху за виробітком за даними перших двох граф табл. 1.1(розділ 1) підібрати відповідний теоретичний розподіл та на рівні значущості α=0,05 перевірити гіпотезу про узгодженість двох розподілів за допомогою критерію .
Розв’язання. За видом гістограми розподілу робочих за виробітком (рис. 4.6) можна передбачити нормальний закон розподілу ознаки. Параметри нормального закону а та , що є відповідно математичним сподіванням та дисперсією випадкової величини Х, невідомі, тому заміняємо їх «найкращими» оцінками за вибіркою — незміщеними та спроможними оцінками відповідно вибірковим середнім та «виправленою» вибірковою
Рис. 4.6
дисперсією . Оскільки число спостережень n=100 достатньо велике, то замість «виправленої» можна взяти «звичайну» вибіркову дисперсію s2. У прикладі 1.8 обчислені
Таким чином, висунута гіпотеза Н0: випадкова величина Х – виробіток робочих цеху – розподілена нормально з параметрами тобто
Для обчислення ймовірностей рі попадання випадкової величини Х в інтервал використовуємо функцію Лапласа у відповідності з властивістю нормального розподілу:
Для визначення статистики зручно скласти таблицю 4.2.
Враховуючи, що в емпіричному розподілі частоти першого та останнього інтервалів (n1=3, n8=2) менше 5, при використанні критерію -Пірсона у відповідності із зауваженням, доцільно об’єднати вказані інтервали із сусідніми (див. табл. 4.2). Таким чином, значення статистики, що фактично спостерігається, . Оскільки нова кількість інтервалів (враховуючи об’єднання крайніх) m=6, а нормальний закон розподілу визначається r=2 параметрами, то кількість степенів вільності k= m–r–1 =6–2–1=3. Відповідне критичне значення статистики за таблицею . Оскільки , то гіпотеза про обраний теоретично нормальний закон N(119,2; 87,48) узгоджується з експериментальними даними.►
Таблиця 4.2
і | Інтервал | Емпіричні частоти ni | Ймовірності рі | Теоретичні частоти npi | (ni–npi)2 | |
94–100 | 0,017 | 5,76 | 0,758 | |||
100–106 | 0,059 | |||||
106–112 | 0,141 | 14,1 | 9,61 | 0,682 | ||
112–118 | 0,228 | 22,8 | 7,84 | 0,344 | ||
118–124 | 0,247 | 24,7 | 10,89 | 0,441 | ||
124–130 | 0,182 | 18,2 | 0,64 | 0,035 | ||
130–136 | 0,087 | 0,16 | 0,014 | |||
136–142 | 0,029 | |||||
Σ | 0,990 | 99,0 | – |
Інформацію, що поглиблює знання по темі розділу можна знайти в додатку 1.
Контрольні питання
1. В чому полягає загальна схема перевірки статистичної гіпотези?
2. Для чого використовують положення теореми Неймона-Пірсона?
3. Чи можна провести перевірку гіпотези про рівність середніх двох сукупностей в припущені, що дисперсії невідомі?
4. Як F-розподіл Фішера – Снедекора відображений в перевірці гіпотез
про рівність дисперсій двох сукупностей?
5. Де зустрічаються гіпотези про числові значення параметрів?
6. Для чого бажано проводити побудову теоретичного закону розподілу за результатами дослідних даних?
РОЗДІЛ 5
Дисперсійний аналіз
На практиці часто виникає необхідність узагальнення завдання, тобто перевірки відмінності вибіркових середніх m сукупностей (m> 2). Наприклад, потрібно оцінити вплив різних плавок на механічні властивості металу, властивостей сировини на показники якості продукції, кількості внесених добрив на врожайність і т.п. Для ефективного вирішення такого завдання потрібен новий підхід, який і реалізується в дисперсійному аналізі.
Дисперсійний аналіз визначається як статистичний метод, призначений для оцінки впливу різних факторів на результат експерименту, а також для наступного планування аналогічних експериментів.
Дисперсійний аналіз був розроблений англійським математиком - статистиком P.A. Фішером (1918 р.) для обробки результатів агрономічних дослідів по виявленню умов отримання максимального врожаю різних сортів сільськогосподарських культур. Термін «дисперсійний аналіз» Фішер вжив пізніше. За кількістю факторів, вплив яких досліджується, розрізняють однофакторний та багатофакторний дисперсійний аналіз.