Однофакторний дисперсійний аналіз

 

У багатьох випадках практики нас цікавить питання про те, в якій мірі здійснюється вплив того чи іншого фактора або комбінації таких факторів на ознаку, що розглядається. Так, наприклад, при виконанні на автоматичній лінії деякої операції обробки паралельно на кількох верстаках, важливо для вірної організації наступної обробки знати у якій мірі однотипними є середні розміри деталей, які виробляються на верстаках, які працюють паралельно. Нерідко доводиться проводити вимірювання деякої фізичної величини паралельно на кількох приладах декількома операторами. Іноді такі вимірювання спеціально проводяться для випробування точності метода вимірювання. У цьому випадку нас цікавить вплив на результат вимірювання двох факторів: приклада та оператора.

Між тим існує ряд практичних задач, коли необхідна перевірка дії тільки одного фактора.

У загальному вигляді таку задачу можна поставити таким чином: нехай ми спостерігаємо m незалежних нормально розподілених величин х1, х2,…,хm, припускаючи, що усі вони мають одне й те ж середнє квадратичне відхилення σ. Центри розподілення таких величин υ1, υ2,…,υm, взагалі кажучи, різні.

Нехай над кожним змінним здійснюється деяка серія з n спостережень.

Данні i-тої серії будуть:

).

 

Спираючись на ці статистичні дані, ми бажаємо перевірити нульову гіпотезу, згідно з якою υ1 = υ2 =…= υm. Якщо гіпотеза, що перевіряється є вірною, то після порівняння середніх у кожній серії, ми не повинні отримати значущого розходження між ними; навпаки, якщо таке розходження виявлене, то нульову гіпотезу необхідно відкинути.

Нехай, наприклад, при спільному аналізі точності групи вимірювальних приладів – подвійних мікроскопів – нас цікавить питання про те, чи можливо вважати їх систематичні помилки однаковими. Інакше кажучи, ми хочемо перевірити вплив одного фактора – приладу – на похибку показань.

Нехай кількість приладів буде m й кожним приладом ми вимірюємо чистоту поверхні одного й того ж зразка у визначеному місці n разів. Ці n вимірювань ми розглядаємо як випадкову виборку з генеральної сукупності показань кожного приладу.

Всього ми маємо mn вимірювань кожного приладу, які позначимо xij, де і – номер приладу, j – номер вимірювання, який на ньому здійснений тобто і змінюється від 1 до m, а j - від 1 до n.

Таблиця результатів вимірювань буде мати такий вигляд (табл.4.1.7).

 

Табл. 4.1.7

Результати вимірювань чистоти поверхонь

 

№ при-ладу № вимірювання
n
         
m

 

Позначимо через середню арифметичну з n вимірювань, які здійсненні на першому приладі, через – середню із показань другого придала й т.д., тобто

Позначимо через загальну арифметичну усіх mn вимірювань, тобто:

(4.1.23)

Підсумовування по j при постійному i дає суму по усім спостереженням і-тої серії (тобто по j-тому приладу). Подальше підсумовування по і дає по всім приладам. Так як

Доведено, що сума квадратів різниць між середнім окремих приладів і загального по усім сукупностям спостережень (Q) дорівнює сумі квадратів відхилень «між приладами» (Q), що характеризує ступінь розходження в систематичних похибках приладів, та сумою квадратів різниць між окремими спостереженнями і середньою відповідного приладу (Q2), що характеризують «залишкове розсіювання» випадкових похибок досліджень.

Q називається ще «загальною» або «повною» сумою квадратів відхилень окремих спостережень від загальної середньої . Тобто

Д=ДF + Д0

Cтосовно розглянутого нами прикладу рівність (4.1.24) показує, що «загальне» розсіювання показань приладів, що вимірюється сумою Д, складається з двох компонентів ДF і Д0, які характеризують розсіювання між приладами, тобто різницею в їх систематичних похибках (ДF) і розсіювання «всередині» приладів, що характеризує однакову (за умовами) для всіх приладів варіацію під дією випадкових похибок.

Припустимо зараз, що гіпотеза рівності центрів (рівності систематичних похибок) вірна і - тому нормальні розподіли усіх величин х1,…,хm (приладів) тотожність, тобто мають однаковий центр і дисперсію σ2. Тоді усі mn спостережень можна розглядати як виборку з однієї й тієї ж нормальної сукупності, а є незміщена оцінка дисперсії σ2 по цій виборці. Тоді буде слідувати розподілу з (mn-1) ступеням свободи.

З іншого боку, середні по приладам нормально розподілені з дисперсією кожна та незалежні одна від однієї. Середня арифметична з m середніх дорівнює . Тому при нашій гіпотезі

 

є незміщена виборочна (заснована на m спостереженнях величини ) характеристика дисперсії , й отже, величина

Розподілена по закону з (m-1) ступенями свободи.

Нарешті, величина

Розподілена по закону з (n-1) ступенями свободи.

Тобто компоненти

Розподілена по закону з m(n-1) ступенями свободи; є також оцінка параметра .

Доведено, що ДF і Д0 при нашій гіпотезі незалежні одна від одної, що є справедливим при будь-яких припущеннях відповідно υі.

З цього витікає, що критерій при нашій гіпотезі буде слідувати F – розподілу з (m-1) та m(n-1) ступенями свободи. Вибираючи q% рівень значущості, знайдемо за таблицею відповідну q% межу так, що

Нехай з іншого боку, наша гіпотеза про рівність центрів не є вірною й центри υ не дорівнюють один одному, але параметр у всіх m сукупностях однаковий. Тоді сума Д0, яка не змінюється при заміні хij – υ, має також розподіл з m(n-1) ступенями свободи, а залишається незміщеною оцінкою для . З іншого боку, чисельник F враховує систематичне розходження між центрами розподілу υ1 і має тенденцію зростання при зростанні цих розходжень. Тим самим й показник F має тенденцію до зростання й стає тим більше, чим відхилення більше відхилення від гаданої рівності центрів υ1. Тому правило перевірки гіпотези дається у такому вигляді: гіпотеза υ1 = υ2 = …= υm приймається, якщо F ≤ Fq, і відхиляється, якщо F > Fq.

Схему одно факторного аналізу можна надати у вигляді табл. 4.1.8.

 

Табл.4.1.8

 

Схема одно факторного дисперсійного аналізу

 

Компонента дисперсії Сума квадратів Число ступенів свободи Середній квадрат
Між приладами (по факторам) m - 1
Всередині приладів mn - m
Повна (загальна) mn - 1

 

В табл.4.1.9 наведені результати п’ятикратного (n = 5) вимірювання критерія Нск чистоти поверхні у одному й тому ж місті зразка з регулярним профілем 6-го класу чистоти на трьох подвійних мікроскопах (m = 3).

 

Табл.4.1.9

 

Результати визначення критерія Нск на заданій ділянці зразка чистоти поверхні з регулярним профілем

 

 

№ прилада Відхилення Нск від загальної медіани у сотих частках мікрона
xi1 xi2 xi3 xi4 xi5
- 4 -2 -21 -4 -4 -35
+ 7 +11 +30 +28 +27 +103
+19 +2 -13 -9 +2 +1
+22 +11 -4 +15 +25 +69

 

Для спрощення обчислювань, що необхідні для аналізу сум квадратів, будемо використовувати такі формули:

Із табл. 3 маємо:

Для нашого прикладу таблиця дисперсійного аналізу буде мати такий вигляд (табл. 4.1.10).

 

Табл. 4.1.10

 

Дисперсійний аналіз систематичних похибок подвійних мікроскопів

 

Компонента дисперсії Сума квадратів Число ступенів свободи Середній квадрат
Між приладами 1025,0
Всередині приладів 110,7
Повна (загальна) 241,3

 

Виконаємо зараз перевірку нульової гіпотези за допомогою F розподілу:

 

При двох ступенях свободи більшої дисперсії (k1 = 2) та 12 ступенях меншої дисперсії (k2 = 12) з таблиці 5 знаходимо критичні границі для F1, які при 5%-му рівні значущості дорівнює 3,88 і 1%-му рівні дорівнює 6,93. Отримані нами із спостережень значення F перебільшує вказані границі й тому нульову гіпотезу треба відкинути, тобто прилади мають різна систематичні похибки.

 

Запитання і завдання для самоконтролю

 

1. У чому полягає головна ідея дисперсійного аналізу?

2. Які обчислення передбачає однофакторний дисперсійний аналіз?

3. Провести дисперсійний аналіз однофакторного комплексу:

Варіант 1

 

Термін виконання робіт з ремонту колії Число ділянок робіт Довжина ділянок верхньої будови колії, що відремонтована, км
Своєчасно 16,5;16,2;18,9;20,1;19,3;10,1;12,8;15,0
З деяким запізненням 16,7;16,3;14,0;15,0;16,7;12,4;7,9;9,8;14,4;10,8;11,1;13,0;10,7
З сильним запізненням 10,7;9,0;13,9;9;4;11,9;11,3;1,5;9,7;7,4

 

 

Варіант 2

 

Термін виконання робіт з ремонту колії Число ділянок робіт Довжина ділянок верхньої будови колії, що відремонтована, км
Своєчасно 10,7;8,4;9,6;2,2;7,6;11,3
З деяким запізненням 16,6;14,0;10,8;13,0;7,9;9,8;12,4;15,6
З сильним запізненням 10,1;11,9;14,4;19,2

 

Варіант 3

 

№ партії електричних приладів Тривалість роботи, год