Гіпотеза про однорідність вибірки

Перевірка вибірки на однорідність – перший етап математичної обробки результатів спостережень. Задача зводиться до перевірки гіпотези : вибірка однорідна, при : вибірка обтяжена промахами.

Дані експерименту розставляють в порядку зростання: . На промах перевіряються крайні ліві або крайні праві значення даного ряду.

При різних об’ємах вибірки для аналізу на промах величини використовують статистики , , а для відповідно статистики , , які обчислюються за формулами:

Критична область , або , де знаходять з таблиці 11 у додатку.

Приклад 4.7. При експертній оцінці вагомості фактору „Характер бізнесу клієнта”, який впливає на внутрішньогосподарський ризик, групою з 20 експертів отримано наступні результати:

8,5,20,8,5,18,8,5,10,8,15,8,5,10,35,5,10,5,10,12.

Перевірити вибірку на однорідність для рівня значущості .

Розв’язок. Запишемо одержані результати в порядку зростання:

5,5,5,5,5,5,8,8,8,8,8,10,10,10,10,12,15,18,20,35.

Крайню справа величину перевіряємо на промах. Знаходимо:

За таблицею 10 у додатку знаходимо . Оскільки , то значення вважаємо промахом.

Розв’язок даної задачі дає можливість керівнику експертної групи зробити висновок про оцінювання вагомості даного фактору кожним експертом. Зокрема експертом, який дав оцінку .

У випадку розраховують і . Якщо значення попадає в проміжок , то воно не вважається промахом. В іншому випадку його вважають промахом.

Критерій знаків

Нехай і - n пар випадкових величин, для яких різниці можна подати у вигляді , а випадкові величини : 1) незалежні; 2) неперервно розподілені; 3) симетрично розподілені відносно нуля (симетричність розподілів означає, що розподіли та - збігаються).

Зауважимо, що розподіли випадкових величин та неперервні, але невідомі (і вони можуть бути, взагалі кажучи, різними як і розподіли випадкових величин ).

Щодо невідомого параметра висувається гіпотеза . Альтернативними до неї є ; ; .

Справджується чи ні гіпотеза , випадкові величини неперервно й симетрично розподілені відносно нуля і незалежні. Звідси випливає, що випадкова величина, яка дорівнює кількості випадкових величин що набули додатних значень має біноміальний розподіл із параметрами і тому кількість даних величин серед , близька до половини наявних, тобто до .

Позначимо через кількість додатних різниць серед . Тоді при перевірці гіпотези її природно відхиляти, якщо кількість додатних різниць істотно відрізняється від і не відхиляти в іншому випадку.

Критична точка визначається як мінімальне число m , для якого , де - біноміально розподілена випадкова величина з параметрами n та . Для заданого рівня значущості значення знаходять за таблицею 12 у додатку.

Критична область при ; при ; при .

Якщо зняти вимогу про неперервність розподілів випадкових величин і , то різниці , можуть набувати нульових значень з ненульовою ймовірністю. В даному випадку критерій знаків можна застосувати до відмінних від нуля різниць, відкинувши нульові.

Приклад 4.8 Групою з 20 експертів проводилася оцінка вагомості факторів „Характер бізнесу клієнта” і „Професійність і чесність адміністрації” та отримано наступні результати:

8, 5, 20, 8, 5, 18, 8, 5, 10, 8, 15, 8, 5, 10, 35, 5, 10, 5, 10, 12.

4, 5, 20, 5, 3, 6, 10,15,10, 9, 8, 40, 8, 5, 10, 20, 18, 20, 10, 20.

Для рівня значущості перевірити нульову гіпотезу про співпадання оцінок експертів при альтернативній гіпотезі про їх відмінність.

Розв’язок. Позначимо через - оцінки першого фактору, – другого, а . Тоді різниці будуть мати наступні знаки:

+, 0, 0, +, +, +, -, -, 0, -, +, -, -, +, +, -, -, -, 0, -.

Кількість різниць відмінних від нуля , а кількість додатних різниць . Тоді з таблиці 12 у додатку для і знаходимо, що область прийняття гіпотези . Таким чином гіпотеза приймається, тобто нема істотної різниці в оцінках експертів.

Часто при перевірці гіпотези користуються критерієм Фішера. Зокрема, при альтернативній гіпотезі статистика , число ступенів свободи , , критична область .

При альтернативній гіпотезі , , , , .

При альтернативній гіпотезі гіпотеза відхиляється, якщо виконується одна з нерівностей: або .

Зокрема для прикладу 4.8 , , . За таблицею 8 у додатку . Оскільки, , то гіпотеза приймається.

 

Критерій серій

Даний критерій застосовується для перевірки гіпотези , в якій стверджується, що елементи вибірки одержані випадковим чином і незалежні. Нехай – вибірка результатів спостережень, а медіана, обчислена на основі результатів спостережень. Кожному елементу вибірки ставиться у відповідність знак „+” або „-” в залежності від того, чи його значення більше або менше за медіану (нульові значення різниць не враховуються). Таким чином, всій вибірці поставлено у відповідність певний набір знаків. Позначимо через число знаків „+”, а – число знаків „-” в одержаному наборі. Серією в цьому наборі називається будь – яка послідовність, яка складається з однакових знаків і обмежена протилежними знаками, або знаходиться на початку чи в кінці набору.

Наприклад, в наборі: +,-,+,+,+,-,-,-,-,-,+,+ міститься 5 серій, а , .

Статистикою критерію серій є число серій N. Критична область . Значення і задаються таблицею 13 у додатку.

При великих об’ємах вибірки, коли або , або , або обидва значення і більші 20 для перевірки гіпотези можна використати статистику , точкова оцінка якої обчислюється за формулою

.

При умові, що вірна гіпотеза , статистика має приблизно нормальний розподіл N(0,1). В цьому випадку критична область , де знаходять за таблицею 2а у додатку.

Приклад 4.9 Розподіл середньомісячної зарплати в 1999р. по регіонах України представляється у вигляді ряду:168, 129, 118, 209, 220, 134, 130, 215, 140, 191, 137, 184, 152, 169, 183, 173, 135, 150, 112, 184, 143, 127, 146, 123, 141, 303, 187. Чи можна для рівня значущості вважати отримані результати випадковими?

Розв’язок. Знайдемо оцінку медіани отриманих результатів. Для цього представимо їх у виді рангованого ряду:

112,118,123,127,129,130,134,135,137,140,141,143,146,150,152,168,169,173,183,184,187,191,209,215,202,303.

Для нього Me=150, а відповідна послідовність знаків:

+, -, -, +, +, -, -, +, -, +, -, +, +, +, +, +, -, -, +, -, -, -, -, -, +, +, де , , число серій N=13. За таблицею 13 додатку при знаходимо , .Таким чином, гіпотеза приймається. Отримані результати можна вважати випадковими.

 

4.4.5. Перевірка гіпотези про однорідність двох вибірок. Критерій Вілкоксона

Нехай і – дві незалежні вибірки. Перевірка гіпотези про однорідність двох вибірок в припущенні, що і – неперервні випадкові величини, зводиться до перевірки нульової гіпотези , яка полягає в тому, що при всіх значеннях x функції розподілу обох вибірок рівні між собою.

Припустимо, що (в протилежному випадку вибірки можна поміняти місцями).

Для даного рівня значущості перевірку нульової гіпотези проводять за схемою:

1. Записують варіанти обох вибірок в зростаючому порядку у виді ряду і знаходять в ньому величину - суму порядкових номерів варіант першої вибірки в цьому ряді.

2. Критична область визначається альтернативною гіпотезою .

а) , . З таблиці критичних точок розподілу Вілкоксона (таблиця 14 у додатку) знаходять , .

б) , , знаходять з таблиці 14 у додатку.

в) , , .

Зауваження 4.7. Якщо декілька варіантів однієї вибірки однакові, то в спільному ряді їх нумерують послідовно ніби вони є різними числами.

Зауваження 4.8. Якщо співпадають варіанти різних вибірок, то їм усім присвоюють порядковий номер, який дорівнює середньому арифметичному тих номерів, які б мали ці варіанти якби були різними.

Приклад. 4.10. При експертній оцінці вагомості факторів, що впливають на внутрішньогосподарський ризик двома експертами отримано наступні результати

І 1 8 15 10 8 9 11 9 8 4 2 6 5 5.

ІІ 11 15 16 10 3 5 13 8 3 7 8 2 1 9.

Для рівня значущості перевірити нульову гіпотезу про однорідність оцінок обох експертів при альтернативній гіпотезі .

Розв’язок. Розмістимо отримані результати в порядку зростання:

1,2,2,3,3,4,5,5,5,6,7,8,8,8,8,8,9,9,9,10,10,11,13,15,15,16.

Пронумеруємо елементи цього ряду, враховуючи зауваження 4.7. і 4.8.

2,5 2,5

 

20,5 20,5 24,5 24,5

Обчислимо суму рангів першої вибірки

.

Оскільки альтернативна гіпотеза , то критична область двостороння. Для рівня значущості і чисел ступенів свободи і за таблицею 13 у додатку знаходимо . Тоді .

З того що , випливає, що нульова гіпотеза приймається, тобто нема суттєвої розбіжності в оцінюванні обох експертів.

Якщо і , то , , (4.15)

де - ціла частина числа , – розв’язок рівняння , .

Якщо , то ; , то ,

де визначається за формулою (4.15) в якій є розв’язком рівняння .