Інтервальна оцінка функції регресії

Основні положення регресійного аналізу. Парна

Регресійна модель. множинний регресійний аналіз

Завданнями регресійного аналізу є встановлення форм залежності між змінними, оцінка функцій регресії, оцінка невідомих значень залежної змінної. В регресійному аналізі розглядається одностороння залежність випадкової залежної змінної Y від однієї (або декількох) невипадкової незалежної змінної X, яка часто називається пояснюючою змінною. Вказана залежність Y від X може бути представлена також у вигляді модельного рівняння регресії (6.1). За рахунок впливу неврахованих випадкових факторів і причин окремі спостереження у будуть у більшій або меншій мірі відхилятися від функції регресії В цьому випадку рівняння взаємозв’язку двох змінних (парна регресійна модель) може бути представлене в вигляді: де - випадкова змінна, яка характеризує відхилення від функції регресії. Цю змінну будемо називати збуреною або просто збуренням. Розглянемо лінійний регресійний аналіз, для якого функція лінійна відносно оцінюваних параметрів:

(7.1) Припустимо, що для оцінки параметрів лінійної функції регресії (7.1)

взято вибірку, яка містить n пар значень змінних ( ), де i = 1,2, …, n.

В цьому випадку лінійна парна регресійна модель має вигляд:

. (7.2)

Основні положення регресійного аналізу:

1. В моделі (7.2) збурення (або залежна змінна ) є величина випадкова, а пояснювальна змінна – величина невипадкова.

2. Математичне сподівання збурення рівне нулю: ;

3. Дисперсія збурення (або залежної змінної ) постійна для довільного i: .

4. Збурення і (або змінні і ) не корельовані: , .

5. Збурення (або залежна змінна ) є нормально розподілена випадкова величина.

Оцінка моделі (7.2) по вибірці є рівнянням регресії = . Параметри цього рівняння і визначаються на основі методу найменших квадратів. Вплив неврахованих випадкових факторів і помилок спостережень в моделі (7.2) визначається за допомогою дисперсії збурення (помилок) або залишкової дисперсії . Незміщеною оцінкою цієї дисперсії є вибіркова залишкова дисперсія

= ,

де - групове середнє, знайдена з рівняння регресії; = - вибіркова оцінка збурення або залишок регресії. В знаменнику виразу оцінки стоїть число степенів вільності n-2, а не n, оскільки два степеня вільності губляться при визначенні двох параметрів прямої .

Інтервальна оцінка функції регресії

Побудуємо довірчий інтервал для функції регресії, тобто для умовного математичного сподівання , яке із заданою надійністю накриває невідоме значення . Знайдемо дисперсію групового середнього , що є вибірковою оцінкою : рівняння дисперсії запишемо у вигляді:

. (7.3)

На рис. 7.1 лінія регресії зображена графічно. Для довільного значення , що спостерігається, виділені його складові: середнє , приріст , що утворюють значення і збурення .

 

 

Рис. 7.1

 

Дисперсія групового середнього дорівнює сумі дисперсій двох незалежних доданків: .

Дисперсія вибіркового середнього : . Для знаходження дисперсії представимо коефіцієнт регресії у вигляді:

. Тоді

Знайдемо оцінку дисперсії групових середніх, замінюючи її груповою оцінкою : . Виходячи з того, що статистика має розподіл Стьюдента із степенями вільності, можна побудувати довірчий інтервал для умовного математичного сподівання ,

де - стандартна помилка групового середнього .

Екстраполяція кривої регресії, тобто її використання поза границями знайденого діапазону значень пояснюючої змінної може привести до значних похибок. При визначені довірчого інтервалу для деякого індивідуального значення необхідно враховувати ще і розсіювання навкруги лінії регресії: оцінка дисперсії індивідуального значення при дорівнює , а відповідний довірчий інтервал для прогнозування індивідуальних значень буде визначатися за формулою .

 

Приклад 7.1Маємо данні про видобуток вугілля на одного робітника Y (т) і потужності шару Х (м), що характеризують процес видобування вугілля в 10 шахтах (табл. 7.1).

 

Таблиця 7.1

і

 

 

Оцінити середній видобуток вугілля на одного робітника для шахт із потужністю шару 8 м. Знайти 95%-вий довірчий інтервал для індивідуального і середнього значень видобутку вугілля на 1 робітника для таких шахт.

Розв’язання. Складемо рівняння регресії: , , , , , рівняння , тобто при збільшенні потужності шару Х на 1м видобуток вугілля на одного робітника Y збільшується в середньому на 1,016 т.

Потрібно оцінити умовне математичне сподівання . Вибірковою оцінкою є групове середнє , яке знайдемо за рівнянням регресії: .

Для побудови довірчого інтервалу для необхідно знайти дисперсію його оцінки . Складемо допоміжну таблицю 7.2, враховую-чи те, що , а значення визначаються за отриманим рівнянням регресії.

 

Таблиця 7.2

1,96 2,56 6,76 0,16 1,96 1,96 0,16 0,16 1,96 6,76 24,4
5,38 8,43 9,44 6,39 5,38 5,38 6,39 6,39 5,38 9,44 -
0,14 2,48 0,31 0,37 0,14 0,39 0,15 1,94 0,39 2,08 8,39

 

 

Отже, , , . За таблицею значень критерію Стьюдента . Шуканий довірчий інтервал

або (т).

Отже, середній видобуток вугілля на одного робітника для потужності шару 8 м з надійністю 0,95 знаходиться в межах від 4,38 до 6,38 т.

Щоб побудувати довірчий інтервал для індивідуального значення , знайдемо дисперсію його оцінки

і (т).

Шуканий довірчий інтервал і . Отже, індивідуальний видобуток вугілля на одного робітника для шахт із потужністю шару 8 м із надійністю 0,95 знаходиться в межах від 2,81 до 7,95 т.►