Статистичне дослідження масива показників

У дослідженнях часто вирішують задачу виявлення чинників, визначальний рівень і динаміку деякого процесу. Таке завдання найчастіше вирішується метода-ми кореляційного, регресійного аналізу.

Для достовірного відображення процесів, що об'єктивно існують, необхідно виявити суттєві взаємозв'язки і не тільки виявити, але і дати їм кількісну оцінку. Цей підхід вимагає розкриття причинних залежностей. Під причинною залежністю розуміється такий зв'язок між процесами, коли зміна одного з них є наслідком зміни іншого.

Не всі чинники, що впливають на досліджувані процеси, є випадковими величинами. Тому при аналізі технічних систем зазвичай розглядаються зв'язки між випадковими і невипадковими величинами. Такі зв'язки називаються регресійними, а метод математичної статистики, що їх вивчає, називається регресійним аналізом.

 

Основні поняття

З метою математичного опису конкретного виду залежностей з використанням регресійного аналізу підбирають клас функцій, що зв'язують результативний показник у і аргументи x1, x2, …, хk , відбирають найбільш інформативні аргументи, обчислюють оцінки невідомих значень параметрів рівняння зв'язку і аналізують точність отриманого рівняння.

Функція f(x1, x2, …, хk), що описує залежність умовного середнього значення результативної ознаки у від заданих значень аргументів, називається функцією (рівнянням) регресії.

Для точного опису рівняння регресії необхідно знати закон розподілу результативного показника. У статистичній практиці таку інформацію отримати зазвичай| не вдається, тому обмежуються пошуком відповідних апроксимацій для функції f(x1, x2, …, хk ), заснованих на вихідних статистичних даних.

В рамках окремих модельних допущень про тип розподілу вектора показників (у, x1|, x2|, …, хk ) може бути отриманий загальний вид рівняння регресії f(x)=M(Y /Х) , Х=|( x1, x2, …, хk).

З метою якнайкращого відновлення за початковими (вихідними) статистичними даними умовного значення результатирующего показника у(х) і невідомій функції регресії f(x)= M(y/x) найчастіше використовують наступні критерії адекватності (функції втрат).

1. Метод найменших квадратів, згідно якому мінімізується квадрат відхилення спостережуваних значень результативного показника yi (i=1,2.,n) від модельних значень f(xi β), де i= (1,…,k- коефіцієнти рівняння регресії, xi– значення вектора аргументів у i-му спостереженні:

.

Вирішується завдання відшукання оцінки вектора b. Отримувана регресія називається середньоквадратичною. мати

2. Метод найменших модулів, згідно якому мінімізується сума абсолютних відхилень спостережуваних значень результативного показника від модельних значень f(xi , b), тобто

.

Отримувана|одержувати| регресія називається среднеабсолютной| (медіаною).

3. Метод мінімакса зводиться до мінімізації максимуму модуля відхилення спостережуваного значення результативного показника yi| від модельного значення f(xi, b), тобто

.

Отримувана при цьому регресія називається мінімаксною.

(Ми в своїх дослідженнях будемо користуватися методом пайменших квадратів.)

Між різними явищами і їх ознаками необхідно перш за все виділити два типи зв'язків: функціональний (жорстко детермінований) і статистичний (стохастично детермінований).

Стахостичний зв'язок – це зв'язок між величинами, при якому одна з них, випадкова величина Y реагує на зміну іншої величини X зміною закону розподілу. Це обумовлено тим, що залежна змінна (результативна ознака), окрім даних незалежних, схильна до впливу ряду неврахованих або неконтрольованих (випадкових) чинників а також деяких неминучих помилок вимірювання змінних. Оскільки значення залежної змінної схильні до випадкового розкиду, вони не можуть бути передбачені з достатньою точністю, а тільки вказані з певною ймовірністю.

Характерною особливістю стахостических зв'язків є те, що вони виявляються у всій сукупності, а не в кожній її одиниці. Причому невідомий ні повний перелік чинників, що визначають значення результативної ознаки, ні точний механізм їх функціонування і взаємодії з результативною ознакою. Завжди має місце вплив випадковості. Різні значення залежної змінної, що з'являються, – реалізація випадкової величини.

Модель стохастичного зв'язку може бути представлена в загальному вигляді рівнянням: ŷi = f(xi) + ei

де ŷi - розрахункове значення результативної ознаки;

f(xi) - частка результативної ознаки, що сформувалася під впливом врахованих відомих факторних ознак (одної або множини), що знаходяться в стахостичному| зв'язку з ознакою;

ei - частина результативної ознаки, що виникла внаслідок дії неконтрольованих або неврахованих чинників, а також вимірювання ознак, що неминуче супроводиться деякими випадковими помилками. Прояви стохастичних зв'язків схильні до дії закону великих чисел: лише у достатньо великому числі одиниць індивідуальні особливості згладяться, випадковості взаимопогасятся, і залежність, якщо вона має суттєву силу, виявиться досить чітко.

 

Лінійна регресія

Проста лінійна регресія дозволяє знайти лінійну залежність між однією вхідною і однією вихідною змінними. Для цього визначається рівняння регресії - модель, що відбиває залежність значень y, залежної величини Y від значень х, незалежної змінної X генеральної сукупності, яке запишемо у вигляді:

 

y
x
(
)
A1
х
1×
+
:=
A0

де у(x)- теоретичні значення результативної ознаки, отримані за рівнянням регресії;

 

A0 - вільний член рівняння регресії;

А1 - коефіцієнт рівняння регресії.

Оскільки A0 є середнім значенням у в точці х=0, інтерпретація його часто утруднена або взагалі неможлива. Коефіцієнт парної лінійної регресії А1 має сенс показника сили зв'язку між варіацією факторної ознаки х і варіацією результативної ознаки у. Наведене вище рівняння показує середнє значення зміни результативної ознаки у| при зміні факторної ознаки х на одну одиницю його вимірюванн|, тобт| варіацію у, що припадає на одиницю варіації х. Знак А1 вказує напрям цієї зміни.

Параметри рівняння А0|, А1 | знаходять методом найменших квадратів (метод розв’язування систем рівнянь, при якому за розв’язок приймається точка мінімуму| суми квадратів відхилень), тобто| в основу цього методу покладена вимога мінімальності сум квадратів відхилень емпіричних даних yi від тих, що вирівнюються у:

 

S(y – ŷ)2 = S(y – А0 – А1x)2 ® min

 

Для знаходження мінімуму даної функції прирівняємо до нуля її частинні похідні і отримаємо систему двох лінійних рівнянь, яка називається системою нормальних рівнянь:

 

.

 

Розв’зок ієї системи в загальному вигляді:

 


 

Потім будується відповідна пряма, звана лінією регресії. Коефіцієнти А1 і A0, звані також параметрами моделі, вибираються так, щоб сума квадратів відхилень точок, відповідних реальним спостереженням даних, від лінії регресії, була б мінімальною. Підбір коефіцієнтів виробляється по методу найменших квадратів. Іншими словами, проста лінійна регресія описує лінійну модель, яка якнайкраще апроксимує залежність між однією вхідною і однією вихідною змінними.

 

Цілі регресійного аналізу

Визначення наявностьіі характер у зв'язку між змінними (математичного рівняння, що описує залежність)

Спрогнозувати значення залежної змінної за допомогою незалежної

Визначити вклад незалежних змінних у варіацію залежної

 

Знайдемо значення коефіцієнта регресії (А1) і вільного члена рівняння (A0)

 

Виміри вхідного параметра Х і вихідного Y задані таблицею:

 

X1 16,24 16,19 16,25 16,41 16,36 16,52 16,64 16,81 16,93 16,83 16,90 16,23 16,30 16,33 16,74 16,72
Y1

 

 

Обчислення будемо виконувати, застосовуючи пакет Mathcad

Розв’яжемо задачу спочатку для Х1.

Предстадставимо початкову інформацію у вигляді векторів, вводячи перепозначення:

 

 

, ,

 

Визначимо суми елементів векторів і добутки векторів :

 

,

 

=136 =264,4

 

 

SXX = XX, SYY = YY , SYX = XY,

 

SXX = 1496 SYY = 4370 SYX = 2255

 

Визначимо параметри рівняння регресії, позначивши:

N=16,

 

 


, A=16*1496 -1362 =5440,

 


B
N
SYX
×
SX
SY,
×
-
:=
B=16*2255 – 136*264,4 =127,36;

C
×
:=
SY-X×SXY,
×
SXX
C=1496*264.4-136*2255=88860.

 


Вільний член рівняння регресії А0:

 

A0 = = 16,326.

 

Коефіцієнт рівняння регресії А1

 

A1= , A1 = = 0,023.

 

y(x) = 0,023x +16,326.

 

Графічне зображення лінії рівняння регресії і точок кореляции

Рис.1 Пряма регресії

 

Рис.2 Багатокутник розподілу