Статистический анализ данных.

Задача аппроксимации функции. Исследуем объект, работа которого характеризуется показателем Y, на работу объекта оказывает влияние набор факторов Х=(х1, х2,…,хn). Допускается воздействие случайных неконтролируемых факторов e=(e1, e2,…,em) (неучтенные факторы, ошибки измерения).

e

Таблица исходных данных (n-переменных, m –наблюдений)

Х1 Х2 Хm Y
х11 Х12   X1n Y1
Х21 X22   X2n Y2
  . . .  
Xn1 Xn2   Xnm Yn

X

объект
Y Y

Рис. Структура исследуемого объекта

 

 

Пример 1 Обрывность=F(влажность, температура, Тексв,…)

ТП прядения
х1

… Y (обрывность)

хm

Пример 2 Прибыль= F(величина основных фондов, величина оборотных фондов)

 

Пусть объективно существует зависимость Y=F(X), которая неизвестна, а известны только результаты фактических наблюдений за работой объекта {Xi,Yi}I=1,…n , которые представлены в таблице, где Yi= F(Xi) +ei I=1,2…n. Т.к. фактическое значение показателя Yi наблюдается с ошибкой ei (из-за неучтенных факторов и ошибок измерения).

Требуется найти функцию Y = (Х), которая наилучшим образом аппроксимирует фактические данные, приближаясь к истинной функции: = F(Х)

 

В зависимости от вида функции F(X) модели делятся на линейные и нелинейные. В зависимости от количества включенных в модель факторов модели делятся на однофакторные и многофакторные.

Рассмотрим задачу построения регрессионной зависимости на примере однофакторной линейной модели.

Пусть объект описывается показателем Y и на него оказывает влияние один фактор X, истинная функция Y =F(X)+e задана таблицей значений . Требуется построить аппроксимацию , которая хорошо приближается к истинной функции F(X) в смысле минимального значения суммы квадратов отклонений истинных значений Yi от линии регрессии.

Например, нас интересует как зависит товарооборот от вложенных затрат на рекламу (y – объем товарооборота, x – затраты на рекламу)

- истинная фунsub>i= F(Xi) +ei I=1,2…n (n - наблюдений), собранные за некоторый период времени.

Требуется:

- найти приближение к истинной функции F(X) в классе линейных функций, т.е. определить коэффициенты оптимальной линейной зависимости = aХ + b на основе фактических данных

- провести анализ полученной зависимости на предмет адекватности исходным данным.

Выдвигаем гипотезу:

переменные связаны линейной зависимостью Y=AX+B+e, т.е. наилучшую аппроксимацию ищем в классе линейных функций:

 

Одним из методов построения такой аппроксимации является регрессионный анализ, а построенную этим методом функцию называют уравнением регрессии (функцией регрессии).

Регрессионный анализ заключается в определении аналитического выражения связи зависимой случайной величины Y (показателя) с независимыми случайными величинами Х1, Х2,…Хn (факторами). В регрессионном анализе “наилучшим образом”, понимается в смысле минимума суммарной ошибки приближения для заданных исходных (табличных) данных.

Функция регрессии показывает, каково будет в среднем значение переменной Y, если переменные примут конкретные значения.

Основной метод, с помощью которого оцениваются неизвестные параметры в регрессионном анализе – метод наименьших квадратов (МНК). МНК – это вычислительная процедура, обеспечивающая минимизацию заданной квадратичной формы при фиксированном множестве исходных данных.

Сочетание МНК с указанными статистическими процедурами и привело к созданию того, что стало называться регрессионным анализом. Постепенно расширилась и область приложений регрессионного анализа

 

Основные этапы регрессионного анализа

 

1. Формирование набора исходных данных, характеризующих работу объекта;

2. Предварительный статистический анализ данных. Построение системы показателей и факторов. Выбор типа связи регрессионной зависимости (задание класса функций). Выдвижение гипотезы о типе связи между переменными;

3. Оценивание параметров функции регрессии (МНК);

4. Проверка адекватности построенной зависимости. Проверка выдвинутой гипотезы.



/a>
  • Далее ⇒