Тема: Регрессионный анализ

Цель:представление корреляционной зависимости между признаками в виде формулы, позволяющей прогнозировать значения одного показателя по конкретному значению другого.


Теоретические сведения


В практических исследованиях возникает необходимость апроксимировать(математически описать приблизительно) корреляционную зависимость между двумя признаками уравнением. Для линейной зависимости сделать это относительно просто: вытянутое корреляционное поле заменить усредненной прямой линией и найти ее уравнение по статистическим данным коррелируемых признаков. В прямоугольной системе координат уравнение прямой линии записывается в виде:


 

Это математическое выражение корреляционной зависимости называется уравнением регрессии. Коэффициенты aиb называются параметрами уравнения регрессии.Параметр а определяет на графике (рис.12) отрезок, отсекаемый графиком уравнения (прямой линией) на оси Y. Параметр b показывает, как изменяется признакY при изменении признакаX.Это "b" еще называют коэффициентом регрессии.


Рис. 12.


Уравнение регрессии тем лучше описывает корреляционную зависимость, чем ближе она к линейной и чем больше ее достоверность. В случае нелинейной зависимости математически запись может выражаться в виде более сложных уравнений различных кривых линий (экспоненциальной кривой, параболы, гиперболы и т.д.).

При наличии достоверной криволинейной корреляционной зависимости можно подобрать уравнение, хорошо ее описывающее. Особенно эта возможность становится реальной при наличии электронно-вычислительной техники.


Определение уравнения прямолинейной регрессии


Как уже было сказано, в случае линейной зависимости уравнение регрессии является уравнением прямой линии. Таких уравнений два: (1)

(2)

Если уравнение (1) называть прямым, то уравнение (2) будет ему обратным, и наоборот. Параметры определяются на основании статистических данных признаковX и Y по формулам:

(3)

(4)

Коэффициенты регрессии имеют размерность, равную отношению размерностей изучаемых признаковX и Y, и тот же знак, что и коэффициенты корреляции.

(5)

(6)

Чтобы вычислить , надо просто в уравнения (1) и (2) подставить средние значения коррелируемых признаков. Для оценки качества уравнения регрессии вычисляются остаточные средние квадратические отклонения по формулам:


(7)

(8)


Эти оценки абсолютны и, следовательно, не могут быть сравнимы друг с другом. Поэтому вводят оценки относительной погрешности уравнений регрессии, которые определяются в процентах по формулам:


(9)

(10)


Значение этой оценки, еслиr = ± 1,00,равно нулю, и, если r = 0,00, максимально. Остаточное среднее квадратическое отклонение характеризует колеблемость y относительно линии регрессии по x, и наоборот в обратном случае.

Пример 9.1.

Найти уравнения регрессии для веса(Х) и роста(Y) группы студентов, если их значения таковы:

Решение:

1. Занесем результаты тестирования в рабочую таблицу:

-11 -10
- 6 -12
-2
  = 259   = 433 = 314


2. Рассчитаем нормированный коэффициент корреляции по формуле:

;

.

3. Подставим полученные данные в уравнения регрессии:

.

Тогда уравнение регрессии примет вид:

Т.е. (1)

(2)

4. В конечные значения уравнений (1) и (2) подставим произвольные значения показателей x и y (например, 1-го исследуемого).

Тогда:

5. Разобранную в данном примере корреляционную зависимость можно представить графически в виде, приведенном на рисунке 13, учитывая следующие особенности данного представления:

1. две линии уравнения регрессии на графике пересекаются в точке M с координатами средних значений показателей x и y;
2. чем ближе коэффициент корреляции по своему значению к |1|, тем меньше угол между линиями на графике. При r=± 1 линии уравнения регрессии либо совпадают, либо расположены параллельно, так как корреляционная взаимосвязь между признаками в этом случае переходит в функциональную;
3. чем ближе значение коэффициента корреляции к нулю, тем больше угол между линиями на графике. При r=0 линии уравнения регрессии на графике расположены перпендикулярно, т.е. взаимосвязь между показателями отсутствует.

Рис. 13.

Ход работы


ЗАДАЧА 1.

Найти уравнения регрессии для показателей индекса Кетле (Х) и становой силы( Y ) у студентов группы _______________, если их значения таковы:

Решение:

1. Занести результаты тестирования в рабочую таблицу и сделать соответствующие расчеты:

             
             
             
             
             
             
             
             
             
   

2. Найти нормированный коэффициент корреляции по формуле:


,

3. Подставить полученные данные в уравнения регрессии:


;

,

4. Подставить в полученные конечные значения уравнения регрессии данные любого студента:


5. Представить данное уравнение регрессии графически:

Вывод:


Контрольные вопросы

1. Цель применения регрессионного анализа.
2. Графический способ представления уравнения прямолинейной регрессии и его основные свойства.