Категории:

Астрономия
Биология
География
Другие языки
Интернет
Информатика
История
Культура
Литература
Логика
Математика
Медицина
Механика
Охрана труда
Педагогика
Политика
Право
Психология
Религия
Риторика
Социология
Спорт
Строительство
Технология
Транспорт
Физика
Философия
Финансы
Химия
Экология
Экономика
Электроника

Лабораторная работа № 6 Нелинейная регрессия

Цель: научиться выбирать наилучшую регрессионную модель.

Основные формулы и понятия:

Модели нелинейной регрессии

Полиноминальная (степени p)

Логарифмическая

Гиперболическая

Дробно-линейная

Показательная

Степенная

Логистическая

Средняя ошибка аппроксимации .

Электронная таблица Excel

В электронной таблице имеются возможности получения коэффициентов и значение детерминации для логарифмической, степенной, экспоненциальной функций и полинома произвольной степени. Для этого также, как и ранее, необходимо построить точечную диаграмму, а затем вызвать контекстное меню произвольной точки. В полученном меню необходимо выбрать пункт Добавить линию тренда, после него появится диалоговое окно (рис. 5), у которого на закладке Тип имеется возможность выбрать соответствующую нелинейную модель. Если кроме этого отметить опции Показывать уравнение на диаграмме и Поместить на диаграмму величину достоверности аппроксимации (R^2, то на графике кроме самой линии тренда появятся уравнение модели и значение коэффициента детерминации.

Например, для данных таблицы 5, построив линейную, экспоненциальную и логарифмическую модели, можно получить диаграмму, изображенную на рисунке 8:

Рисунок 8 Линия тренда

 

То есть имеем

линейную модель: y = –7,7145x + 240,14 R2 = 0,786,

экспоненциальную модель: y = 334,76e–0,0659x R2 = 0,789,

логарифмическую модель: y = –122,94Ln(x) + 457,51 R2 = 0,787.

Если имеется выбор между несколькими моделями, то самый простой способ — это задавать различные уровни тренда и выбрать ту модель, у которой значение коэффициента детерминации будет максимальным.

В данном случае значения коэффициентов детерминации несильно отличаются в различных моделях, поэтому нет объективных причин выбрать наилучшую, а следовательно, необходимо проводить дополнительные исследования либо используя среднюю ошибку аппроксимации, либо множественную регрессионную модель (которую мы будем рассматривать далее).

Хотя нами и получены модели, среди которых нельзя сразу выбрать лучшую, необходимо помнить о том, что прогноз, полученный на основании каждой модели, будет различным. Как было показано ранее (лабораторная работа № 2), прогноз, в случае использования линейной модели, при x = 17 будет равен 109,014. Прогноз, полученный на основании логарифмической модели, равен 109,1948, а на основании экспоненциальной модели — 109,1927. Эти значения получены подстановкой в уравнения моделей значения x = 17.

Использование результатов, полученных с помощью точечной диаграммы, имеет много недостатков. Во-первых, сам набор функций достаточно ограниченный, а одна из актуальных задач современной эконометрики заключается в подборе новых, более адекватных моделей, а во-вторых, проверять гипотезы о значимости коэффициентов, да и самой регрессии в целом придется вручную. К тому же посредством точечной диаграммы можно получить модель только для парного случая.

Поэтому иногда более удобно использовать преобразования, а уже затем надстройку Регрессия. Как мы уже знаем из теории, любая из предложенных нелинейных моделей может быть сведена к линейной либо заменой переменных, либо логарифмированием. Поэтому в таблицу исходных данных добавляют дополнительные столбцы, в которых находятся значения логарифмов, а затем строят регрессионную модель между необходимыми столбцами. Однако в этом случае нужно помнить о том, что, переходя к линейной модели, посредством логарифмирования получают изменённые значения параметров, которые затем необходимо восстанавливать.

Из экономической теории известно, что спрос является убывающей функцией цены, то есть при увеличении цены спрос убывает. Следовательно, разумной будет попытка найти лучшую модель среди убывающих функций. Имеется огромное количество функций, которые при некоторых значениях параметров являются убывающими, например, линейная, гиперболическая, показательная, с основанием меньше 1, и т. д. Рассмотрим способ построения показательной модели . После логарифмирования данная модель примет вид . Следовательно, для получения параметров модели необходимо значения x задавать как и прежде, а значения y заменить на значения логарифмов, то есть задать Входной интервал Y в виде D1:D16. В этом случае исходная таблица данных, в которой имеется дополнительный столбец, будет иметь вид (табл. 10):

 

Таблица 10 Таблица исходных данных

 

Номер наблюдения Цена x (т.) Спрос y (тыс. шт.) ln(y)
15,09т. 125,1779 4,829736
15,21т. 123,8094 4,818744
15,28т. 121,175 4,797236
15,49т. 116,9143 4,761441
15,54т. 119,8643 4,78636
15,62т. 118,0681 4,771261
15,70т. 123,5887 4,816959
15,91т. 117,0877 4,762923
15,92т. 116,1699 4,755054
15,95т. 118,3436 4,773592
16,31т. 116,2008 4,75532
16,33т. 111,4565 4,713635
16,60т. 115,1026 4,745824
16,69т. 110,1056 4,70144
16,76т. 110,0231 4,700691

 

После вызова надстройки Регрессия будет получена итоговая таблица (табл. 11).

Таблица 11 Итоговая таблица

ВЫВОД ИТОГОВ
   
Регрессионная статистика
Множественный R 0,888266
R-квадрат 0,789016
Нормированный R-квадрат 0,772787
Стандартная ошибка 0,019221
Наблюдения
   
Дисперсионный анализ        
Df SS MS F Значимость F
Регрессия 0,01796 0,01796 48,61611 9,73E–06
Остаток 0,004803 0,000369    
Итого 0,022763      
           
Коэффи- циенты Стандартная ошибка t- статистика P- значение Нижние 95 % Верхние 95 %
Y-пересечение 5,813415 0,1503 38,67869 8,27E–15 5,488711 6,138119
Цена x (т.) –0,06591 0,009452 –6,97253 9,73E–06 –0,08633 –0,04549
                   

 

Используя раздел Коэффициенты можно записать итоговую модель вид .

После потенцирования будет . Аналогичным образом можно построить произвольную регрессионную модель.

При подборе оптимальной модели кроме коэффициента детерминации можно использовать и среднюю ошибку аппроксимации. Данные вычисления достаточно очевидны, и их рекомендуется выполнить самостоятельно на основании полученных после вызова надстройки данных.