Метод наименьших квадратов. Получение регрессионной модели происходит в два этапа:

Получение регрессионной модели происходит в два этапа:

‒ подбор вида функции;

‒ вычисление параметров функции.

Первая задача не имеет строгого решения. Здесь может помочь опыт и интуиция исследователя, а возможен и «слепой» перебор из конечного числа функций и выбор лучшей из них.

Чаще всего выбор производится среди следующих функций:

у = ах + b — линейная функция;

у = ах2 + bх + с — квадратичная функция;

у = а ln(х) + b — логарифмическая функция;

у = а еbx — экспоненциальная функция;

у = а хb ~ степенная функция.

Квадратичная функция называется также полиномом второй степени. Иногда используются полиномы и бо­лее высоких степеней, например, полином третьей степени имеет вид: у == ах3 + bх2 + cx + d.

Если вы выбрали (сознательно или наугад) одну из предлагаемых функций, то следующим шагом нужно подобрать параметры (а, b, с и пр.) так, чтобы функция располагалась как можно ближе к экспериментальным точкам. Что значит «располагалась как можно ближе»? Ответить на этот вопрос — значит предложить метод вычисления параметров. Такой метод был предложен в XVIII веке немецким математиком К. Гауссом. Он называется методом наименьших квадратов (МНК). Суть его заключается в следующем: искомая функция должна быть построена так, чтобы сумма квадратов отклонений у-координат всех экспериментальных точек от у-координат графика функции была бы минимальной.

Мы не будем здесь производить подробное математиче­ское описание метода наименьших квадратов. Достаточно того, что вы теперь знаете о существовании такого метода. Он очень широко используется в статистической обработке данных и встроен во многие математические пакеты про­грамм. Важно понимать следующее: методом наименьших квадратов по данному набору экспериментальных точек можно построить любую (в том числе и из рассмотренных выше) функцию. А вот будет ли она нас удовлетворять, это уже другой вопрос — вопрос критерия соответствия. На рис. 2.14 изображены три функции, построенные методом наименьших квадратов по данным, представленным в пре­дыдущем параграфе.


 

 

Данные рисунки получены с помощью MS Excel. График регрессионной модели называется трендом. Английское слово trend можно перевести как общее направление, или тенденция.

Уже с первого взгляда хочется отбраковать вариант ли­нейного тренда. График линейной функции — это прямая. Полученная по МНК прямая отражает факт роста заболевае­мости от концентрации угарного газа, но по этому графику трудно что-либо сказать о характере этого роста. А вот квад­ратичный и экспоненциальный тренды ведут себя очень правдоподобно. Теперь пора обратить внимание на надписи, присутствующие на графиках. Во-первых, это записанные в явном виде искомые функции — регрессионные модели:

линейная функция: у = 46,361x - 99,881; экспоненциальная функция: у = 3,4302 е0'7555; квадратичная функция: у = 21,845x2 - 106,97x: + 150,21.

На графиках присутствует еще одна величина, получен­ная в результате построения трендов. Она обозначена как R2. В статистике эта величина называется коэффициентом детерминированности. Именно она определяет, насколько удачной является полученная регрессионная модель. Коэф­фициент детерминированности всегда заключен в диапазоне от 0 до 1. Если он равен 1, то функция точно проходит через табличные значения, если 0, то выбранный вид регрессион­ной модели предельно неудачен. Чем R2 ближе к 1, тем удачнее регрессионная модель.

Из трех выбранных моделей значение R2 наименьшее у линейной. Значит она самая неудачная (нам и так это было понятно). Значения же R2 у двух других моделей до­статочно близки (разница меньше одной 0,01). Если опреде­лить погрешность решения данной задачи как 0,01, по кри­терию R2 эти модели нельзя разделить. Они одинаково удачны. Здесь могут вступить в силу качественные сообра­жения. Например, если считать, что наиболее существенно влияние концентрации угарного газа проявляется при боль­ших величинах, то, глядя на графики, предпочтение следу­ет отдать квадратичной модели. Она лучше отражает резкий рост заболеваемости при больших концентрациях примеси.