На основе моделей кривых роста

Задание:для зависимой переменной Y(t) построить линейную модель, параметры модели оценить с помощью метода наименьших квадратов. Оценить качество построенной модели (провести исследования адекватности и точности модели).


Таблица 15 – Варианты заданий

Номер варианта Значения Y(t) при t

 

Порядок выполнения работы:

Для отражения тенденции изменения исследуемого показателя воспользуемся простейшей моделью вида:

Yp(t) = a0 + a1 t (t = 1,2,...,N). (4)

Параметры кривой роста оцениваются по методу наименьших квадратов (МНК).

Для линейной модели:

 

a1 = Σ [(t - tср) (Y(t) - Yср)] / Σ (t - tср)2 ,

(5)

a0 = Yср - a1 tср,

где tср - среднее значение фактора времени; Yср - среднее значение исследуемого показателя.

Примечание:

В Excel математическое ожидание (среднее значение) определяется с помощью функции СРЗНАЧ (значения чисел) в категории Статистические.

Среднее квадратическое отклонение, обозначаемое σ[x], определяет разброс значений случайной величины относительно ее математического ожидания. В Excel эта величина называется стандартное отклонение - СТАНДОТКЛОН (значения чисел) по зависимости:

 

σ [x] = (6)

Пример:по данным о сданных в эксплуатацию жилых домах в регионе (за счет всех источников финансирования), тыс. кв. м общей площади за девять месяцев, построить линейную модель.

 


Таблица 16 - Оценка параметров уравнения прямой

t Факт Y(t) (t - tср) (t - tср)2 Yt - Ycp (t - tср) (Yt - Ycp) Расчет Yp(t) Отклонение E(t)
-4 -31 27,2 -2,2
-3 -22 34,4 -0,4
-2 -14 41,6 0,4
-1 -5 48,8 2,2
-1 56,0 -1,0
63,2 3,8
70,4 2,6
77,6 -1,6
84,8 -3,8

 

Ycp = 56; tcp = 5

a1 = 7,2

a0 = 20,0

Таким образом линейная модель имеет вид:

Yp(t) = 20,0 + 7,2 t ( t = 1,2,...,9). (7)

Отклонения расчетных значений от фактических наблюдений вычисляются как:

E(t) = Y(t) - Yp(t) , t = 1,2,...,9. (8)

Оценить качество модели, исследовав ее адекватность и точность.

Качество модели определяется ее адекватностью исследуемому процессу, которая характеризуется выполнением определенных статистических свойств, и точностью, т.е. степенью близости к фактическим данным. Модель считается хорошей со статистической точки зрения, если она адекватна и достаточно точна.

Модель является адекватной, если ряд остатков обладает свойствами случайности, независимости последовательных уровней, нормальности распределения и равенства нулю средней ошибки.

Результаты исследования адекватности отражены в таблице 17.

 

Таблица 17 - Оценка адекватности модели

t Отклонение E(t) Точки поворота E(t)2 E(t)-E(t+1) [E(t)-E(t+1)] E(t)* E(t+1) [E(t)]:Y(t)*100
-2,2 - 4,84 -1,8 3,24 0,88 8,8
-0,4 0,16 -0,8 0,64 -0,16 1,2
0,4 0,16 -1,8 3,24 0,88 1,0
2,2 4,84 3,2 10,24 -2,20 4,3
-1,0 1,00 -4,8 23,04 -3,80 1,8
3,8 14,44 1,2 1,44 9,88 5,7
2,6 6,76 4,2 17,64 -4,16 3,6
-1,6 2,56 2,2 4,84 6,08 2,1
-3,8 - 14,44 - - - 4,7
(Σ) 49,2 - 64,32 7,40 33,2

Проверку случайностиуровней ряда остатков проведем на основе критерия поворотных точек. В соответствии с ним каждый уровень ряда сравнивается с двумя рядом стоящими. Если он больше или меньше их, то эта точка считается поворотной. Далее подсчитывается сумма поворотных точек “р”. В случайном ряду чисел должно выполняться строгое неравенство:

 

р > [2 (N - 2) /3 - 2 ]. (9)

 

Квадратные скобки здесь означают, что от результата вычислений берется целая часть числа (не путать с процедурой округления!). При N=9 в правой части неравенства имеем: [2,4] = 2. Следовательно, свойство случайности выполняется.

При проверке независимости(отсутствия автокорреляции) определяется отсутствие в ряду остатков систематической составляющей. Это проверяется с помощью d-критерия Дарбина - Уотсона, в соответствии с которым определяется коэффициент d:

d = . (10)

 

Вычисленная величина этого критерия сравнивается с двумя табличными уровнями (нижним d1 и верхним d2).

Если 0 < d < d1 - то уровни остатков сильно автокоррелированы, а модель неадеквата;

d2 < d < 2 - то уровни ряда являются независимыми;

d > 2 - то это свидетельствует об отрицательной корреляции и перед входом в таблицу необходимо выполнить преобразование: d = 4 - d;

d1 < d < d2 - то однозначного вывода сделать нельзя и необходимо применение других критериев, например, первого коэффициента автокорреляции r(1), который вычисляется по формуле:

 

(11)
.

 

Если ε r(1) ε > r (табл.) ( при N < 15r (табл) = 0,36), то присутствие в остаточном ряду существенной автокорреляции подтверждается.

В нашем примере d = 1,31.

Для линейной модели при 9-ти наблюдениях можно взять в качестве критических табличных уровней величины d1 = 1,08и d2 = 1,36.

Так как рассчитанная величина попала в зону между d1 , d2 , то однозначного вывода сделать нельзя и необходимо применение других критериев.

Воспользуемся первым коэффициентом автокорреляции:

r(1) = 7,40 / 25,56 = 0,29.

Следовательно, по этому критерию также подтверждается выполнение свойства независимости уровней остаточной компоненты.

Соответствие ряда остатков нормальному закону распределения определим при помощи RS- критерия:

RS = (Emax - Emin) / S, (12)

 

где Emax - максимальный уровень ряда остатков; Emin - минимальный уровень ряда остатков; S - среднее квадратическое отклонение.

Если значение этого критерия попадает между табулированными границами с заданным уровнем вероятности, то гипотеза о нормальном распределении ряда остатков принимается. Для N= 10 и 5%-го уровня значимости этот интервал равен (2,7 - 3,7).

В нашем примере: Emax = 3,8 и Emin = -3,8.

S = (13)

RS = 4,17

Расчетное значение не попадает в интервал. Следовательно, свойство нормальности распределения не выполняется, что не позволяет строить доверительный интервал прогноза.

Для характеристики точностивоспользуемся среднеквадратическим отклонением и средней относительной ошибкой:

Еотн = 1/ N (14)

Ее величина менее 5% свидетельствует об удовлетворительном уровне точности модели (ошибка в 10 и более процентов является очень большой).

Точечный прогноз на k шагов вперед получается путем подстановки в модель параметра t= N+1, ..., N+k. При прогнозировании на два шага имеем:

Yp(10) = 20,0 + 7,2  10 = 92,0 (k=1, t = 10) (15)

Yp(11) = 20,0 + 7,2 *11 = 99,2 (k=2, t = 11) (16)

Доверительный интервал прогноза будет иметь следующие границы:

Верхняя граница прогноза = Yp(N+k) + U(k).

Нижняя граница прогноза = Yp(N+k) - U(k).

Величина U(k) для линейной модели имеет вид:

U(k) = S Kp . (17)

Коэффициент Kp является табличным значением t-статистики Стьюдента. Если исследователь задает уровень вероятности попадания прогнозируемой величины внутрь доверительного интервала, равный 70%, то Kp = 1,05.

U(1) = 1,82 1,05 . (18)

U(2) = 1,82 *1,05 . (19)

 

Таблица 18 - Прогнозные оценки по линейной модели

Время t Шаг k Прогноз Yp(t) Нижняя граница Верхняя граница
92,0 89,6 94,4
99,2 96,7 101,7

 

Если построенная модель адекватна, то с выбранной пользователем вероятностью можно утверждать, что при сохранении сложившихся закономерностей развития прогнозируемая величина попадет в интервал, образованный нижней и верхней границами. В нашем случае такое утверждение не совсем правомерно из-за неполной адекватности модели.