Регрессионные статистические модели временных рядов (AR-, ARI-, ARX-, ARMAX-, ARMA-, ARIMA-, ARIMAX- модели процессов)

Все большее распространение в настоящее время находят математические прогнозирующие модели, являющиеся комбинацией статистических и детерминированных моделей. Именно эти модели позволяют обеспечить наилучшую точность прогнозирования, адаптивность к изменяющемуся процессу [1, 3, 4].

Они, например в электроэнергетике, базируются на концепции стандартизованного моделирования процесса нагрузки в энергопотреблении [4], которая состоит в моделировании фактической нагрузки , как совокупности стандартизованного графика (базовой составляющей, детерминированного тренда) и остаточной составляющей .

Данная декомпозиция на составляющие наиболее часто носит аддитивный характер [1]

,

но иногда используется и мультипликативная декомпозиция [4]

.

В используемых же обозначениях графиков нагрузки , , малая буква d обозначает тип (номер) прогнозируемых суток.

В других работах [4] используется также модель, объединяющая свойства аддитивной и мультипликативной моделей:

,

где , – детерминированные составляющие и – остаточная случайная составляющая.

Наиболее широкое применение в радиоэлектронике имеет аддитивная модель, остальные модели имеют ограниченное применение.

Процесс в первом приближении считают стационарным или почти стационарным, что упрощает его моделирование с использованием статистических моделей, которые будут рассмотрены ниже.

Кроме того, при моделировании стандартной составляющей также осуществляют ее декомпозицию на отдельные составляющие [4].

Следует отметить, что более детальное рассмотрение детерминированных и комбинированных прогнозных математических моделей процессов, протекающих в медицинских, технических и других диагностических системах, планируется рассмотреть в последующих методических пособиях.

Приведем краткую классификацию и описание регрессионных моделей временных рядов, используемых для моделирования стационарных и нестационарных процессов: остаточной составляющей , детерминированной составляющей либо графика в целом [1, 3, 4, 6, 8, 13, 14, 15, 22]:

- AR(ARI)-модель или авторегрессионная модель (с интегрированием или разностным оператором);

- ARX-модель или авторегрессионная с учетом влияния внешних факторов (включает X-составляющую);

- ARMA-модель или авторегрессионная модель со скользящей средней;

- ARIMA-модель или авторегрессионная интегрированная со скользящей средней модель (АРИСС), иногда ее называют моделью Бокса-Дженкинса [14,16];

- ARMAX-модель или обобщенная линейная полиномиальная модель типа «черный ящик» (black box model);

- ARIMAX-модель или обобщенная линейная полиномиальная модель типа «черный ящик» с интегрированием.

Авторегрессионная модель AR используется для моделирования стационарных случайных процессов, а для моделирования нестационарных процессов используется совместно с интегральной составляющей (ARI, где I – интегральная составляющая). Введение интегральной составляющей требует взятия от моделируемого процесса конечных разностей того или иного порядка d, что, по мнению некоторых авторов [14, 16, 18], позволяет нестационарный процесс свести к стационарному.

Общий вид AR(ARI)-модели (структурная схема на рис. 3.1, a) в виде разностного уравнения записывают так [15]:

,

где – оператор авторегрессии порядка na; – оператор задержки сигнала на один такт; или – конечная разность d порядка или моделируемый процесс, в частности, остаточная составляющая графика нагрузки; e(t) – ошибка модели или стационарный, случайный процесс с нулевым математическим ожиданием и дисперсией (“белый шум”).

В развернутом виде AR-модель можно записать [15, 16, 17] как:

;

.

 

Рис. 3.1

ARMA-модель (структурная схема на рис.3.1, б) включает помимо авторегрессионной составляющей и составляющую скользящей средней (MA) от ошибки [14, 15, 16]:

,

где – оператор скользящего среднего порядка .

Введение скользящей средней в модель позволяет в ряде случаев уменьшить погрешность прогноза, а также авторегрессионную модель высокого порядка свести к модели скользящей средней более низкого порядка и наоборот. Используется модель при прогнозировании остаточной составляющей графика нагрузки.

ARX-модель (структурная схема на рис.3.1, г) помимо авторегрессионной составляющей включает составляющие, зависящие от внешних входных влияющих сигналов [14, 15]:

где – оператор, определяющий влияние внешнего сигнала u(t); u(t–nk) – отсчет внешнего влияющего фактора (сигнала), задержанный на nk тактов.

В развернутом виде ARX-модель имеет вид:

ARX-модель компактно записывают в преобразованном виде:

где G(q) и H(q) – обобщенные операторы регрессии внешнего сигнала и скользящего среднего.

В случае нескольких входных влияющих сигналов ARX-модель запишется в виде [15, 16]:

В общем виде ARIMA-модель или АРИСС-модель остаточной нестационарной случайной составляющей РD(t) процесса или процесса в целом может быть представлена следующим образом (структурная схема на рис.3.1, в) [16]:

(3.1)

где - оператор разности порядка d:

(3.2)

В преобразованном виде формулу (3.1) можно записать так:

В форме, удобной для прогнозирования, ARIMA-модель примет вид:

где – оператор, обратный разности порядка d (3.2) или оператор суммирования (интегрирования) порядка d:

(3.3)

Именно поэтому взятие конечных разностей от моделируемого процесса в регрессионных моделях интерпретируют, как введение интегрирующей составляющей или оператора суммирования (3.3) порядка d. Однако, как известно из теории моделирования, появление дополнительной интегральной составляющей в модели делает ее менее устойчивой [3], что отмечается и при моделировании процесса [3, 22].

Зачастую порядок ARIMA-модели записывают в следующем виде: (na, d, nc).

ARMAX-модель является наиболее общей моделью среди всех выше перечисленных (общая модель типа “черный ящик”) [15]:

В развернутом виде и в форме разностного уравнения ARMAX-модель запишется как:

В случае нескольких входных влияющих сигналов ARMAX-модель примет вид

В случае введения интегральной составляющей порядка d ARMAX-модель преобразуется в ARIMAX-модель [15, 16]:

(3.4)

Случайная величина e(t) в перечисленных регрессионных моделях является разностью прогнозного (на один шаг вперед) значения и действительного значения временного ряда моделируемого процесса:

.

Любую из перечисленных регрессионных моделей можно записать в обобщенном виде [15]:

.

Данный вид моделей связан с дискретным представлением в пространстве состояний:

(3.5)

,

,

где Enx , Eny – единичные матрицы размеров nx и ny; KK – матрица коэффициентов усиления Калмана.

Определение коэффициентов ; ; , а также значений na, nb, nc, определяющих порядок перечисленных моделей, в том числе и (3.5) при идентификации осуществляют в большинстве случаев из условия минимизации ошибки прогноза [15,16]:

Модели, не включающие интегральных составляющих, имеют теоретическое обоснование применения, устойчивости, точности для случая стационарных моделируемых процессов [14, 15, 16]. Нестационарный временной ряд моделируемого процесса приводят к стационарному последовательным взятием разностей d-го порядка: . Далее для ряда строят стационарную модель, например, авторегрессии скользящего среднего (АРИСС-и ARIMA-модель). При этом порядок разностей d подбирается так, чтобы автокорреляционная функция (АКФ) ряда быстро затухала.

Но, как показано в [3, 16, 17, 23], в ряде случаев для d ≥ 2 модели типа (3.1), (3.4) с интегрированием могут быть неустойчивыми из-за влияния различных случайных факторов и поэтому рекомендуется использовать модели с d < 2.

Как показал анализ, например, трехминутных графиков электрической нагрузки текстильного промышленного предприятия в АСУЭ [3, 20, 23] процесс является существенно нестационарным и для приведения его к стационарному процессу необходимо принимать d ≥ 2. В то же время процесс

приводится к стационарному виду при d = 1 – 2, если в качестве базовой составляющей (тренда) используется декомпозиционная алгебраическая многомерная регрессионная модель [3, 23].

Необходимо отметить также, что при таком трендовом подходе остается постоянным порядок na и , например, АРИСС-модели, т.е. не нужна ее структурная адаптация для различных типов реализаций случайных процессов. Для большинства исследованных графиков нагрузки предприятий и энергосистем [3, 4, 23] в случае трендового подхода остаточная составляющая адекватно моделируется АРИСС-моделью порядка (1,1,0). При этом порядок модели не зависит от типа суток.

Однако в некоторых случаях процесс может содержать периодические составляющие, обусловленные технологией производства [3, 4]. Для учета подобных периодичностей в процессах возможно использование АРИСС-модель с периодической составляющей [16]:

(3.6)

где , – операторы авторегрессии и скользящей средней периодической составляющей порядков naS и ncS ; qS – оператор периодического сдвига назад [16-18]; – оператор периодической разности порядка ds:

;

.

Порядок модели (3.6) в соответствии с [16 – 18] записывается в следующем виде: (na, d, nc) × (naS, ds, ncS).

В частности, при исследовании графиков нагрузки текстильного предприятия в остаточной составляющей оптимальной является модель (3.6) с периодической компонентой порядка (1, 1, 0)×(0, 0, 1)11 [3, 4, 23].

Выбор параметров модели (3.6) осуществляется согласно [16], уточнение же производится при получении каждого нового значения прогнозируемого ряда с целью минимизации ошибки прогноза (среднеквадратического отклонения) с использованием, например, нелинейного метода наименьших квадратов (алгоритм Маркварда).

Правильность выбора порядка модели (3.6), как и остальных перечисленных регрессионных, проверяется с использованием совокупного критерия согласия по АКФ остатков e(t) модели [3,16,18].

Проверка показала, что увеличение порядка моделей выше подобранной по критерию согласия (как периодической, так и непериодической частей) не ведет к увеличению точности моделирования, но значительно усложняет алгоритмы идентификации.

Все перечисленные регрессионные модели временных рядов (AR, ARI, ARMA и т.п.) при построении используют понятия теории вероятности и математической статистики, такие как АКФ, частная автоковариационная функция (ЧАКФ), автокорреляционная и ковариационная матрицы, стационарность случайного процесса и другие. Поэтому при их использовании к моделируемому процессу предъявляются требования выполнения статистических критериев, в частности критерий стационарности и случайности временного ряда (критерий серий) [11, 24]; критерий значимости ковариационных и корреляционных матриц [12, 25, 26] и т.п. Все перечисленное усложняет применение перечисленных методов к различным типам процессов электропотребления. Кроме того, следует отметить, что применение этих методов адекватно ситуации, если моделируемый процесс практически стационарный или приводится к стационарному взятием однократных разностей. В иных случаях нестационарных процессов электропотребления со значимым детерминированным трендом использование этих моделей часто дает неудовлетворительный по точности результат.