Декомпозиция "Х-12"

Для того чтобы решить часть проблем, присущих методу классической декомпозиции, бюро переписи населения США (CENSUS) в 1967 г. разработало метод Х-11[1], который длительное время считался стандартом при декомпозиции временны́х рядов. В 1980-х гг. был разработан метод Х-11 – ARIMA, основанный на Х-11 и применении в декомпозиции моделей авторегрессии со скользящей средней (о которой мы подробнее расскажем в гл. 8). На смену методу Х-11 в 1990-х гг. пришел метод Х-12, а уже в конце 1990-х его дополнил метод Х-12 – ARIMA[2], который и считается стандартом на данный момент. Расскажем подробнее о методе Х-12.

В рамках данного подхода рассматривается простая аддитивная модель, состоящая из следующих элементов:

(6.16)

Здесь подразумевается, что в трендовую компоненту помимо самой функции тренда включается еще и дополнительная регрессионная компонента:

где f(t) – функция тренда; Zt – регрессионная компонента, вводимая для того, чтобы выловить ряд специальных эффектов; TDt – эффект "торговых дней" (влияние выходных дней на итоговое значение показателя); Еt – эффект "Пасхи"; Оt – эффект "выбросов". Эффект "Пасхи" было решено ввести после того, как в 1986-м г. пасхальные выходные значительно повлияли на импорт продукции в США.

Обратимся к самому алгоритму декомпозиции. Так как метод разрабатывался в первую очередь для декомпозиции месячных временны́х рядов, мы рассмотрим его для примера данных с s = 12.

Для начала исходный ряд данных подвергается преобразованию Бокса – Кокса (что возможно в случае, если все элементы временно́го ряда положительны)[3]:

(6.17)

где xt – значение по исходному ряду данных на наблюдении t.

Как мы отмечали ранее, мультипликативная декомпозиция может быть записана в логарифмах (6.3). Поэтому данное преобразование позволяет прийти к аддитивной модели в случае, если λ = 1, или мультипликативной, если λ = 0. Промежуточные значения дают степенные преобразования исходного ряда данных. На практике значение λ подбирается так, чтобы дисперсия результирующих ошибок не менялась с изменением уровня ряда.

После преобразования Бокса – Кокса к исходному ряду данных применяется SMA(12), после чего происходит повторное сглаживание скользящей средней второго порядка. Это позволяет получить более гладкий ряд, содержащий минимальное число ошибок, а также первое приближение к оценке сезонной компоненты, которая рассчитывается по формуле (6.8). Стоит заметить, что если ряд данных после преобразования Бокса – Кокса был приведен к ряду в логарифмах, то использование формулы (6.8) равноценно расчету сезонных компонент по следующей формуле: откуда фактически следует формула (6.9).

Для обозначения шагов, па которых получаются те или иные данные, мы будем использовать верхний индекс в формулах. Так, сезонные компоненты, полученные на данном шаге, мы обозначим как .

Полученные сезонные компоненты сортируются по соответствующим месяцам, и происходит сглаживание всех месячных компонент (например, вначале – всех январских) простыми скользящими средними третьего порядка. После этого сглаженный ряд сглаживается повторно такой же скользящей средней для того, чтобы избавиться от ошибок в сезонных составляющих и получить более гладкую тенденцию. В результате получается сглаженный ряд сезонных коэффициентов, который можно обозначить как . Отсутствующие па концах наблюдения заменяются последними полученными значениями .

Данный пункт требует пояснения. Если мы рассмотрим сезонные компоненты некоторого ряда данных (например, рассмотренный нами ряд № 2568) в разрезе месяцев, то увидим, как изменяется из года в год значение по каждому месяцу (рис. 6.12).

Рис. 6.12. Изменение сезонных компонент для ряда № 2568 по годам в каждом месяце

Как видим, практически по всем месяцам наблюдается неравномерное изменение значений ряда. Сезонные компоненты достаточно часто сами имеют некоторую тенденцию к росту либо снижению. Если использовать простую среднюю (на рис. 6.12 они обозначены горизонтальными линиями), то будут получены некорректные оценки сезонных компонент. Именно поэтому в данном методе предлагается их сгладить скользящими средними.

После того как это сделано первый раз, рассчитываются ошибки по сезонным коэффициентам по формуле

(6.18)

где – величина сезонной ошибки.

В полученном ряде ошибок но месяцам уменьшаются экстремальные значения так, чтобы ошибки по январям были сопоставимы друг с другом. Осуществляется это на основе расчета среднеквадратического отклонения (СКО) но остаткам (σ). Все значения, выходящие за пределы , отбрасываются. Это нужно для того, чтобы в итоге получить ряд сезонных коэффициентов без сильных "выбросов" при повторном сглаживании. В результате этой операции получается ряд модифицированных ошибок , которые теперь уже складывается с рядом , что дает новый набор сезонных коэффициентов . Далее операция по сглаживанию сезонных коэффициентов по месяцам повторяется и получается новый набор сглаженных сезонных коэффициентов , не содержащий в отличие от рядаэкстремальные значения ошибок.

На следующем шаге происходит десезонализация исходного ряда данных по той же формуле, что и в (6.14), но уже с использованием нового полученного ряда сезонных коэффициентов:

(6.19)

где – первый десезонализированный ряд данных, включающий в себя как трендовую компоненту, так и ошибки.

Затем для более точного вычленения тренда к новому десезонализированному ряду применяется не простая скользящая средняя, а фильтр Хендерсона, суть которого заключается в том, чтобы распределить веса между наблюдениями не равномерно (как это осуществлено в простой скользящей средней), а по некоторому алгоритму, в котором "средним" наблюдениям задаются бо́льшие веса, а наблюдениям "на краях" – меньшие. Пример таких весов для месячных данных представлен на рис. 6.13.

Рис. 6.13. Распределение весов Хендерсона между наблюдениями

Как видим, наибольшие веса распределяются между соседними 6, 7 и 8 наблюдениями, остальным наблюдениям задаются меньшие веса. Наблюдения 1, 2, 12 и 13 получают отрицательные веса. Этот фильтр дает более гладкий ряд данных, но его использование продиктовано в первую очередь проблемой "конечных точек": в данном случае можно использовать "асимметричные веса", выведенные специально для получения сглаженного ряда на концах, так что никакие наблюдения не выпадают из рассмотрения. Подробнее о фильтре Хендерсона и о том, как именно выводятся эти веса, можно прочитать в статье М. Дохерти[4].

Получив ряд, сглаженный фильтром Хендерсона, повторяется алгоритм с расчетом и сглаживанием сезонных коэффициентови вычислением сезонных ошибок, описанный нами ранее, однако на данном этапе вначале используется SMA(5), а затем – SMA(3). В результате этих трудоемких вычислений получается новый ряд сглаженных сезонных коэффициентов , который уже считается финальным. На его основе рассчитывается новый десезонализированный ряд данных:

Этот ряд так же сглаживается фильтром Хендерсона, в результате чего получается конечная оценка тренда На основе этой окончательной оценки и десезонализированного ряда рассчитывается ряд финальных ошибок:

В результате всех этих расчетов в распоряжении исследователя получается три ряда данных:

1) – ряд сглаженной трендовой компоненты;

2) – ряд сглаженной сезонной компоненты;

3) – ряд ошибок, содержащий в себе все упомянутые ранее эффекты Zt.

Для вычленения эффектов Zt по остаткам строится регрессионная модель вида:

(6.20)

Для вычленения торговых дней в каждом месяце рассчитывается число дней недели и записывается в соответствующие переменные: x1t – число понедельников, x2t – число вторников и т.п. Регрессор х7t убирается из модели для избежания ловушки фиктивных переменных. Регрессор x8t равен нулю везде, кроме марта и апреля, в которых его значение равно числу дней между пасхальным воскресением и 22 марта (что считается самой ранней теоретически возможной датой Пасхи). Если Пасха выпадает на апрель, мартовское значение регрессора равно нулю. Если же на март, то нулю будет равно уже апрельское значение. Последнее значение хit представляет собой набор фиктивных переменных, характеризующих наличие в определенных месяцах таких эффектов, как резкий "выброс", изменение уровня ряда, временные резкие изменения тенденций и т.п.

После получения всех составляющих и оценки регрессионной компоненты прогнозист может подобрать подходящую модель для трендовой компоненты, позволяющую построить прогноз показателя, после чего применить ряд сезонных коэффициентов и регрессионную компоненту, что позволит получить более точный прогноз для сезонного ряда.

Как видим, этот метод значительно сложнее метода классической декомпозиции, однако на выходе исследователь получает трендовую и сезонную компоненты с минимальным ОГЛАВЛЕНИЕм ошибок. Главный же недостаток метода заключается в том, что для нормальной оценки всех компонент требуется большое число наблюдений. Так, чтобы сгладить ряд сезонных коэффициентов двумя SMA(3) нужно иметь данные как минимум за пять лет, и то получаемый в таком случае результат будет неудовлетворительным (из-за проблемы с конечными точками).

Можно заметить, что метод в целом применим не только для обратимых, но и для необратимых процессов. Однако, несмотря на возможность более полной декомпозиции ряда, он не позволяет строить эффективные прогнозы по необратимым процессам, так как не подразумевает адаптацию отдельных компонент временно́го ряда – в его основе лежит предположение о том, что никаких существенных изменений в исходном ряде данных за весь наблюдаемый период не происходит (кроме описанных "статистически нестандартных" ситуаций с "выбросами"),

В методе Х-12 – ARIMA для оценки трендовой и сезонной компонент используется модель SARIМA (Seasonal

ARIMA – сезонная коинтегрированная авторегрессионная модель со скользящей средней), о которой подробнее будет рассказано в параграфе 8.4. Построение регрессионной компоненты происходит аналогично тому, как это происходит в методе Х-12.

В заключение стоит заметить, что метод Х-12 – ARIMA требует наличия данных минимум за три года. При этом в прогнозировании компонент рекомендуется пользоваться моделями трендов. В случае наличия данных за 3–5 лет ARIMA может быть построена, однако оценка эффектов торговых дней и Пасхи в таком случае будет маломощной (из-за малого числа наблюдений). Для наиболее эффективной работы Х-12 – ARIMA нужны данные не менее чем за пять лет.

Подводя итог описанной методике, можно выделить следующие преимущества Х-12 – ARIMA:

1. Декомпозиция допускает изменение сезонных коэффициентов во времени.

2. Метод учитывает возможные всплески показателя, вызванные праздничными и выходными днями.

3. Во время применения метода первые и последние наблюдения в ряде данных нс выпадают из рассмотрения.

4. Метод робастен. "Выбросы", лежащие за пределами 2,5σ, отсекаются, что позволяет убрать их влияние па финальные значения компонент.

К недостаткам можно отнести следующее:

1. Метод сложен сам по себе и состоит из огромного числа элементов, выведенных на основе эмпирических исследований. Пояснения тем или иным действиям в методе нет, поэтому приходится принимать на веру то, что после применения одной скользящей средней высокого порядка нужно применить еще несколько скользящих средних более низкого порядка.

2. Метод рассчитан на работу с месячными или квартальными данными. Применить его, например, для учета сезонности в недельных данных не представляется возможным.

3. Бо́льшая часть элементов метода автоматизирована и не регулируется исследователем, из-за чего, например, нет возможности контролировать степень сглаживания отдельных компонент ряда.

Для автоматической декомпозиции временно́го ряда с помощью Х-12 – ARIMA бюро CENSUS разработало специальную программу, которую можно бесплатно скачать с их сайта: census.gov/srd/www/xl2a/.

Рассмотрим декомпозицию с помощью Х-12 на примере ряда № 1683 из базы М3. Для декомпозиции ряда мы воспользуемся коммерческой программой Eviews, в которой данный метод уже реализован.

Ряд № 1683 мы рассматривали в параграфе 6.3 и пришли к выводу, что лучше всего данный ряд опишет мультипликативная сезонная модель. Мы будем придерживаться этого вывода и трансформируем исходный ряд данных с λ = 0.

Фильтр Хендерсона оставим таким, каким он задан по умолчанию. Это означает, что программа самостоятельно определит, в каких случаях какой фильтр применить. Обычно для этого рассчитывается отношение средней по остаткам к средней по трендовой компоненте. Если это отношение оказывается выше 3,49 (что говорит о том, что модель имеет систематическое занижение), то берется фильтр с 23 весами (что в лучшей степени сглаживает ряд и позволяет дать более точную оценку трендовой компоненты). Если отношение лежит в пределах от 1 до 3,49, то берется фильтр с 13-ю весами. В остальных случаях используется фильтр с 9-ю весами.

Что касается регрессионных составляющих, то мы попытаемся оценить только влияние торговых дней и пасхальных праздников, которые теоретически могли повлиять на отгрузку продукции. Выбросы оценивать мы не будем, так как в явном виде их нет и указать их наличие на данном этапе крайне затруднительно.

Все расчеты в Х-12 осуществляются автоматически по описанному выше алгоритму, поэтому в результате мы получаем несколько рядов данных, состоящих из трендовой, сезонной компонент и остатков (рис. 6.14).

В результате декомпозиции с помощью Х-12 мы получили более гладкий тренд, нежели в случае с классической декомпозицией, и другой набор сезонных коэффициентов, которые, как легко заметить, изменяются из года в год. Все эти отличия в первую очередь вызваны тем, что метод Х-12 позволяет сезонным коэффициентам меняться во времени, в отличие от метода классической декомпозиции. На рис. 6.15 показаны сезонные компоненты, полученные с помощью Х-12 в динамике.

Как мы можем заметить, практически во всех сезонах наблюдаются некоторые изменения во времени, происходящие не в одном направлении: некоторые сезонные компоненты возрастают, в то время как другие – уменьшаются. Это показывает, что мы имеем дело с эволюционным рядом данных. Горизонтальными линиями на графике показаны средние величины – это примерно те же значения, которые мы получили бы, если бы ввели допущение о том, что сезонные коэффициенты из года в год не меняются (что лежит в основе классической декомпозиции).

Рис. 6.14. Сезонная декомпозиция ряда № 1683 с помощью Х-12

Рис. 6.15. Динамика сезонных компонент после декомпозиции ряда № 1683 методом Х-12

Помимо компонент, изображенных на рис. 6.14, была построена регрессия (6.20) по эффектам (рис. 6.16).

Puc. 6.16. Регрессия по эффектам торговых дней и Пасхи в модели Х-12 – ARIMA

Выбранные нами эффекты оказались статистически незначимыми: так как расчетные значения t-статистик (столбец "t-value") оказались по модулю меньше критического 5%-ного (1,98), у нас нет оснований отклонить гипотезу о равенстве соответствующих коэффициентов нулю. Следовательно, такую регрессию по остаткам в нашем случае не имеет смысл строить.

Помимо всего прочего программа автоматически спрогнозировала значения сезонных компонент на 1 год вперед. Судя по всему, это было осуществлено с помощью модели авторегрессии, однако никакой информации о том, что было выбрано и как именно, программа не выводит. Для более адекватного прогнозирования значений ряда исследователю стоит отдельно рассмотреть динамику каждой из сезонных компонент, динамику трендовой компоненты, после чего дать прогноз этих значений и, соединив их вместе, дать финальный прогноз значений по ряду данных.