Снижение размерности путем выделения «ведущих» показателей

 

Рассмотрим сокращение размерности задачи прогнозирования путем разделения всей совокупности показателей G на две группы: «ведущую» – G1 (прогнозируемую самостоятельно) и «ведомую» – G2 (прогнозируемую на основе моделей связи с «ведущими» показателями [10], [13]. Естественным условием возможности отнесения показателя к группе «ведомых» является достаточная теснота его статистической связи с группой G1, что должно обеспечить приемлемую точность его прогноза. Так, если показатель Pi тесно связан с показателем Pj ( ), то к группе «ведущих» достаточно отнести один из них.

Очевидно также, что если показатель Pi не имеет значимой статистической связи ни с одним из остальных показателей, его следует отнести к группе «ведущих».

В общем случае вопрос разделения показателей на группы G1 и G2 достаточно сложен. При решении этой проблемы зададимся целью обеспечить минимум количества показателей в группе G1 при заданной тесноте корреляционной связи «ведомых» показателей с «ведущими». Последнее условие относится к каждому из «ведомых» показателей и выступает в виде следующего ограничения:

, (4.15)

где – коэффициент множественной корреляции «ведомого» показателя Pi с группой G1;

R0 – минимально допустимый коэффициент множественной корреляции.

Изложенная задача является задачей оптимизации по составу группы «ведущих» показателей при наличии ограничений и в описанной выше постановке может приводить к нескольким решениям, которые не являются равнозначными в смысле величины .

Поэтому среди множества решений следует выбирать решение, обеспечивающее максимальное значение

. (4.16)

 

 

Иначе говоря, необходимо найти вариант разделения х, обеспечивающий

, (4.17)

где Х – множество решений (вариантов разбиения) следующей оптимизационной задачи:

 

Найти при условии , (4.18)

где q(x) – количество «ведущих» показателей при варианте разбиения х.

Описанная задача является комбинаторной задачей дискретного программирования со сложной системой ограничений, не сводящейся к задаче целочисленного линейного программирования. Однако ее спецификой, которой мы воспользуемся, является неубывание коэффициента множественной корреляции «ведомого» показателя с группой «ведущих» при добавлении в группу «ведущих» еще одного показателя, что непосредственно следует из определения коэффициента множественной корреляции как коэффициента корреляции с максимально коррелированной линейной функцией переменных.

Это означает, что если имеется решение с q «ведущими» показателями, то найдется допустимое решение и с q+1 «ведущими» показателями, однако все варианты, содержащие q+1 и более «ведущих» показателей хуже с точки зрения критерия оптимизации и могут быть отброшены. Кроме того, если не существует допустимого решения с q «ведущими» показателями, то не существует и допустимого решения с количеством «ведущих» показателей, меньшим q. Эти подмножества вариантов также следует отбросить.

На основании изложенных выше соображений разработан алгоритм решения задачи – А1, существо которого заключается в следующем.

На первом этапе находим минимальное количество «ведущих» показателей – q. Поиск осуществляется путем последовательного половинного деления отрезка возможных значений (qн, qв)

,

где qн – нижняя граница возможного значения q;

qв – верхняя граница возможного значения q.

Очевидно, что первоначально qн =0, qв =n. При найденном значении qT производится перебор различных вариантов разделения показателей на «ведущие» и «ведомые» до получения первой комбинации, удовлетворяющей ограничению (4.15). В этом случае значение qT становится верхней границей. Если при данном qT не нашлось ни одного варианта разделения, удовлетворяющего условию (4.15), то значение qT становится нижней границей. Процесс половинного деления отрезка (qн ; qв ) продолжается до тех пор, пока величина qн - qв не станет равной 1. Это означает, что текущее значение qв является минимально возможным.

На втором этапе для найденного значения q путем полного перебора Cnq вариантов с q «ведущими» показателями находим вариант разделения, обеспечивающий

.

Алгоритм А1 приводит к оптимальному решению задачи разделения показателей на «ведущие» и «ведомые» в смысле сформулированного выше критерия, однако его недостатком являются значительные затраты машинного времени, связанные с необходимостью перебора значительного количества вариантов при большом n.

В качестве показателя эффективности сокращения размерности задачи прогнозирования, как и в ФА, будем понимать отношение количества сокращенных показателей к их первоначальному числу

.

Очевидно, что величина Е зависит от задаваемого значения R0. Уменьшение R0 приводит к сокращению большего числа показателей, однако увеличивает погрешность прогноза «ведомых» показателей, и наоборот. Можно рекомендовать использовать на практике величину R0, равную 0,8, что соответствует понятию достаточно тесной корреляционной связи.