Шаг улучшения стратегии

Для каждого состояния i определяется альтернатива k, обеспечивающая следующее:

 

 

В качестве величины принимаются значения, получаемые на шаге 1. Результирующее оптимальное значение k для состояний i= формируют новую стратегию t.

 

Если S и t совпадают, то вычисления заканчиваются. В противном случае принимается, что S=t и производится к шагу 1. Стратегии S=(111) и t=(122) не равны, следовательно, осуществляется переход к шагу 1.

 

Согласно t=(122) выбираются матрица переходных вероятностей 8 и матрица дохода 8, подсчитывается матрица 8 одношаговых доходов и решается система уравнений:

 

Решение системы заносятся в таблицу:

Далее проводится улучшение стратегии, представленное ниже в таблицах:

Стратегии S=(122) и t=(122) равны, следовательно, следующего шага нет.

Примечание: колонка Nus – это максимальные значения дохода.