Некоторые конструкции целесообразных асимптотически-оптимальных симметрических автоматов

 

Рассмотрим некоторые конструкции автоматов и их поведение в стационарной случайной среде . Стационарная случайная среда означает, что за действие среда с вероятностью получает вознаграждение, а с вероятностью штраф. За второе действие среда выдает поощрение с вероятностью , а с вероятностью - штраф.

 

1. Автоматы с линейной тактикой, предложенные М.Л. Цетлиным [3].

 

Рассмотрим простейший пример автомата, обладающего целесообразным поведением. Рассмотрим автомат , имеющий два состояния памяти и и два действия и . Автомат сохраняет свои состояния (действия) при выигрыше и изменяет при проигрыше. Матрицы состояний имеют вид , . Графы переходов состояний имеют вид

 

 

Рисунок 1

 

Найдем математическое ожидание выигрыша этого автомата в стационарной случайной среде С( ). Обозначим через ( ) финальную вероятность действия . Тогда:

,

.

Учитывая условие нормировки - , имеем:

,

.

Тогда математическое ожидание выигрыша автомата А в среде С определяется как:

.

Если автомат выбирает свои действия независимо от реакций среды и равновероятно, то математическое ожидание его выигрыша

.

Очевидно, что при , т.е. автомат обладает целесообразным поведением в стационарной случайной среде С ( ).

 

Рассмотрим автомат (с линейной тактикой), являющийся естественным обобщением автомата . Он имеет 2m состояний и два различных действия и . Графы переходов состояний имеют вид (рисунок 2):

 

Рисунок 2

 

Рассмотрим поведение автомата в стационарной случайной среде . Пусть > . Докажем целесообразность его поведения, показав, что он выбирает с большей вероятностью то действие, у которого предпочтение больше: .

Имеем дискретную цепь Маркова, задающую поведение системы “автомат – среда”. Как и раньше, ( ) - финальная вероятность действия . Зададим ; . Найдем финальную вероятность каждого действия , а затем математическое ожидание выигрыша.

……..

……….

- Условие нормировки

=

=

….

, если

 

 

….

> , если

 

Мат. ожидание выигрыша возрастает, значит эти автоматы целесообразны.

Замечание: Если рассмотреть последовательность таких автоматов, у которых память , то такая последовательность автоматов называется асимптотически-оптимальной.

 

Автомат с линейной тактикой является обобщением конструкций М.Л. Цетлина, рассмотренных выше. Автомат имеет внутренних состояний и действий (параметр - глубина памяти). Состоянием автомата соответствует выходное действие . При = +1 (поощрении) автомат не меняет своего действия и из состояния переходит в состояние , а в состоянии остаётся. При = -1 (штрафе) из состояния переходит в состояние при и в состояние при , меняя своё действие на ( ) или на ( ). Граф смены состояний приведён на рисунке 3.

Рисунок 3

 

Автомат с линейной тактикой также является целесообразным в стационарной случайной среде С( ), и относится к асимптотически-оптимальной последовательности автоматов.

 

2. Автомат Крылова .

 

Рисунок 4

 

Добавляем условие нормировки:

Тогда из первого уравнения получаем:

Итак, , если . Т.е. математическое ожидание выигрыша возрастает, значит, эта конструкция обладает целесообразностью поведения.

Автоматы Крылова образуют асимптотически-оптимальную последовательность во всех стационарных случайных средах.

Аналогично, можно доказать целесообразность поведения автоматов, представленных ниже [2,3].

 

3. Автомат Роббинса

 

Рисунок 5

 

4. Автомат Кринского (“доверчивый” автомат)

 

Рисунок 6

 

5. Автомат Вайсборда

 

Рисунок 7

 

Запишем финальные вероятности состояний:

….

Автомат обладает целесообразностью поведения, т.к. , если .

 

6. Стохастический автомат с линейной тактикой . Данная конструкция представляет собой стохастический вариант автомата с линейной тактикой М.Л. Цетлина. При входном сигнале S автомат с вероятностью осуществляет те же переходы, что и автомат при таком же входном сигнале, а с вероятностью автомат осуществляет такие же переходы, которые осуществляет автомат при противоположном входном сигнале. При =1 стохастический автомат становится детерминированным автоматом с линейной тактикой. Автомат при является целесообразным в стационарной случайной среде С и относится к асимптотически-оптимальной последовательности автоматов.

 

 

Рисунок 8

 

 

7. Автомат Валаха (с избирательной тактикой)

 

S = +1

S = 1

 

Рисунок 9

 

Граф смены состояний автомата Валаха аналогичен графу стохастического автомата с линейной тактикой, только при S = +1 вместо , вместо : , а в случае S = -1 вместо , вместо :