Вероятности, достоверности и байесовские сети доверия

Для решения проблемы правильной обработки знаний в условиях неопределенно­сти с применением научно обоснованного метода, который одновременно успешно применяется на практике, разработаны байесовские сети доверия, называемые также просто байесовскими сетями. В этом разделе показано, что такие две характеристи­ки, как научная обоснованность и практическая применимость, являются трудно достижимыми одновременно, но байесовские сети доверия служат хорошим решени­ем. Вначале определим тему для обсуждения.



Часть II. Применение языка Prolog в области искусственного интеллекта


Предположим, что состояние "мира" определено с помощью вектора переменных, которые принимают значения случайным образом из своих областей определения (из множеств своих допустимых значений). Во всех рассматриваемых примерах опи­сание ограничивается лишь случайными логическими переменными, которые могут принимать значения "истина" или "ложь". Например, если речь идет об охране жи­лого дома, то такими переменными являются взлом (обозначаемый как "burglary") и тревожный сигнал ("alarm"). Переменная "alarm" принимает истинное значение, когда звучит тревожный сигнал, а переменная "burglary" становится истинной по­сле того, как в дом проникли посторонние. В остальных случаях эти переменные яв­ляются ложными. Состояние мира, представленного такими переменными, в опреде­ленный момент времени можно полностью описать, указав, какие значения имеют в это время все переменные.

Если переменные являются логическими, то изменения их значений вполне целе­сообразно считать событиями. Например, событие "alarm" происходит, если пере­менная alarm = true.

Предположим, что за состоянием переменных наблюдает некоторый агент (человек или экспертная система). Обычно этот агент не может с полной уверенно­стью сообщить, является ли та или иная переменная истинной или ложной. Поэтому агент может лишь рассуждать о вероятности того, что переменная является истин­ной. В этом контексте вероятности используются для оценки степени уверенности агента. Уверенность агента в том, что он действительно обладает правильной инфор­мацией, безусловно, определяется тем, каким объемом знаний об этом мире он обла­дает. Поэтому подобные оценки достоверности называются также субъективными вероятностями; под этим подразумевается, что эти вероятности зависят от носителя знаний как от оценивающего их "субъекта". В таком случае "субъективный" не оз­начает "произвольный". Хотя эти вероятности моделируют субъективные представ­ления агента о ситуации, они соответствуют исчислению вероятностей.

Введем некоторую систему обозначений. Допустим, что X и Y - высказывания; в таком случае имеет место следующее.

• X л Y. Конъюнкция высказываний X и Y.

• X v Y. Дизъюнкция высказываний X и Y

-X. Отрицание высказывания X.

Выражение р(Х) обозначает вероятность того, что высказывание X является ис­тинным, а выражение p(X|Y) обозначает условную вероятность того, что X является истинным, при условии, что истинно Y

К типичным вопросам о мире, моделируемом таким образом, относится следую­щий вопрос: "Если дано, что получены значения некоторых переменных, то какова вероятность получения значений некоторых из оставшихся переменных?" Может также рассматриваться такой вопрос: "Если известно, что наблюдались определенные события, то каковы вероятности некоторых других событий?" Например, обнаруже­но, что зазвучал тревожный сигнал. Какова вероятность того, что произошел взлом?

Основная сложность состоит в том, что нужно найти способ учета зависимостей между переменными в рассматриваемой задаче. Предположим, что в задаче учитыва­ется п логических переменных. При этом потребуется 2" - 1 чисел для определения полного распределения вероятностей среди 2* возможных состояний мира. Посколь­ку обычно количество переменных достаточно велико, то количество их сочетаний становится слишком большим! Поэтому учет всех возможных состояний становится не только непрактичным и дорогостоящим в реализации с помощью вычислительной техники, но и не допускает возможности применения разумных оценок всех необхо­димых вероятностей, поскольку отсутствует достаточный объем информации.

Но, как правило, в действительности требуются не все эти вероятности. При ис­пользовании полного распределения вероятностей не принимаются какие-либо пред­положения, касающиеся того, что некоторые переменные являются независимыми


Глава 15. Представление знаний и экспертные системы



друг от друга. Но обычно такая чрезмерная осторожность не требуется. К счастью, некоторые события действительно полностью независимы друг от друга.

Поэтому, для того чтобы рассматриваемый вероятностный подход стал примени­мым на практике, следует воспользоваться тем, что некоторые переменные не зави­сят друг от друга. Таким образом, необходимо применить удобные средства пред­ставления зависимостей между переменными и в то же время получить выигрыш (который сводится к снижению сложности) за счет наличия таких событий, которые действительно не зависят друг от друга.

Байесовские сети доверия предоставляют удобный способ определения того, ка­ким образом зависят друг от друга определенные события и какие события являются независимыми. С помощью байесовских сетей доверия эти сведения можно формали­зовать естественным и понятным способом.

На рис. 15.4 приведен пример байесовской сети с описанием системы охранной тревожной сигнализации. Датчик может сработать при взломе, когда в помещение проникает постороннее лицо, или во время сильной грозы. Предполагается, что дат­чик активизирует звуковой тревожный сигнал и предупреждающий телефонный зво­нок. Типичный вопрос, на который подобная байесовская сеть помогает найти ответ, выглядит примерно так: "Предположим, что стоит прекрасная погода и получен тре­вожный сигнал. Если известны эти дна факты, то какова вероятность взлома?"

ВЗЛОМГроза

Датчик

Тревога Звонок

Рис. 15.4. Байесовская сеть. После взлома и проник­новения в дом постороннего лица, по всей вероятно emu, происходит активизация датчика. Предполага­ется, что датчик активизирует звуковой тревож­ный сигнал и автоматический телефонный звонок с предупреждающим сообщением. Датчик может, так же сработать под действием сильной грозы

Структура этой байесовской сети показывает, что некоторые вероятности являют­ся зависимыми, а другие — независимыми. Например, по ней можно судить, что ве­роятность взлома не зависит от погоды (от грозы). Но если становится известно, что действительно возник тревожный сигнал, то при этом условии вероятность взлома больше не является независимой от грозы.

Интуитивно ясно, что связи в этой сети указывают на причинную зависимость. Взлом является причиной активизации датчика. Датчик, в свою очередь, может вы­звать тревожный сигнал. Поэтому структура данной сети позволяет формировать примерно такие рассуждения: если действительно прозвучал тревожный сигнал, то взлом становится вероятным как одна из причин, которыми объясняется появление тревожного сигнала. Если затем обнаруживается, что в это время была сильная гро­за, взлом становится менее вероятным. Появление тревожного сигнала можно объяс­нить также другой причиной, грозой, поэтому вероятность первой возможной причи­ны уменьшается.

В этом примере рассуждения были и диагностическими, и прогностическими: зная о том, что действительно был тревожный сигнал (последствие или признак взлома), мы поставили диагноз, что этот сигнал мог быть вызван взломом. Затем мы узнали о грозе и сформулировали прогноз, что она также могла вызвать появление тревожного сигнала.

Теперь определим более формально, что именно обозначено связями в байесовской сети и какого рода вероятностные выводы могут быть сделаны с помощью данной байесовской сети.



Часть II. Применение языка Prolog в области искусственного интеллекта


Вначале необходимо ввести определение, что узел Z является потомком узла X, если согласно ориентированным связям в сети имеется путь от X до Z.

Теперь предположим, что узлы Yi, Y2, ... являются родительскими узлами узла X в байесовской сети. По определению в байесовской сети подразумевается использова­ние следующего полезного отношения, определяющего вероятностную независимость: узел X не зависит от узлов, не являющихся его потомками, если известны его роди­тельские узлы. Поэтому, чтобы вычислить вероятность X, достаточно принять во внимание вероятности дочерних узлов X и родительских узлов X, Yi, Y; и т.д. Все возможные влияния других переменных на X можно учесть с помощью родительских узлов X

Оказалось, что такая трактовка связей в байесовской сети предоставляет практи­ческую возможность, во-первых, определять вероятностные отношения между пере­менными в моделируемом мире и, во-вторых, отвечать на вопросы об этом мире.

Чтобы понять, каким образом байесовская сеть используется для представления знаний о моделируемом мире, снова рассмотрим пример сети, приведенный на рис. 15.4. Прежде всего, структура этой сети показывает, какие переменные являют­ся зависимыми и независимыми друг от друга.

Кроме того, связи имеют также естественную причинно-следственную интерпре­тацию. Чтобы уточнить эту интерпретацию, необходимо определить некоторые веро­ятности, т.е. присвоить им какие-то конкретные числовые значения. Для узлов, ко­торые не имеют родительских узлов (коренных причин), задаются априорные вероят­ности. В данном случае коренными причинами являются взлом и гроза. Для других узлов X необходимо задать условные (апостериорные) вероятности в следующей форме: р( X | Состояния родительских узлов узла X)

Активизация датчика (обозначим это событие сокращенно как sensor) имеет две родительские причины: взлом (burglary) и гроза (lightning). Существуют четыре возможные комбинации состояний этих двух родительских причин: взлом и гроза, взлом и отсутствие грозы и т.д. Эти сочетания состояний можно записать в виде ло­гических формул: burglary л lightning, burglary л --lightning и т.д. Поэтому полная спецификация рассматриваемой байесовской сети может быть представлена следующим образом: p(burglary) = 0.001 pUightning; - 0.02

p(sensor I burglary л lightning) - 0.9 p(sensor 1 burglary л -lightning) =0.9 plsensor I -burglary л lightning) =0.1 p [sensor 1 -burglary л -lightning) = 0.001 p(alarm I sensor) = 0.95 pialarm I -sensor) = 0.001 p(call I sensor) » 0.9 ploall I -sensor) = o.o

В этой полной спецификации определены 10 вероятностей. Если бы структура данной сети не была задана (т.е. не было указано, какие события являются незави­симыми), то для полной спецификации потребовалось бы определить 31 вероятность (2s - 1 = 31), поскольку для мира, моделируемого л логическими переменными, количество возможных состояний равно 2". Поэтому в результате определения струк­туры этой сети удалось уменьшить количество рассматриваемых комбинаций с 31 до 10. В сети с большим количеством узлов сокращение объема обрабатываемой инфор­мации, безусловно, становится еще более значительным.

Степень сокращения объема обработки информации определяется характером конкретной задачи. Если каждая переменная в рассматриваемой задаче зависит от какой-либо другой переменной, то, безусловно, общее количество анализируемых комбинаций сократить невозможно. А если задача допускает сокращение этого коли­чества, то степень сокращения зависит от структуры байесовской сети доверия. Для решения одной и той же задачи могут быть сформированы разные байесовские сети


Глава 15. Представление знаний и экспертные системы



доверия, причем некоторые сети являются более подходящими по сравнению с дру­гими. Общее правило состоит в том, что в качественно сформированных сетях сохра­няются причинные зависимости между переменными. Это означает, что если X явля­ется причиной .', то от X к Y должна быть проведена ориентированная связь. Напри­мер, хотя в проблемной области охраны от взломов возможно сформировать рассуждения от анализа тревожного сигнала к анализу взлома, это может привести к созданию громоздкой сети, если ее разработка начнется с проведения связи от узла, представляющего тревожный сигнал, к узлу, представляющему взлом. При таком подходе в сети придется применить больше связей. К тому же будет сложнее оценить требуемые вероятности в направлении, не обусловленном очевидными причинами, таком как р (burglaryialarm).