Примеры и гипотезы

Чтобы ввести определенную терминологию, рассмотрим следующую гипотетиче­скую проблему изучения того, является ли гриб съедобным или ядовитым. Напри­мер, предположим, что было собрано определенное количество грибов и для каждого из них получено мнение эксперта. Допустим, что каждый гриб можно достаточно полно описать по его высоте и ширине (необходимо сделать оговорку, что это лишь пример и такое предположение просто нереально!). В этом случае применяется фор­мулировка, что каждый из рассматриваемых примеров объектов имеет два атрибута: высоту и ширину (в сантиметрах). На сей раз оба атрибута являются числовыми. Кроме того, для каждого примера гриба указан также его класс — "ядовитый" или "съедобный", С точки зрения изучения понятия "съедобный" эти два значения клас­са могут быть соответствующим образом обозначены с помощью знаков "+ " (съедобный) и "-" (несъедобный). Согласно этому, указанные съедобные грибы явля­ются положительными примерами, а ядовитые — отрицательными примерами поня­тия "съедобный".

На рис. 18.1 показаны данные, применяемые для обучения. Таким образом, нау­читься распознавать грибы означает приобрести способность отнести новый гриб к одному из двух классов, "+ " или "-". Теперь предположим, что нам предъявлен но­вый гриб, который имеет атрибуты И = 3, Н = 1. Является ли он съедобным или ядовитым? Рассматривая примеры, приведенные на рис. 18.1, большинство людей без колебаний отвечают "съедобный". Безусловно, нет никакой гарантии, что именно этот гриб действительно является съедобным, и такое утверждение для многих ста­новится неожиданным. Поэтому данная классификация все еще относится к области гипотез. Но эта гипотеза выглядит весьма вероятной, поскольку значения атрибутов этого гриба аналогичны атрибутам многих известных съедобных грибов, но отлича­ются от всех ядовитых грибов. Как правило, основное допущение в машинном обуче­нии состоит в том, что объекты, которые в определенной степени выглядят анало­гичными Друг другу, принадлежат к одному и тому же классу. В общем, наш мир к нам снисходителен, поскольку в реальной жизни это допущение о принадлежности похожих друг на друга объектов к одному и тому же классу обычно оправдывается. Именно поэтому появляется возможность организовать машинное обучение на при­мерах. Но остается нерешенным еще один вопрос — как определить, что два объекта аналогичны, а другие два - нет. Каковым является явный или неявный критерий аналогичности? Обучающиеся системы в значительной степени отличаются друг от друга именно в этом отношении.

По тем же признакам аналогичности еще один гриб с размерами w - 5 и Н = 4, вполне очевидно, может оказаться ядовитым. Но в отношении гриба с размерами VI = 2 и

410 Часть II. Применение языка Prolog в области искусственного интеллекта


 


Н = 2 решение принять сложнее, и любой вариант его классификации кажется не­обоснованным и рискованным.

Обычно результатом обучения становится описание понятия, или создание клас­сификатора, позволяющего определять принадлежность новых объектов к конкрет­ному классу. Такой классификатор может быть определен различными способами с использованием разных формальных представлении. Для таких формальных пред­ставлений есть еще одно название — языки описания понятий, или языки гипотез. Они именуются языками гипотез по той причине, что позволяют описать гипотезы ученика в отношении целевого понятия, сформулированные на основе обучающих данных. Обычно ученик не совсем уверен в том, что гипотеза, полученная на основе этих данных, действительно соответствует целевому понятию.

К


I


+

4 4 + 4 4 + 4

I


W

Ли?. 18.1. Примеры для обучения способности раз­личать грибы. Атрибутами являются размеры гриба - w (ширина) и И (высота). Знаками плюс" обозначены примеры съедобных грибов, а знаками "минус" - ядовитых

Ниже приведены некоторые возможные гипотезы, которые могут быть выведены на основании данных о грибах.

Гипотеза 1:

если 2 < w и w < 4 и н < 2, то "съедобный", иначе "ядовитый" Гипотеза 2:

если Н > и, то "ядовитый", иначе если Н > 6 - К, то "ядовитый",

иначе "съедобный" Гипотеза 3:

если Н < 3 - w - Щг, то "съедобный", иначе "ядовитый"

Эти гипотезы показаны графически на рис. 18.2. Все они сформулированы в виде правил вывода. Еще одним языком гипотез, который широко применяется в области машинного обучения проблематики искусственного интеллекта, являются деревья решения. Гипотеза 1 представлена в виде дерева решения на рис. 18.3.

Все эти три гипотезы являются совместимыми с данными — они позволяют отне­сти все учебные объекты к тому же классу, который указан в этих примерах. Но при классификации новых объектов между этими гипотезами возникают различия. На­пример, согласно гипотезе 1 гриб с размерами И = 3 иН = 2.5 относится к ядови­тым, а согласно гипотезам 2 и 3 этот гриб является съедобным. С точки зрения по­нятия "съедобный" гипотезу 1 можно назвать наиболее конкретной из этих трех ги­потез, а гипотезы 2 и 3 с этой точки зрения считаются более общими, чем гипотеза 1. Множество грибов, являющихся ядовитыми согласно гипотезе 1, представляет со­бой подмножество тех грибов, которые соответствуют гипотезе 2 или 3. С другой сто­роны, гипотеза 2 не является ни более общей, ни более конкретной, чем гипотеза 3.


Глава 18, Машинное обучение



н

    -  
ъ -  
  - J - /У   V, - "
/' / * i г • 1 / Ч- + + + + + + + + + \\


W


Рис. 18Л Три гипотет о съедобных грибах; область действия гипотезы 1 обозначена сплошной, линией., ги­потезы 2 - штриховой, гипотезы3 •••- пунктирной


W<2

Истина / \ Ложь

/ V

W>4

w

Н>2 Ложь / \ Истина

Ложь у/ \^ Истин Н>2

/ V


Рис. 18.3. Гипотеза 1, представленная в виде дерева решения. Внутренние узлы дерева обозначены атри бутами, листья —названиями классов, а ветви со ответствуют значениям атрибутов. Например, самая левая ветвь соответствует w < 2, а самый левый лист указывает, что соответствующий ему гриб является ядовитым (имеет, класс "-"). Объ­ект соответствует определенному листу, если он удовлетворяет всем условиям на пути от корня к данному листу