Ймовірнісна нейронна мережа в задачах класифікації

Виходи мережі можна інтерпретувати, як оцінки імовірності приналежності елемента до певного класу. Ймовірнісна мережа (Probabilistic Neural Network – PNN) вчиться оцінювати функцію щільності імовірності, її вихідний сигнал розглядається як очікуване значення характеристики моделі у даній точці простору входів. Це значення пов'язано із щільністю імовірності загального розподілу вхідних і вихідних даних.

Задача оцінки щільності імовірності відноситься до області байєсовської статистики. Звичайна статистика по заданій моделі показує, яка імовірність того або іншого виходу (наприклад, на гральному кубику 6 очок буде випадати в середньому в одному випадку із шести). Байєсовська статистика інтерпретує по іншому: правильність моделі оцінюється по наявним достовірним даним, тобто дає можливість оцінювати щільність імовірності розподілу параметрів моделі по наявним даним. При вирішенні задачі класифікації можна оцінити щільність імовірності для кожного класу, порівняти між собою імовірності приналежності різним класам і вибрати найбільш ймовірний. Традиційний підхід до задачі полягає в тому, щоб побудувати оцінку для щільності імовірності за наявними даними. Звичайно при цьому передбачається, що щільність має деякий певний розподіл (найчастіше – що вона має нормальний розподіл). Після цього оцінюються параметри моделі.

Інший підхід до оцінки щільності імовірності оснований на ядерних оцінках. Можна міркувати так: той факт, що результат спостереження розташований в даній точці простору, свідчить про те, що в цій точці є деяка щільність імовірності. Кластери з близько лежачих точок указують на те, що у цьому місці щільність імовірності велика. Поблизу спостереження є більша довіра до рівня щільності, а по мірі віддалення від нього довіра зменшується і прямує до нуля. У методі «ядерних оцінок» у точці, що відповідає кожному спостереженню, розміщується деяка проста функція, потім усі вони додаються й в результаті отримується оцінка для загальної щільності імовірності. Найчастіше у якості «ядерних функцій» беруться гаусові функції (із формою дзвону). Якщо навчальних прикладів достатня кількість, то такий метод дає досить гарне наближення до істинної щільності імовірності.

Ця мережа має вхідний, радіальний (схований) і вихідний шари. Радіальні елементи прихованого шару беруться по одному на кожне навчальне спостереження. Кожен з них представляє гаусову функцію з центром у цьому спостереженні. Кожному класу відповідає один вихідний елемент. Кожен такий елемент з'єднаний із усіма радіальними елементами, що відносяться до його класу, а із усіма іншими радіальними елементами він має нульове з'єднання. Таким чином, вихідний елемент просто додає відгуки всіх елементів, що належать до його класу. Значення вихідних сигналів виявляються пропорційними «ядерним оцінкам» імовірності приналежності відповідним класам, і пронормувавши них на одиницю, ми дістаємо остаточні оцінки імовірності приналежності класам.

Базова модель мережі може мати дві модифікації. У першому випадку ми припускаємо, що пропорції класів у навчальній множині відповідають їх пропорціям у всій досліджуваній популяції (або так званим апріорним ймовірностям). Наприклад, якщо серед усіх людей хворими є 2%, то в навчальній множині для мережі, що діагностує захворювання, хворих повинне бути теж 2%. Якщо ж апріорні імовірності будуть відрізнятися від пропорцій у навчальній вибірці, то мережа буде видавати неправильний результат. Це можна згодом врахувати (якщо стали відомими апріорні імовірності), вводячи поправочні коефіцієнти для різних класів.

Другий варіант модифікації заснований на наступній ідеї. Будь-яка оцінка, що видається мережею, ґрунтується на зашумлених даних і неминуче буде приводити до окремих помилок у класифікації (наприклад, у деяких хворих результати аналізів можуть бути цілком нормальними). Іноді буває доцільно вважати, що деякі види помилок обходяться "дорожче" інших (наприклад, якщо здорова людина буде діагностована як хвора, то це викличе зайві витрати на його обстеження, але не створить загрози для життя; якщо ж не буде виявлений дійсно хворий, о це може привести до смертельного результату). У такій ситуації ті імовірності, що видає мережа, варто помножити на коефіцієнти втрат, що відбиває відносну ціну помилок класифікації.

Найбільш важливі переваги розглянутих мереж полягають у тому, що вихідне значення має ймовірнісний зміст і тому його легше інтерпретувати), і у тім, що мережа швидко навчається. При навчанні такої мережі час витрачається практично тільки на те, щоб подавати їй на вхід навчальні спостереження, і мережа працює настільки швидко, наскільки це взагалі можливо.

Істотним недоліком таких мереж є їхній обсяг у порівнянні з MLP моделями, що вирішують аналогічні задачі. Нейронна мережа фактично вміщує в себе всі навчальні дані, тому вона вимагає багато пам'яті і може повільно працювати.