Багатошаровий персептрон

У даний час для вирішення прикладних задач найчастіше використовуються так звані багатошарові нейронні мережі прямого поширення (Multilayer Perceptron MLP) із нелінійною функцією активації, що дозволяє істотно розширити область розв'язуваних мережею задач. На рис. 8.4 приведена схема побудови тришарової мережі прямого поширення. Така мережа теоретично може апроксимувати будь-яку багатомірну функцію з кожною, наперед заданою точністю [Колмогоров] – питання стосується лише кількості нейронів, розмірів мережі і часу навчання.

Задачі моделювання для нейронної мережі зводяться до налаштування всіх її вагових коефіцієнтів, що проводиться на «навчальній множині».

Як відомо, рівнем активації елемента називається зважена сума його входів із доданим до неї граничним значенням. Таким чином, рівень активації являє собою просту лінійну функцію входів.

Ця активація потім перетворюється за допомогою нелінійної (часто – «сігмавидної», що має S-подібну форму) кривої.

Комбінація лінійної функції кількох змінних і скалярної «сігмавидної» функції призводить до характерного профілю «сігмавидного схилу», що видає елемент першого проміжного шару MLP. При зміні ваг і порогів змінюється і поверхня відгуку. При цьому може змінюватися як орієнтація всієї поверхні, так і крутизна схилу. Великим значенням ваг відповідає більш крутий схил. Так, якщо збільшити усі ваги в два рази, то орієнтація не зміниться, а нахил буде більш крутим.

 
 

Рис. 0.4. Схема побудови тришарової мережі

У багатошаровій мережі подібні функції відгуку комбінуються одна з одною шляхом утворення їхніх лінійних комбінацій і застосування нелінійних функцій активацій

Перед початком навчання мережі вагам і порогам випадковим образом присвоюються невеликі за величиною початкові значення. Тим самим відгуки окремих елементів мережі мають малий нахил і орієнтовані хаотично – фактично вони не пов'язані одна з іншою. У міру того, як відбувається навчання, поверхні відгуку елементів мережі повертаються і зсуваються у потрібне положення, а значення ваг збільшуються, оскільки вони повинні моделювати окремі ділянки цільової поверхні відгуку.

У задачах класифікації вихідний елемент повинен видавати сильний сигнал у випадку, якщо дане спостереження належить до класу, що нас цікавить, і слабкий – у протилежному випадку. Інакше кажучи, цей елемент повинен прагнути змоделювати функцію, рівну одиниці у тій області простору об'єктів, де розташовуються об'єкти потрібного класу, і рівну нулю поза цією областю. Така конструкція відома як дискримінантна функція в задачах розпізнавання. "Ідеальна" дискримінантна функція повинна мати плоску структуру, так, щоб точки відповідної поверхні розташовувалися або на нульовому рівні, або на висоті одиниця.

Якщо мережа не містить прихованих елементів, то на виході вона може моделювати тільки одинарний "сігмавидний схил": точки, що знаходяться по одну його сторону, розташовуються низько, по іншу – високо. При цьому завжди буде існувати область між ними (на схилі), де висота приймає проміжні значення, але в міру збільшення ваг ця область буде звужуватися.

У задачах класифікації дуже важливо зрозуміти, як варто інтерпретувати ті точки, що потрапили на схил або лежать близько від нього. Стандартний вихід тут полягає в тому, що для граничних значень встановити деякі довірчі границі (прийняття або відкидання), що мають бути досягнуті, щоб даний елемент вважався "таким, що прийняв рішення". Наприклад, якщо встановлені пороги прийняття/відкидання 0,95/0,05, то при рівні вихідного сигналу, що перевершує 0,95 елемент вважається активним, при рівні нижче 0,05 – неактивним, а в проміжку – "невизначеним".

Є і більш тонкий спосіб інтерпретувати рівні вихідного сигналу: вважати їх імовірностями. У цьому випадку мережа видає трохи більшу інформацію, чим просто "так/ні": вона повідомляє нам, наскільки (у деякому формальному смислі) ми можемо довіряти її рішенню. Розроблено модифікації моделі MLP, що дозволяють інтерпретувати вихідний сигнал нейронної мережі як імовірність, у результаті чого мережа власне кажучи вчиться моделювати щільність імовірності розподілу даного класу.