Лекція № 4 Багатошарові нейронні мережі прямого розповсюдження
Лекція № 4 Багатошарові нейронні мережі прямого розповсюдження Проф. Куссуль Н.М.
4.1. Архітектура Мережа прямого поширення являє собою багатошарову нейронну мережу без зворотних зв'язків, у якій вихід кожного нейрона шару з'єднаний із входами всіх нейронів наступного шару, а для перетворення сигналу вхідного збудження (постсинаптичного потенціалу) кожного нейрона прихованого і вихідного шару у вихідний сигнал використовується нелінійна активаційна функція. Поріг спрацьовування, кожного нейрона реалізується за допомогою використання так називаного Bias-нейрона, вихід якого завжди має значення 1, а ваговий коефіцієнт зв'язку цього нейрона з іншими нейронами мережі налаштовується в процесі навчання (рис. 4.1).
Архітектура мережі прямого поширення (MLP) MLP (Multilayer Perceptron) - багатошарова нейронна мережа без зворотних зв'язків.
4.2. Вхідні і вихідні дані Розмірність вхідного шару мережі прямого поширення (рис. 4.1) відповідає розмірності вектора вхідних даних задачі. Розмірність вихідного шару визначається специфікою конкретної задачі. Вектор, що містить пару векторів (вхідний і цільовий вектори), називається також образом або елементом навчальної вибірки (навчальної множини). Множина образів складає епоху — послідовність образів довільної розмірності, що включає в себе образи всіх можливих типів (класів). Кожен вхідний вектор перетворюється мережею у вихідний вектор, розмірність якого визначається типом задачі (класифікація або інтерполяція) і збігається з розмірністю вихідного шару мережі.
4.3. Режими роботи Мережі прямого поширення можуть функціонувати в трьох режимах: Навчання — настроювання вагових коефіцієнтів. Тестування — перевірки ефективності навчання на незалежних даних. Прогін — формування вихідних даних на основі перетворення мережею вхідної інформації при налаштованих вагових коефіцієнтах зв'язків між шарами.
Приклад – задача класифікації земного покриву за супутниковими даними Дано – супутникові знімки різних апаратів (різна кількість каналів) різного розрізнення (Часового та просторового) Завдання – побудувати “Маску” сільгоспкультур Розв’язання задачі: 1. Сформувати навчальну та тестову (незалежну) вибірку 2. Навчити класифікатор 3. Перевірити точність на незалежних тестових даних 5. Використовувати в операційному режимі
Супутникові дані: RapidEye (5 м)
LISS-III (30 м)
Landsat-5 (30 м)
10 Картографування природного рослинного покриву (ceреднє розрізнення) Дані Landsat-7/ETM+ Розрізнення 30 м Точність класифікації до 88.93%
Проект JRC: оцінка площ посівів Used operationally JRC of EU USDA
Стратифіковані наземні дослідженння
Формування навчальної вибірки
14 Картографування природного рослинного покриву (ceреднє розрізнення) Дані Landsat-7/ETM+ Розрізнення 30 м Точність класифікації до 88.93%
4.4. Режим прогону Інформація від шару n до виходу шару n+1 поширюється так : , або у векторній формі , (4.1) Де n — номер шару; j — індекс нейрона в шарі ; f — нелінійна активаційна функція шару n+1; ; — вихід нейрона шару ; — постсинаптичний потенціал (4.2) — ваговий коефіцієнт зв'язку нейрона шару n з нейроном шару n+1 ; — поріг нейрона шару
Режим навчання з вчителем Рис. 4.2.
Вагові коефіцієнти всіх зв'язків налаштовуються в процесі навчання мережі. Для навчання мереж прямого поширення традиційно використовуються різні варіанти методу зворотного поширення похибки*. Термін “зворотнє поширення похибки” (Вack Propagation — ВР) означає: – ефективний метод обчислення похідних ; – алгоритм оптимізації з використанням цих похідних, що дозволяє налаштовувати вагові коефіцієнти з метою мінімізації помилки. Рис. 4.3 Обчислення сигналу похибки *Цей метод розробили Werbos та Parker, а розповсюдили Rumelhart та Hinton. Метод зворотного поширення похибки
Оптимізація вагових коефіцієнтів за методом градієнтного спуску За визначенням, напрямок градієнта відповідає напрямку найшвидшого зростання функціонала Значить для мінімізації необхідно змінювати вагові коефіцієнти в протилежному напрямку: (4.8) де — коефіцієнт навчання — мала додатна константа. Зазвичай Чим менше , тим довший процес збіжності. Спочатку мережа ініціалізується випадковими ваговими коефіцієнтами з діапазону . Таким чином, (4.9)
Рис. 4.4. Загальний вектор градієнта Існує два основних варіанти методу зворотного поширення похибки: on-line (некумулятивний) off-line (кумулятивний) Варіанти методу зворотного поширення похибки
Варіанти методу зворотного поширення похибки Некумулятивний метод передбачає модифікацію вагових коефіцієнтів після обчислення для кожного образу (рис. 4.5, б): У кумулятивному методі обчислюється узагальнений вектор градієнта для вибірки (рис. 4.4) а потім відбувається модифікація вагових коефіцієнтів Кожен прохід по навчальній вибірці називається епохою.
Кумулятивний та некумулятивний метод навчання мережі Рис. 4.5 Процес зміни вагових коефіцієнтів при кумулятивному та некумулятивному способі навчання показано на рис. 4.5.
Сигнал похибки Функціонал похибки (середнбоквадратична похибка) - сума по кожному з образів p навчальної вибірки (4.3) (4.4) (4.5) Позначимо – сигнал похибки (4.6)
Обчислення сигналу похибки Враховуючи отримаємо
Обчислення похідних Повертаючись до (4.5) (4.5) з врахуванням та (4.6) (4.6) маємо
Алгоритм зворотного поширення похибки Функціонування цього методу може бути описане у вигляді наступного алгоритму: 1. На вхід мережі подається вхідний вектор з навчальної вибірки. 2. Виконується прогін мережі (прямий прохід), і обчислюється реальний вихід, що відповідає даному входу (відповідно до приведених вище формул). 3. Отриманий вихід порівнюється з цільовим виходом для даного вхідного вектора й обчислюється похибка на виході мережі. 4. Обчислюється похідна функції помилки по кожному з вагових коефіцієнтів мережі. 5. Вагові коефіцієнти налаштовуються таким чином, щоб мінімізувати похибку на виході мережі. 6. Здійснюється перехід до п. 1. Процедура повторюється доти, доки похибка не потрапить у припустимі межі або доки не буде досягнуто задане число ітерацій.
4.10. Стандартні модифікації методу зворотного поширення 4.10.1. Фактор моменту - надає інертності системі (4.10) Експоненціальне середнє градієнта
4.10.2. Зниження вагових коефіцієнтів (weight decay) Використовується для приведення у відповідність структури мережі складності проблеми: якщо мережа занадто велика, то багато вагових коефіцієнтів можна обнулити. Для цього зменшують амплітуди вагових коефіцієнтів за формулою . (4.12) Зазвичай 4.10. Стандартні модифікації методу зворотного поширення
4812-is(lekciya_4_1).ppt
- Количество слайдов: 27