1d742c947bb294b1c086802f5618fe45.ppt
- Количество слайдов: 14
АДАПТИВНАЯ ОПТИМИЗАЦИЯ СЕРВЕРА , ОБРАБАТЫВАЮЩЕГО ОЧЕРЕДЬ ЗАДАНИЙ Дипломная работа студента 545 группы Ле Чунг Хьеу Научный руководитель : О. Н. Граничин Рецедент : А. С. Лопатин Санкт – Петербург 2007
ВВЕДЕНИЕ Проблема эффективного обслуживания сервером очереди заданий. Рандомизированный алгоритм стохастической аппроксимации. Обучение с подкреплением.
ПОСТАНОВКА ЗАДАЧИ Рассмотрим задачу повышения эффктивности сервера: L(x) – среднее время ожидания клиентами. q(x) – стоимость исползования параметра x. y(x) – время, которое задание ожидало в сервере до момента своего завершения. Требуется найти параметра θ : f(x) → min по x ( Θ )
ПОСТАНОВКА ЗАДАЧИ Эту задачу оптимизации не решить традиционными средствами. F(x, ω) – эмпирическая функция. f(x) = E{F(x, ω)}. Ft(x, ω) – случайная функция дескретного времени t = 1 , 2 , . . . ft(x) = Eω{Ft(x, ω)}. θt = argminxft(x). Требуется по наблюдениям Ft(x, ω) → {θn} |θn - θt|→ min.
ОБУЧЕНИЕ С ПОДКРЕПЛЕНИЕМ o Обучение с подкреплением, представляет класс задач, в которых агент, действуя в определенной среде, должен найти оптимальную стратегию взаимодействия с ней. Цель агента – максимизировать суммарную награду.
ОБУЧЕНИЕ С ПОДКРЕПЛЕНИЕМ Оценочная Функция : RL алгоритмы основано на оценке оценочной функцией. Оценка Стратегии. Усовершенствование Стратегии. Повторение Стратегии.
РАНДОМИЗИРОВАННЫЕ АЛГОРИТМЫ СТОХАСТИЧЕСКОЙ АППРОКСИМАЦИИ Пусть по второму аргументу. - дифференцируемая Наблюдении Требуется по наблюдениям : y 1 , y 2 , . . . построить последовательность оценок {θn} вектора θ : .
SPSA ДЛЯ РЕШЕНИЯ ЗАДАЧИ О СЕРВЕРЕ 1. 2. 3. 4. 5. 6. Положим k = 0 и выберем некоторое начальное значение оценки θ 0. В начале каждого k-го такта вычисляем Запускаем сервер с значением параметра x = θk’. После завершения k-го такта подсчитаем новую оценку по правилу Увеличиваем номер такта k = k+1. Переход к п. 2 (повтор действий заново).
МОДЕЛИРОВАНИЕ Интерфейс программы :
РЕЗУЛЬТАТЫ Результаты программы с фиксированным значением
РЕЗУЛЬТАТЫ Минимум функции = 51 достигается при значении θ = 0. 84.
РЕЗУЛЬТАТЫ ПРОГРАММЫ С АЛГОРИТМОМ SPSA θ = 0. 12. θ = 1.
РЕЗУЛЬТАТЫ ПРОГРАММЫ С АЛГОРИТМОМ МОНТЕ КАРЛО
ЗАКЛЮЧЕНИЕ Работа с алгоритмом SPSA. Работа с методом Монте Карло.
1d742c947bb294b1c086802f5618fe45.ppt