Семинар Образный компьютер andriypavlove gmail com NKondrashova ukr net Киев

Семинар: Образный компьютер andriypavlove@gmail. com; NKondrashova@ukr. net Киев 2013

Дано: матрица измерений W = (Х | y), dim X = n×m, dim y = n× 1. 2

3

Структура модели: Модель: Класс структур моделей: Вектор-столбцы xi называются аргументами структуры модели f, а элементы i – её параметрами. 4

Дано: , dim X = n. W m, dim y = n. W 1, Класс структур моделей описывается полиномом: (1) Найти: как: 1. Решение K задач непрерывной оптимизации для оценивания параметров, f : (2) 2. Решение задачи дискретной оптимизации для выбора лучшей модели: (3) А – обучающая выборка; B – проверочная выборка, 5

Ø Современные задачи - задачи большой размерности: dim W 500 000 1000. Пример: задача прогнозирования «космической погоды» , dim W 100 000 1000. 6 Классический многорядный алгоритм МГУА (Ивахненко А. Г. , 1986) Релаксационные итерационные алгоритмы МГУА МУА - Шелудько О. И. (1975) (4) CML - Юрачковский Ю. П. (1981) (5)

Теоретическая задача сходимости итерационного алгоритма Дано: матрица истинных аргументов, и вектор , рассчитанный по формуле вида: (6) где вектор коэффициентов нам не известен. Необходимо: доказать, что при количестве итераций алгоритма r ∞ его решение сходиться к решению (6) – решению МНК для полной модели. CML - Юрачковский Ю. П. (1981) 1 -я итерация 2 -я итерация g(x 1, x 2) g(x 1, xm) : : g(x 2, xm) 3 -я итерация Селекция F лучших моделей у1 у2 : у3 x 1 g(x 1, у1) : : x 2 g(x 2, y 2) : : g(xm, y 2) : : : y* : : xт 7

Скорость сходимости алгоритма определяется числом итераций r*, необходимым для достижения решения (построения истинной модели) с заданной точностью . Вопросы на которые необходимо получить ответы: «Что влияет? » Ø Какие свойства исходных данных влияют на скорость сходимости алгоритма? «Как влияет? » Ø При каких значениях этих свойств алгоритм сходиться быстро, а при каких медленно? Стратегия применения итерационного алгоритма 8

9

ü Усовершенствовать процесс построения моделей в итерационных алгоритмах МГУА релаксационного типа на основе разработки методов оценивания параметров и расчета критериев, использующих матрицы нормальных уравнений. ü Теоретически доказать сходимость разработанного алгоритма. ü Исследовать скорость сходимости разработанного алгоритма с помощью нового метода численного исследования итерационных алгоритмов. Ø Разработать и реализовать усовершенствованную информационную технологию построения моделей по МГУА, использующую критерии классического регрессионного анализа для оценивания адекватности моделей. Ø Применить разработанные программные средства и технологии для решения таких прикладных задач: прогнозирование космической погоды, оценивание эффективности медицинских препаратов и дифференциальная диагностика случаев патологий гемостаза. 10

Ускорен процесс построения моделей за счёт новых методов оценивания параметров и расчёта критерием селекции с использованием матриц нормальных уравнений. Вычислительная сложность расчёта модели на r-й итерации алгоритмов Разработанные методы позволили: ü решать задачи моделирования, исходная матрица которых имеет сотни тысяч наблюдений и тысячи переменных; ü ускорить работу алгоритма-прототипа в десятки, сотни, тысячи и более раз в зависимости от размерности входной матрицы. 11

Сравнение быстродействия РИА с Направленным Перебором (НП) и Прототипа Исследуются линейные модели st = 0. 05 m, dim Х = n m Останов: R = 3 st. МУА – прототип МУА* – РИА НП МУА- – РИА НП без стадии расчёта матриц WATWA, WBTWB. 12

Генератор прототипа Разработанный генератор (7) F 2 1 40% повторов m=3 F 2 = 1 Разработанный генератор позволил: ü сходимость алгоритма к нелинейной модели; ü получать более глубокий минимум критерия селекции в практических задачах. F 1 1 13

Нелинейная модель: (8) Линейная модель: (9) Процесс построения модели в ОРИА 14

Теоретически доказана монотонная сходимость обобщенного релаксационного итерационного алгоритма с генератором полного перебора на каждой итерации: 15 a) к решению при условии, что вектор y. A = выражается через уравнение регрессии векторов-столбцов матрицы ХА, содержащей только истинные аргументы b) ( ), n. A m. b) к неподвижной точке , которая является проекцией вектора y. A на гиперплоскость, определяемую вектор-столбцами матрицы ХА, n. A m. c) к некоторой неподвижной точке при n. A < m. (10) (11)

Скорость сходимости алгоритма определяется числом итераций r*, необходимым для достижения решения (построения истинной модели) с заданной точностью . 16 Вопросы, на которые необходимо получить ответы: «Что влияет? » Ø Тогда d [0; 1] и: если d = 0, матрица ΣХ – вырождена. если d = 1, ΣХ – единичная «Как влияет? » Ø Предлагается метод исследования скорости сходимости итерационных алгоритмов Стратегия применения итерационного алгоритма

Задача: разработать статистически достоверный способ получения значения r* для заданных значений детерминанта d, свободы выбора F, точности моделирования , количества аргументов s истинной модели. Скорость сходимости алгоритма определяется числом итераций r*, необходимым для достижения решения (построения истинной модели) с заданной точностью . Требование: получения независимой картины влияния на скорость сходимости разного рода факторов: свойств данных и параметров алгоритма. 17

Вывод: ü разработан статистически достоверный способ получения значения r* для заданных значений d, F, , s. 18

(12) (13) (14) Количество генераций матриц RN* = 105 (15) F , d = 0. 7, s S F , = {5, 10, 25, 50, 100, 250, 500}, d = 0. 7, s = 5 Вывод: 19

F = 5, d D, D = {0. 5, 0. 6, 0. 7, 0. 8, 0. 99}, s = 5 F = 5, d D, s S, S = {5, 8, 11, 14, 17} Вывод: для достижения решения s аргументами с точностью до 10 -12 алгоритму необходимо r* = 3 s (d = 0. 7). 20

(16) 21 (17) (18) Вывод: Ø При хорошо обусловленных матрицах (линейная модель, d [0. 7; 1]) алгоритм сходиться быстро - за 3 s итераций. Ø При плохо обусловленных матрицах (нелинейная модель, d ≈ 0) скорость сходимости алгоритма снижается на порядок.

st, sf – количество истинных и ложных аргументов соответственно. p – вероятность того, что модель содержит только истинные аргументы. Количество реализаций RN = 105 (19) Выводы: Ø При d 0. 8 алгоритм сходиться к модели с вероятностью 1 независимо от количества ложных аргументов. Ø При d [0. 5; 0; 8] увеличение количества ложных аргументов снижает вероятность получения модели 22 Ø Вероятность сходимости к нелинейной модели (d ≈ 0) равна нулю.

23 ü Получены характеры зависимостей скорости сходимости алгоритма от d, F, s для максимальной точности = 10 -12.

Анализ систем построения моделей по МГУА 24

Информационная технология индуктивного моделирования на основе ОРИА 25

Программное обеспечение и его возможности Язык программирования: С++ Объектно-ориентированный подход. 26

Задача прогнозирования «космической погоды» База данных OMNI 2 (ftp: //nssdcftp. gsfc. nasa. gov/spacecraft_data/omni/) Дано: W = (X | y), y - индекс Dst, dim W = 400 000 54 (ежечасные данные) Необходимо: построить модель прогноза индекса Dst на один час (шаг) вперёд: где v – вектор-строка матрицы Класс моделей – разностные уравнения динамики (запаздывания по входам и выходу). Большое количество пропусков + задача динамики: dim W 100 000 1000 27

Задача прогнозирования «космической погоды» Количество признаков, присутствующих в матрице W Размерности матриц Производительность РИА ПП для модели (20) Параметр алгоритма: F = 5. Останов, если NARB, r+1 – NARB, r < 0. 0001, (20) x 1 – координата z индукции B магнитного поля Земли; x 2 – СКО координаты y индукции B магнитного поля Земли; x 3 – средняя величина магнитного поля Земли; x 4 – плотность протонов плазмы; x 5 – давление потока плазмы на магнитосферу Земли. 28

Задача прогнозирования «космической погоды» Статистические характеристики моделей Буря, если Dst < − 80 н. Tл 29 Распределение числа бурь Рабочая выборка Экзаменационная выборка v= 50% 100% Качественный прогноз по критериям, PRTss, SS, AP значения которых равны 1 γ= 25% Основная фаза бури и пороговые значения v и γ критериев SS и AP для ее качественного прогноза

Задача оценивания эффективности медицинских препаратов (21) (22) (23) (24) (25) n. W – количество пациентов в исходной выборке W 30

Задача оценивания эффективности медицинских препаратов Иммунофан 100 мл. , n. W = 28, n. X = 18, n. D = 10. 31 Лучшая пара моделей построена при использовании: Ø Неполной информации (x 0, z 1, z 2) Ø Квазиоптимального разбиения Ø Модели c трендовой составляющей Ø Адаптивной схемы прогноза Модели обладают хорошими прогностическим свойствами Распределение ошибок модели на рабочей выборке X Распределение ошибок модели на исходной выборке W

Задача дифференциальной диагностики случаев патологии гемостаза Дано: W = (Х | y), dim X = n m, dim y = n 1, yi {1, …, k}. W(j) = (Х | y(j)), j = 1, …, k. Строится k функций Решающее правило: 32

Задача дифференциальной диагностики легких случаев патологии гемостаза Классы: Признаки (m = 12) принимают значения: Ø Болезнь Виллебранда (БВ) Ø Признак i проявлялся: xi = 25 Ø Коагулопатия (КП) Ø Признак i не проявлялся: xi = -5 Ø Дезагрегационная тромбоцитопатия (ДТ) Ø Комбинированная патология системы гемостаза (КПСГ) Ø Не было условий для проявления: xi = 1 Уровни: q = 220 – принятие своего диагноза, p = 100 – принятие остальных диагнозов n. U+ ; n. U– – количество точек, принадлежащих и не принадлежащих диагнозу на выборке U соответственно. Точность распознавания: Чувствительность: Специфичность: TP – правильные ответы «+» ; TN – правильные ответы «–» ; FN – ошибки 1 -го рода; FP – ошибки 2 -го рода Правильная классификация 89% 33

ü Разработанные методы и алгоритмы позволяют решать задачи моделирования с сотнями тысяч наблюдений и тысячами переменных. ü Разработан и реализован обобщённый релаксационный итерационный алгоритм, который, в отличие от прототипа, позволяет: - решать задачи моделирования в десятки, сотни, тысячи и более раз быстрее в зависимости от размерности входной матрицы данных; - получать более глубокий минимум критерия селекции нелинейных моделей. ü Решены три практические задач моделирования: 1) Прогнозирование космической погоды–модель позволяет прогнозировать с высокой точностью (91% для интервала [-5 n. T; 5 n. T]). Точность (в процентах) определяется числом наблюдений, ошибка модели для которых попадает в заданный заказчиком интервал. 2) Оценивание эффективности медицинских препаратов с достаточной точностью (78% для интервала [-5%; 5%]). 3) Построение системы классификаторов для дифференциальной диагностики четырех патологий гемостаза (процент правильной диагностики не менее 89%). 34