Кузнецов_презентация.pptx
- Количество слайдов: 19
Национальный исследовательский университет Московский Энергетический Институт Кафедра Вычислительной техники Исследование и разработка алгоритма обобщения с понятием аргументации. Выполнил: Кузнецов Д. А. Научный руководитель: доцент, к. т. н Фомина М. В.
Цель работы: исследовать и реализовать в виде программного комплекса алгоритм, позволяющий выполнять формирование обобщенных понятий с использованием аргументации. В результате выполнения работы необходимо решить следующие задачи: 1. Изучение алгоритмов индуктивного формирования понятий. 2. Разработка и реализация алгоритма обобщения с аргументацией. 3. Разработка программной среды. 4. Проведение тестирования. 5. Сбор статистики и анализ результатов.
Актуальность применения систем обобщения. Современные базы данных содержат огромные массивы данных. Эти данные требуют тщательного анализа и зачастую исследование этой информации представляет собой трудоемкий процесс, который почти невозможно осуществить вручную. Поэтому всегда существует спрос на методы автоматического анализа данных, которые позволили бы с наименьшими трудовыми затратами и с приемлемой степенью достоверности решать задачи обобщения данных и их классификации.
Варианты реализации систем обобщения. • Системы без обучения • Системы с обучением, которые в свою очередь делятся на: o Системы обучения «без учителя» o Системы обучения «с учителем» В данной работе реализован вариант системы обучения с учителем.
Алгоритмы обучения «с учителем» При подготовке к работе были рассмотрены следующие алгоритмы обобщения: • ДРЕВ • Алгоритм ID 3 • Алгоритм CN 2 • Алгоритм ABCN 2 В качестве реализуемого алгоритма был выбран ABCN 2.
ОСОБЕННОСТИ АРГУМЕНТИРОВАННОГО ПОДХОДА К ПОЛУЧЕНИЮ ПРАВИЛ ОБОБЩЕНИЯ 1) Виды примеров обучающей выборки: • E = (A, C) – пример без аргументации, где А – вектор значений атрибутов примера, С – класс к которому принадлежит пример. • AE = (A, C, Arguments) – пример с добавленной аргументацией, где А – вектор значений атрибутов примера, С – класс к которому принадлежит пример, Arguments – вектор аргументов. В качестве аргументов выступают значения атрибутов примера AE. Виды аргументов: 1) Аргумент положительный, если значение атрибута, по мнению эксперта, выступает за принадлежность примера классу C. 2)Аргумент отрицательный, если значение атрибута негативный фактор принадлежности примера классу C. 2) Правила признаются аргументированными, если выполняются требования: • Условия для правил содержат хотя бы один положительный аргумент и не содержат отрицательных. • Условия правил должны быть истинны для примеров, из которых они получены.
Пример аргументирования ситуации Таблица с описанием ситуации Выдача кредита» : Регулярность. Выплат Нет Да Достаток Высокий Низкий Цвет. Волос Блондин Шатен Блондин Выдача Кредита Да нет Да Возможные аргументы: • Регулярность. Выплат = нет – отрицательный признак для принятия решения о выдаче кредита. Отрицательный аргумент. • Достаток = высокий – положительный признак для принятия решения о выдаче кредита. Положительный аргумент. Список правил, которые покрывают аргументированный пример: • {Если (Цвет. Волос = блондин) то Выдача. Кредита = да}, • {Если (Регулярность. Выплат = нет и Достаток = высокий) то Выдача. Кредита = да}, • {Если (Цвет. Волос = блондин и Достаток = высокий) то Выдача. Кредита = да}. • {Если (Достаток = высокий) то Выдача. Кредита = да}.
Оценка правил •
Основные шаги получения правил с помощью алгоритма ABCN 2 • Шаг 1. Оценка аргументов каждого аргументированного примера. Аргумент с самым высоким значением оценочной функции признается лучшим. • Шаг 2. Сортировка аргументированных примеров, исходя из значения оценочной функции лучшего аргумента для каждого примера. • Шаг 3. Выбор примера с самым высоким значением оценочной функции и поиск аргументированного правила. • Шаг 4. Удаление аргументированных примеров, которые покрываются полученным правилом. • Шаг 5. Занесение полученного правила в общий список продукционных правил. • Шаг 6. Если остались аргументированные примеры – переход к шагу 3, иначе – к шагу 7. • Шаг 7. Продукционные правила получены
Преимущества алгоритма ABCN 2 • Высокий процент классификации • Аргументы налагают ограничения на множество гипотез, что ведет к уменьшению зоны поиска. • Полученные правила имеют высокую значимость (на этапе прогнозирования класса) для эксперта. • Аргументы успешно решают ситуации, когда в обучающей выборке присутствуют противоречия, шум.
Среда разработки и возможности системы Среда разработки: Microsoft Visual Studio 2012 Язык разработки: С# Возможности системы: • Ввод, хранение, коррекция обучающих выборок в виде таблиц. • Получение и сохранение наборов продукционных правил на основе алгоритма ABCN 2. • Вывод результатов машинного обучения. • Сбор статистики по результатам машинного обучения. • Возможность проведения экспериментов на обучающих выборках из хранилища данных UCI REPSITORY • Возможность оценки точности распознавания на тестовых выборках
Входные данные
Интерфейс программы
Интерфейс программы
Результаты тестирования Набор данных Glass ID 3 62. 79 Точность классификации C 4. 5 CN 2 CART 5 65. 89 66. 01 44. 86 Monk-2 65. 00 69. 91 69. 00 63. 20 78. 94 Australian 78. 26 85. 36 79. 60 85. 51 79. 58 Monk-1 81. 25 75. 70 100. 00 83. 34 79. 65 Adult 83. 53 84. 46 84. 00 81. 59 85. 69 Monk-3 90. 28 97. 20 89. 00 97. 22 95. 29 Iris 94. 67 96. 67 93. 33 94. 00 95. 30 Anneal 99. 55 91. 65 98. 60 97. 87 99. 55 Таблица 2. Результаты классификации известных алгоритмов обобщения IDTUV 67. 62 Средние результаты среди проведенных опытов: с использованием алгоритма ABCN 2: MONK 1 - 97. 52% , MONK 2 - 75. 24%, MONK 3 - 94. 73%
Отчет тестирования программы Классификация без использования аргументирования(CN 2) Классификация с использованием аргументирования(ABCN 2)
Выводы В результате было установлено следующее: • Разработанный алгоритм обеспечивает высокое качество классификации • Алгоритм успешно работает при наличии до 5 -10% противоречивых примеров. • В ряде задач использование алгоритма аргументации вместо классического алгоритма CN 2 увеличивает на 5 -7% количество правильно классифицированных тестовых примеров.
Заключение В рамках магистерской работы было проделано следующее: • Рассмотрены несколько алгоритмов построения обобщения и выбран для реализации алгоритм ABCN 2, позволяющий повысить точность распознавания. • Cпроектирована и реализована программная среда c понятным и наглядным интерфейсом. • Проведено тестирование программной среды на наборах данных из UCI Machine Learning Repository • Собраны и исследованы результаты тестирования.
Спасибо за внимание!