В зависимости от экспериментальных данных при решении задач
rasp_obr2.ppt
- Количество слайдов: 16
В зависимости от экспериментальных данных при решении задач определены следующие ситуации: 1. В материале обучения заданы представители N образов, N > 1 (задача распознавания на N образов); 2. В материале обучения заданы представители одного образа (задача распознавания на один образ); Материал обучения: Определить объекты экзамена к треугольникам, квадратам или кругам. Материал обучения: Разбить материал экзамена на квадраты и не квадраты. Выбор модели распознавания
3. В материале обучения не указана принадлежность объектов к образам и требуется заданные объекты разбить на однородные в некотором смысле группы (задача группирования); 4. В материале обучения не указана принадлежность объектов к образам, но известны некоторые общие свойства образов (задача направленного поиска). Материал обучения: Выделить в материале экзамена группы объектов, схожих между собой по свойствам. (Например по количеству углов или цвету. ) 3 угла 4 угла нет углов красные синие
Рассматриваются два подхода к распознаванию: 1.Для каждого распознаваемого объекта выбирается свой материал обучения из всего заданного экспериментального материала, своя мера сходства, своя информационная совокупность свойств, свое решающее правило (индивидуальный подход); 2. Перечисленные элементы выбирают один раз для всех распознаваемых объектов (бюрократический подход). Выделяются решающие правила статистические и детерминированные, опирающиеся на расстояния и на частотный состав, с отказами и без отказов.
Общая схема постановки и решения задачи Разработано достаточно много алгоритмов распознавания и группирования, с помощью которых решают задачи в определенных ситуациях и при определенных априорных предположениях. Общая схема включает в себя все существующие частные схемы решения, соответствующие отдельным алгоритмам распознавания, группирования, направленного поиска и состоит из пяти стадий. Анализ исходных данных Выбор модели решения Выбор оптимального алгоритма Решение Анализ результатов 1 2 3 4 5
1. Анализ исходных данных для решения конкретной задачи: — анализируется поставленная цель; — исследуется ситуация, в которой возможно решение задачи; — рассматриваются способы описания экспериментального материала; — анализируется экспериментальный материал для оценки заданного числа образов, числа объектов в каждом образе, соотношений числа объектов и числа свойств, типов свойств; — изучаются априорные предположения, при этом выясняется расположение заданных объектов в признаковом пространстве, а также определяются степени зависимости свойств, представительность МО, соотношение цен ошибок 1-го и 2-го рода;
— анализируются технологические условия, включающие в себя определение допустимого времени решения задачи; максимальные размеры экспериментального материала (допустимые количества объектов и свойств); режим работы; необходимые технические средства. 2. Выбор модели решения задачи: — определяется подход к решению задачи; — фиксируются конкретные априорные предположения; — фиксируются классы мер сходства, мер связи, способы определения информативных наборов свойств; решающие правила; — фиксируются критерии оценки качества. Рассмотрение первой и второй стадий соответствует процессу постановки задачи.
3. Выбор оптимального алгоритма для решения задачи: — выбираются конкретные меры сходства и связи, способ определения информативной совокупности, решающее правило; — конструируется алгоритм; — проводятся обучение и контрольный экзамен; — оценивается качество контрольного решения. 4. Решение задачи: — проводится решение задачи; — полученные результаты представляются в заданной форме.
5. Анализ результатов: — анализируются полученные результаты с точки зрения соответствия выбранным предположениям; — анализируется форма представления результатов; — дается заключение о целесообразности их дальнейшего использования либо о необходимости повторного решения задачи с помощью другого алгоритма или в рамках другой модели.
Анализ данных с целью выбора постановки и метода решения Если исходные данные легко делятся на группы, то их можно кодировать без ущерба информативности. Кодировать нецелесообразно, если исходные данные плохо делятся на группы. 1. Анализ целесообразности кодировки исходных данных. Информативным мы считаем такой набор свойств, на котором объекты разных образов хорошо различимы.
Пример: Измерили рост группы людей с точностью до второго знака: 1,55(м), 1,78(м) и т.д. По данным измерений построили частотную диаграмму: Видно, что в измерениях присутствуют два хорошо различимых пика, соответствующих мужчинам и женщинам. В таком случае возможно перекодировать шкалу, произведя переход от арифметической шкалы к шкале порядка (логическая), заменив множество значений двумя значениями («1» и «2» ). Заглубление шкалы упрощает последующие вычисления.
2. Анализ полноты и качества информации а) при отсутствующих измерениях необходимо добавить измерения, проведенные дополнительно; б) рассмотреть вопрос об исключении из МО объектов, имеющих большое количество пропусков; в) рассмотреть возможность восстановления пропущенных значений путем вычисления (существует много способов заполнения; можно заполнить средним значением, можно опираться на закон распределения). Возможно восстановление или дополнительное измерение Много пропусков целесообразно исключить свойство
3. Анализ зависимости свойств Рекомендуется исключить одно из зависимых свойств, с целью минимизации признакового пространства, т.к. оно не несет никакой полезной информации, а попросту копирует другое свойство. Пример зависимых свойств для 2х образов Пример зависимости: f3= a * f1 Прямая математическая зависимость На практике встречается довольно редко. Чаще речь идет о корреляции свойств. В таком случае одно из сильно коррелирующих свойств также удаляют.
4. Анализ взаиморасположения объектов в пространстве свойств. Образы компактны и не пересекаются (хорошо отличимые образы) Компактны но близки Один внутри другого Перемешаны образ1 образ 2
5. По выбранному алгоритму идет решение задачи. 6. Анализ качества результатов. Для анализа качества алгоритма надо выбрать несколько объектов из МО и сформировать из них МЭ (это могут быть самые «непростые» объекты). Проверяем качество решающего правила. Это правило должно выполнятся при минимуме ошибок 1-го и 2-го рода. Минимум — это фиксированное число, заданное при постановке задачи (например, минимум ошибок приблизительно равен 10%). Если качество алгоритма нас не устраивает, то необходимо возвратится назад к анализу данных, а иначе переходим к материалу распознавания.
Пример анализа результатов Предположим, что в результате вычислений, мы получили такую кривую (решающее правило). Проверим качество алгоритма на выборке из материала экзамена. Видно, что 3 объекта «х» были ошибочно отнесены к «о». Это много больше заявленного минимума в 10%, значит мы где-то ошиблись и необходимо заново провести анализ данных. Минимум напрямую зависит от цен ошибок 1-го и 2-го рода, ведь ценой может быть чья-то жизнь или здоровье.
7. Интерпретация результатов, т. е. перевод полученных результатов на язык предметной области. Если результат не устраивает, то возвращаемся к предметной задаче ( можно переформулировать предметную задачу). Главный этап формализации — формирование исходных данных и построение ТОС.