Маннапов Ильназ 997 Постановка задачи На сегодняшний

Маннапов Ильназ, 997

Постановка задачи На сегодняшний день одной из актуальных задач искусственного интеллекта является задача распознавания образов.

Постановка задачи В частности, визуальное распознавание некого объекта интеллектуальным агентом. Под интеллектуальным агентом можно понимать как механического робота, снабженного неким ПО, который управляет им, так и просто некую программу.

Постановка задачи Допустим, агенту нужно обнаружить в груде неких вещей один единственный объект. Например: перед агентов есть некая связка ключей, нужно найти какой-либо определенный ключ.

Постановка задачи Как в таких ситуациях действует человек? 1) Он может в первый раз просто перебрать все ключи. 2) Во второй раз он уже знает, какой именно ключ нужен, и возьмет именно этот ключ.

Постановка задачи Интеллектуальный агент должен действовать таким же образом: в первый раз он переберет все ключи, а в следующий раз он уже запомнит, какой ему нужен ключ.

Постановка задачи Следовательно, возникает задача: задается некое изображение, назовем его входным. Задается предмет, также задается в виде изображения, назовем его шаблоном. Нужно определить, содержится ли предмет, заданный в качестве шаблона в исходном изображении или нет.

Постановка задачи Делаем следующие допущения: предмет во входном изображении может отличаться от шаблона по размерам (т. е. по масштабу), по углу зрения (т. е. могут быть применены аффинные преобразования), может быть повернут на какойлибо угол; тажке может находиться не в гордом одиночестве, а среди других объектов.

Общая постановка решения Оба изображения задаются в виде картинок в одном из форматов: jpg, bmp, png и т. д. Понятно, что изображения состоят из точек - пикселов, окрашенных в тот или иной цвет. Следовательно, не сложно сообразить, что изображения представляют собой матрицу, в которой заданы цветовые значения – интенсивности (в цветных изображениях интенсивность каждой точки задается тремя числами – (r, g, b)). Вся задача сводится к сравнению каких-либо точек в этих изображениях.

Общая постановка решения Возникает вопрос: а какие точки сравнивать? Есть две крайности: - перебрать все; - выделить несколько случйных точек и сравнивать их; Понятно, что одна крайность приведет к потере времени и памяти, а другая крайность приведет к уменьшению вероятности правильного распознавания.

Общая постановка решения Значит, нужно что-то по-середке. Одной из таких «середок» можно назвать метод Харриса, который основывается на том, что происходит сравнивание так называемых особых точек. Под особыми точками подразумеваются точки изменения значений интенсивности в изображении по сравнению с другими точками.

Общая постановка решения Однако особая точка должна быть такой, чтобы изменения происходили по нескольким, в частном случае, двум направлениям, следовательно, особые точки – угловые. Т. е. суть метода заключается в нахождении угловых точек.

Общая постановка решения Ну-с, с тем, что будем сравнивать, разобрались. . Теперь встает другой вопрос – как сравнивать? ? Однако, сначала разберем сам метод Харриса.

Суть метода Разберем метод Харриса на конретном примере: На вход задаются два изображения в формате jpg. Т. к. рисунок цветной, значения в каждой точке задаются из трех чисел – стандартный (r, g, b). Для того, чтобы было только одно значение интенсивности, рисунок переводится в тоновый. Рис. 1 Рис. 2

Суть метода Далее, происходит анализ каждого пикселя. Эти пикселы можно рассматривать как компоненты матрицы, т. к. изображение представляет собой матрицу (для 1 -го и 2 -го изображения):

Суть метода Теперь встает вопрос: а как определить по этой матрице, какая точка угловая, какая не угловая? Действительно, нам, людям, так называемым интеллектуальным существам, не нужны никакие пикселы. Определение перепада, изменения интенсивности мы можем сделать визуально. А вот агент. . .

Суть метода А агент проверяет каждый пиксел в изображении, чтобы определить, является ли тот углом, рассматривая участки в области пиксела. Сходство определяется путем принятия суммы квадратов разностей между двумя участками. I(u, v) – значение интенсивности в участке (в самом простом случае – в пикселе) w(u, v) – это свойство «окна» , через которое мы смотрим на изображение, обычно равно 1. Однако, для инвариантности к масштабированию, используется другая функция, об этом речь пойдет ниже.

Суть метода Меньшее число S между участками указывает на большее сходство. Если пиксел находится в области с равномерной интенсивностью, то близлежащие участки будут выглядеть примерно одинаково. Следовательно, и сумма разностей будет близка к 0. Если пиксел находится на краю, тогда соседние участки в направлении, перпендикулярном к краю, будут выглядеть совершенно разными, но соседние участки в направлении, параллельном краю изменяются незначительно. Если пиксел стоит на особенности с изменением во всех направлениях, то ни один из близлежащих участков не будет выглядеть примерно также.

Суть метода I (u + x , v + y) может быть аппроксимирована рядом Тейлора. Пусть Ix и Iy - будут частными производными от I, такими, что Это приводит к приближению

Суть метода Можно записать в матричном виде: где Угловые скобки означают усреднение.

Суть метода Производные, снова воспользовавшись формулой Тейлора, можно приближенно вычислить: Ix = I(u + 1; v) - I(u - 1; v) Iy = I(u; v + 1) - I(u; v - 1)

Суть метода Давайте применим описанную выше теорию для двух изображений, которые задавались в качестве примера. Эти изображения в матричном виде:

Суть метода Давайте применим описанную выше теорию для двух изображений, которые задавались в качестве примера. Эти изображения в матричном виде: По правилам линейной алгебры, 255 выносим за скобку и получаем матрицы из 0 и 1

Суть метода Давайте применим описанную выше теорию для двух изображений, которые задавались в качестве примера. Эти изображения в матричном виде: А по сути, это бинарные рисунки, полученные из исходных нормированием

Суть метода Давайте применим описанную выше теорию для двух изображений, которые задавались в качестве примера. Эти изображения в матричном виде: Рассмотрим относительного пикселя (2, 2)(для примера)

Суть метода Давайте применим описанную выше теорию для двух изображений, которые задавались в качестве примера. Эти изображения в матричном виде: Рассмотрим относительного этого пиксела Окружающую его область (т. е. исследуем по приведенной выше формуле)

Суть метода Давайте применим описанную выше теорию для двух изображений, которые задавались в качестве примера. Эти изображения в матричном виде: Рассмотрим относительного этого пиксела Окружающую его область (т. е. исследуем по приведенной выше формуле). Интуитивно понятно, что будем исследовать не всю область, а пикселы в 4 -х напралениях, тогда формула упростится

Суть метода Давайте применим описанную выше теорию для двух изображений, которые задавались в качестве примера. Эти изображения в матричном виде: Интуитивно понятно, что будем исследовать не всю область, а пикселы в 4 -х напралениях Рассмотрим относительного этого пиксела Окружающую его область (т. е. исследуем по приведенной выше формуле). Нужно учитывать, что мы выходим за границы матрицы. Их просто не рассматриваем.

Суть метода Давайте применим описанную выше теорию для двух изображений, которые задавались в качестве примера. Эти изображения в матричном виде: То же самое относительно всех точек второго изображения Для примера, исследуем точку (2, 2)

Суть метода По описанной выше формуле в итоге получим, что А для точки (2, 2) 1 -го изображения и А 2 для точки (2, 2) 2 -го изображения равняются: А 1=((3, 1)(1, 1)) А 2=((2, 1)(1, 2)) tr(A 1)=4, |A 1|=2 tr(A 2)=4, |A 2|=3 (здесь мы вычислили след и определитель матриц, они понадобятся в дальнейшем) Таким же образом нужно проводит эти вычисления относительно всех точек. Теперь продолжим теоретические выкладки. . .

Суть метода Угол (в данном случае можно рассматривать как точечную особенность) характеризуется большим изменением S во всех направлениях вектора (x, y). На основе анализа собственных значений A, эта характеристика может быть выражена следующим образом: должно быть два "больших" собственных значения для точечных особенностей. На основании величины собственных значений, можно сделать следующие выводы на основе этих аргументов:

Суть метода Если С 1=0 и С 2=0 то этот пиксель (х, у) не имеет особенности, представляющей интерес. Если С 1=0 и С 2 имеет некоторое большое положительное значение, то обнаружен край. Если С 1 и С 2 большие положительные значения, то угол найден.

Суть метода Для того, чтобы установить, является ли точка особой или нет, нет необходимости искать характ. корни матрицы А.

Суть метода Достаточно воспользоваться следующим. Понятно, что с одной стороны определитель матрицы|M|=C 1*C 2, а след матрицы tr(M)=C 1+C 2. (Вспомним линейную алгебру). А с другой стороны, определитель и след - величины известные и они вычисляются и без собственных значений самой матрицы. Тогда: R = C 1*C 2 -k*(C 1+C 2)^2=|M|-k*tr(M)^2. Находим значение R: R > 0: угловая точка, R ~ 0: точка в равномерной зоне, R < 0: граничная точка. Параметр k определяется опытным путем и находится в интервале (0, 04; 0, 06).

Суть метода Следовательно, после каждой вычисленной матрицы А мы исследуем отношение ее собственных значений. Те пиксели, для которых R>0, мы добавляем в список угловых точек. На примере получается, что те 2 точки можно считать угловыми, т. к. : R(A 1)=2 -k*16>0 при любом k из интервала, R(A 2)=3 -K*16>0. Далее, таким же образом исследуются все остальные точки. После того, как все пиксели из обоих изображений пройдены, начинается сравнивание этих точек.

Суть метода Откуда возникает инвариантность метода?

Суть метода Откуда возникает инвариантность метода? Из того, что применении каких-либо преобразований собственные значения градиентных векторов не меняются – следовательно, не меняются собственные вектора.

Суть метода Откуда возникает инвариантность метода? Из того, что применении каких-либо преобразований собственные значения градиентных векторов не меняются – следовательно, не меняются собственные вектора. И как не крути и не увеличивай, точки будут распознаваться те же самые (в идеале).

Суть метода Откуда возникает инвариантность метода? Из того, что применении каких-либо преобразований собственные значения градиентных векторов не меняются – следовательно, не меняются собственные вектора. И как не крути и не увеличивай, точки будут распознаваться те же самые (в идеале). Но. .

Суть метода Откуда возникает инвариантность метода? Из того, что применении каких-либо преобразований собственные значения градиентных векторов не меняются – следовательно, не меняются собственные вектора. И как не крути и не увеличивай, точки будут распознаваться те же самые (в идеале). Но. . С инвариантностью к масштабированию немножко сложнее. . .

Замечание Заметим, что в обычной форме метод не позволяет распознавать масштабированные изображения, т. к. ярковыраженный угол в миниатюрном варианте не будет определяться в увеличенном. Для решения такой проблемы существует спец. модификация этого метода. Рассмотрим эту модификацию; она чаще применяется на практике и является основой многих современных алгоритмов распознавания (например, SIFT).

Замечание Для этого нужно: 1. выбрать функцию, заданную на фрагменте изображения, инвариантную к изменению масштаба – значение функции одинаково для сопоставимых фрагментов, даже если они разного масштаба (например, средняя интенсивность) 2. в каждой точке изображения посмотреть на эту функцию, как на функцию от изменения размера фрагмента 3. найти локальный максимум такой функции Замечание: не сложно понять, что точка локального максимума инвариантна к изменению маштаба

Замечание В качестве этой функции берется функция Гаусса (если в первой части в качестве w мы брали 1, то теперь берем функцию Гаусса): W(u; v) = exp(-(u^2+v^2)/2 s^2 ). s – стандартное отклонение, в данном случае рассматривается просто как параметр.

Суть метода После определения особых точек производится сравнивание этих особых точек. В нынешнее время, одним из популярных методов является SIFT. Опишем основные шаги одного из таких методов: 1. На изображениях выделяются ключевые точки (эту часть мы описали подробно) и их дескрипторы (Под дескриптором понимаем некую прямоугольную область вместе с самой точкой, дескриптор указывает направление градиента). По этим ключевым точкам, применив метод моментов, можно выявить направление изменения интенсивности (градиенты). 2. По совпадению дескрипторов выделяются соответствующие другу ключевые точки. 3. На основе набора совпавших ключевых точек строится модель преобразования изображений, с помощью которого из одного изображения можно получить другое.

Вывод Мы с вами рассмотрели метод, который на сегодняшний день является основой многих других, более новых алгоритмов. На мой взгляд, данный метод является большим прорывом как в области распознавания, так и в области искуственного интеллекта.

Список литературы A COMBINED CORNER AND EDGE DETECTOR Chris Harris & Mike Stephens, 1988 2. Frank Nielsen «Harris-Stephens' combined corner/edge detector» , 2009 3. Методы поиска угловых особенностей на изображениях - http: //www. moluch. ru/archive/28/3253/ 4. Методы построения СИФТ-дескрипторов - http: //habrahabr. ru/post/106302/ 1.