
Семестр 2 лекция 3а - мешок слов.ppt
- Количество слайдов: 74
История подходов к распознаванию • 1960 -е – ранние 1990 -е: геометрическая эра • 1990 -е: модели, основанные на внешнем виде • Середина 1990 -х: скользящее окно • Поздние 1990 -е: локальные признаки • Ранние 2000 -е: модели частей и формы • Середина 2000 -х: мешки признаков • Наше время: комбинация локальных и глобальных методов, методы, управляемые данными, контекст Svetlana Lazebnik
Что важно в распознавании? • Методы машинного обучения – Например, выбор классификатора • Представление – Низкий уровень: SIFT, Ho. G, gist, контуры – Средний уровень: Bag of words, скользящее окно, деформируемая модель – Верхний уровень: Контекстная зависимость • Данные – Больше – лучше – Самое трудоемкое – разметка
Базовый процесс распознавания объектов Выбор модели объекта Генерация гипотез Оценка гипотез Принятие решения
Базовый процесс распознавания объектов Выбор модели объекта Пример: Распознавание на основе особых точек Генерация гипотез Оценка гипотез A 1 A 2 B 3 A 3 B 1 Принятие решения B 2
Вспоминаем как сопоставить точки 1. Find a set of distinctive keypoints B 3 A 1 A 2 2. Define a region around each keypoint A 3 B 2 N pixels B 1 e. g. color 3. Extract and normalize the region content 4. Compute a local descriptor from the normalized region N pixels K. Grauman, B. Leibe 5. Match local descriptors
Базовый процесс распознавания объектов Пример: Распознавание на основе особых точек Выбор модели объекта B 3 A 1 A 2 Генерация гипотез A 3 Affine-variant point locations B 1 B 2 Аффинное преобразование Оценка гипотез # Inliers Принятие решения Выбрать гипотезу с самой большой оценкой выше порога
Поиск объектов (обзор) Входной кадр Сохраненный кадр 1. Сопоставить особые точки между входным изображением и базовым 2. Сопоставленные точки голосуют за грубое положение/ориентацию/масштаб объекта 3. Найти тройки положение/ориентацию/масштаб с хотя бы тремя голосами 4. Вычислить аффинное преобразование с использованием итеративных наименьших квадратов с проверкой вылетов 5. Сообщить об объекте, если есть хотя бы T сопоставленные точки
Сопоставление особых точек • Хотим сопоставить точки между: 1. Входным кадром (запросом) 2. Сохраненным изображением с объектом • Дан дескриптор x 0, найти два ближайших соседа x 1, x 2 с расстояниями d 1, d 2 • x 1 соответствует x 0 если d 1/d 2 < 0. 8 – Это убирает 90% ложных сопоставлений и 5% истинных (Lowe)
Применение • Sony Aibo (Evolution Robotics) • SIFT – Распознавание док-станции – Общение с визуальными карточками • Другое применение – Распознавание места – Замыкание кругов в SLAM K. Grauman, B. Leibe 16 Slide credit: David Lowe
Как быстро найти изображения в большой базе, которые соответствуют данному кадру?
Video Google System пределах области запроса 2. Инвертированный файловый индекс для поиска соответствующих кадров 3. Сравнение счетчика слов 4. Пространственная проверка Sivic & Zisserman, ICCV 2003 • Demo online at : Найденные кадры Perceptual and Sensory Augmented Visual Object Recognition Tutorial Computing 1. Собрать все слова в Область запроса http: //www. robots. ox. ac. uk/~vgg/re search/vgoogle/index. html Kristen Grauman
Пример применения Perceptual and Sensory Augmented Visual Object Recognition Tutorial Computing Aachen Cathedral Мобильный гид • Самолокализация • Распознавание объектов/зданий • Дополнение фото/видео B. Leibe [Quack, Leibe, Van Gool, CIVR’ 08]
Perceptual and Sensory Augmented Visual Object Recognition Tutorial Computing Применение: Крупномасштабный поиск Запрос Результаты по 5000 изображениям Flickr (есть демо для 100 000) [Philbin CVPR’ 07]
Применение: Автоматическая аннотация изображений Moulin Rouge Tour Montparnasse Old Town Square (Prague) Colosseum Viktualienmarkt Maypole Слева: Wikipedia Справа: ближайшее из Flickr [Quack CIVR’ 08] K. Grauman, B. Leibe 24
Простая идея Сколько ключевых точек близки к ключевым точкам в каждом кадре из базы данных Много похожих Мало или нет совсем Но это очень, ОЧЕНЬ МЕДЛЕННО!
Индексация локальных признаков • Каждый патч/регион имеет дескриптор, являющийся точкой в некотором многомерном пространстве (например, SIFT) Пространство точек дескриптора Kristen Grauman
Индексация локальных признаков • Если точки близки в пространстве признаков, то это – похожие дескрипторы, что означает похожее содержание кадра Пространство признаков Изображения базы данных Входной кадр Easily can have millions of features to search! Kristen Grau
Индексация локальных признаков: обратный индекс • Для текстов есть эффективный способ найти все страницы на которых встречается слово – использовать индекс… • Мы хотим найти все изображения на которых встречается признак. • Нам нужно превратить наши признаки в “визуальные слова”. Kristen Grauman
Визуальные слова • Отображение многомерных дескрипторов в токены/слова путем квантования пространства признаков • Квантование путем кластеризации – пусть центры кластеров будут прототипами “слов” Слово #2 Пространство признаков дескриптора • Определим, какое слово сопоставить новой области кадра, находя центр ближайшего кластера Kristen Grauman
Визуальные слова • Пример: каждая группа патчей принадлежит одному визуальному слову Figure from Sivic & Zisserman, ICCV 2003 Kristen Grauman
Создание словаря Вопросы: • Размер словаря, число слов • Стратегия выборки: где извлекать признаки? • Алгоритм кластеризации/квантизации Kristen Grauman
Обратный индекс • По изображениям базы построим индекс, сопоставляющий слова с номерами кадров Kristen Grauman
Инвертированный индекс • Новое изображение сопоставляется с индексами изображений с общими словами Kristen Grauman
Распознавание мест: оставшиеся вопросы • Как сделать выводы по всему изображению? И оценить общее сходство? • Насколько большим должен быть словарь? Как осуществить квантизацию эффективно? • Достаточно ли иметь один набор визуальных слов, чтобы идентифицировать сцену/объект? Как проверить пространственную схожесть? • Как оценить результаты запроса? Kristen Grauman
Аналогия с документами Of all the sensory impressions proceeding to the brain, the visual experiences are the dominant ones. Our perception of the world around us is based essentially on the messages that reach the brain from our eyes. For a long time it was thought that the retinal sensory, brain, image was transmitted point by point to visual centers in the brain; the cerebral cortex was a visual, perception, movie screen, so to speak, upon which the retinal, cerebral cortex, image in the eye was projected. Through the discoveries of Hubel and Wiesel we now eye, cell, optical know that behind the origin of the visual nerve, image perception in the brain there is a considerably more complicated course of events. By Hubel, Wiesel following the visual impulses along their path to the various cell layers of the optical cortex, Hubel and Wiesel have been able to demonstrate that the message about the image falling on the retina undergoes a stepwise analysis in a system of nerve cells stored in columns. In this system each cell has its specific function and is responsible for a specific detail in the pattern of the retinal image. China is forecasting a trade surplus of $90 bn (£ 51 bn) to $100 bn this year, a threefold increase on 2004's $32 bn. The Commerce Ministry said the surplus would be created by a predicted 30% jump in exports to $750 bn, compared with a 18% rise in imports to China, trade, $660 bn. The figures are likely to further annoy the US, which has long argued that surplus, commerce, China's exports are unfairly helped by a exports, imports, US, deliberately undervalued yuan. Beijing agrees the surplus is too high, but says the yuan, bank, domestic, yuan is only one factor. Bank of China foreign, increase, governor Zhou Xiaochuan said the country also needed to do more to boost domestic trade, value demand so more goods stayed within the country. China increased the value of the yuan against the dollar by 2. 1% in July and permitted it to trade within a narrow band, but the US wants the yuan to be allowed to trade freely. However, Beijing has made it clear that it will take its time and tread carefully before allowing the yuan to rise further in value. ICCV 2005 short course, L. Fei-Fei
Мешки визуальных слов • Описать всё изображение распределением (гистограммой) встречающихся слов • Аналогично «мешку слов» , часто используемому для документов
Сравнение мешков слов • Упорядочить кадры по нормализованному скалярному произведению между их гистограммами (возможно взвешенными) – метод ближайших соседей [1 8 1 4] [5 1 1 0] для словаря из V слов Kristen Grauman
Обратный индекс w 91 1. Найти слова в запросе 2. Обратный индекс для поиска соответствующих кадров 3. Сравнить счетчики слов Kristen Grauman
Распознавание мест: оставшиеся вопросы • Как сделать выводы по всему изображению? И оценить общее сходство? • Насколько большим должен быть словарь? Как осуществить квантизацию эффективно? • Достаточно ли иметь один набор визуальных слов, чтобы идентифицировать сцену/объект? Как проверить пространственную схожесть? • Как оценить результаты запроса? Kristen Grauman
Распознавание по К-дереву Following slides by David Nister (CVPR 2006)
110, 000 кадров за 5. 8 с Slide Credit: Nister
Slide Credit: Nister
Slide Credit: Nister
Slide Credit: Nister
Словарные деревья: сложность Число слов определяется параметрами дерева: коэффициент ветвления и количество уровней
Размер словаря Результаты по 6347 кадрам К-т ветвления Influence on performance, sparsity Nister & Stewenius, CVPR 2006 Kristen Grauman
Больший коэффициент ветвления работает лучше (но медленней)
Стратегии выборки Разреженно, в особых точках Плотно, равномерно Случайно • Для поиска конкретных текстурированных объектов надежнее работают разреженные выборки. • Много дополняющих друга детекторов дают лучшее покрытие изображения. • Для категоризации объектов лучшее покрытие даёт плотная выборка. Множественные операторы 74 Image credits: F-F. Li, E. Nowak, J. Sivic [See Nowak, Jurie & Triggs, ECCV 2006] K. Grauman, B. Leibe
Распознавание мест: оставшиеся вопросы • Как сделать выводы по всему изображению? И оценить общее сходство? • Насколько большим должен быть словарь? Как осуществить квантизацию эффективно? • Достаточно ли иметь только набор визуальных слов, чтобы идентифицировать сцену/объект? Как проверить пространственную схожесть? • Как оценить результаты запроса? Kristen Grauman
Как повысить точность? Итак, мы научились представлять изображение как “мешок слов”, без пространственной информации Какое сопоставление лучше? e f z h e f a e a h f e e
Как повысить точность? Итак, мы научились представлять изображение как “мешок слов”, без пространственной информации Настоящие объекты имеют консистентную геометрию
Пространственная верификация Запрос Кадр с высокой Bo. W похожестью Обе пары кадров имеют много общих визуальных слов Slide credit: Ondrej Chum
Пространственная верификация Запрос Кадр с высокой Bo. W похожестью Лишь некоторые сопоставления взаимосогласованными Slide credit: Ondrej Chum
Распознавание мест: оставшиеся вопросы • Как сделать выводы по всему изображению? И оценить общее сходство? • Насколько большим должен быть словарь? Как осуществить квантизацию эффективно? • Достаточно ли иметь один набор визуальных слов, чтобы идентифицировать сцену/объект? Как проверить пространственную схожесть? • Как оценить результаты запроса? Kristen Grauman
Оценка качества запроса Results (ordered): Размер базы: 10 кадров Соответствуют (всего): 5 кадров Запрос precision = #relevant / #returned recall = #relevant / #total relevant 1 precision 0. 8 0. 6 0. 4 0. 2 0 0 0. 2 0. 4 recall 0. 6 0. 8 1 Slide credit: Ondrej Chum
Что ещё можно позаимствовать у текстов? China is forecasting a trade surplus of $90 bn (£ 51 bn) to $100 bn this year, a threefold increase on 2004's $32 bn. The Commerce Ministry said the surplus would be created by a predicted 30% jump in exports to $750 bn, compared with a 18% rise in imports to China, trade, $660 bn. The figures are likely to further annoy the US, which has long argued that surplus, commerce, China's exports are unfairly helped by a exports, imports, US, deliberately undervalued yuan. Beijing agrees the surplus is too high, but says the yuan, bank, domestic, yuan is only one factor. Bank of China foreign, increase, governor Zhou Xiaochuan said the country also needed to do more to boost domestic trade, value demand so more goods stayed within the country. China increased the value of the yuan against the dollar by 2. 1% in July and permitted it to trade within a narrow band, but the US wants the yuan to be allowed to trade freely. However, Beijing has made it clear that it will take its time and tread carefully before allowing the yuan to rise further in value.
tf-idf взвешивание • Term frequency – inverse document frequency • Описать кадр частотой каждого слова, снижая веса слов, которые часто встречаются в базе данных • (Стандартное взвешивание при поиске слов) Количество слова i в документе d Число документов в базе данных Число слов в документе d Число документов, в которых встречается слово i Kristen Grauman
Расширение запроса Запрос: golf green Результаты: - How can the grass on the greens at a golf course be so perfect? - For example, a skilled golfer expects to reach the green on a par-four hole in. . . - Manufactures and sells synthetic golf putting greens and mats. Нерелевантные результаты могут привести к `смещению темы’: - Volkswagen Golf, 1999, Green, 2000 cc, petrol, manual, , hatchback, 94000 miles, 2. 0 GTi, 2 Registered Keepers, HPI Checked, Air-Conditioning, Front and Rear Parking Sensors, ABS, Alarm, Alloy Slide credit: Ondrej Chum
Расширение запроса Результаты … Пространственная верификация Запрос Новые результаты Новые запросы Chum, Philbin, Sivic, Isard, Zisserman: Total Recall…, ICCV 2007 Slide credit: Ondrej Chum
Что запомнить • Распознавание экземпляров объектов – Найти особые точки, вычислить дескрипторы – Сопоставить дескрипторы – Голосовать за аффинные параметры – Вернуть объект, если # inliers > T • Ключи к эффективности – Визуальные слова • Много разных применений – Обратный индекс • Для поиска масштаба Интернета