Поиск фотографий по содержанию Алексей Явлинский Аспирант университета

Скачать презентацию Поиск фотографий по содержанию Алексей Явлинский Аспирант университета

7d5e09bfcdac096d7f3ad5286f4d535d.ppt

Количество слайдов: 26

Поиск фотографий по содержанию Алексей Явлинский Аспирант университета Imperial College London, Великобритания

План презентации • Сегодня мы поговорим о том § Как работают поисковики фотографий в интернете § В чем проблема нынешних методов поиска § Как анализ содержимого образов может быть полезен для решния этой проблемы § Какие есть существующие методы анализа образов § Как работает наш метод • И увидим прототип поисковика образов в Интернете, который применяет наш метод анализа (Behold)

Фотографии везде • • Flickr Страницы интернета в целом Ваша личная фото-коллекция Youtube

Организация фотографий • В Вашей личной коллекции: наименование файлов • На Flickr: тегировка • На WWW: непросто § Индекс Google насчитывает более миллиарда образов § Пользователи не делают аннотации своих фотографий вручную

Интернет-поисковик фотографий • Должен угадать что в каждом образе • Нынешний способ: ассоциированние фотографии с текстом содержащей ее веб -страницы

sunset_boat. jpg

Сложности нынешнего подходa • Аннотации вынимаются из страниц и имен файлов автоматически -> частые ошибки § Иногда страницы не содержат никакой информации § Некоторые страницы не упоминают очевидные вещи § Прим. : фотография роз отмечена как любовь, но слово цветы не упоминается • Дополнительный, автоматический метод прогнозированния содержимого фотографий был бы полезен!

Поиск в Google: ‘flower’ bf_img_flower_water. gif Botanical-flower-press. jpg Избранные плохие результаты Flower. Power_v. F. jpg

Автоматический анализ содержимого фотографий Применение статистической модели к этим параметрам для прогноза содержимого Непомеченный образ Извлечение важных Визуальных параметров образа Прогноз: “автомобиль, асфальт, трава” Заметьте: поскольку это статистический прогноз, иногда он будет ошибочным

Расчет статистической модели для категории образов x ~100 Извлекаем важные визуальные параметры каждого образа Собираем большое количество образов данной категории Статистически рассчитываем типичные параметры для данной категории -- это наша модель Ошибочность прогноза будет зависеть от сложности выбранной категории образов

Подходы к извлечению визуальных параметров • Сегментация § Автоматически расчлененяем образ на части, анализируем каждую отдельно • Обнаружение обьекта § Фиксируем специфическую конфигурацию пикселей • Анализ образа целиком (глобальный метод) § Используем все содержимое образа вместе • Каждый метод требует отдельный тип статистического моделирования • Сотни академическх публикаций на эту тему

Сегментация образа Алгоритм “Region growing” Средний цвет: зеленый (RGB 0, 200, 0) Ориентация текстуры: неравномерная Тип текстуры: мелкий Размер сегмента: большой Средний цвет : оранжевый (RGB 255, 128, 0) Ориентация текстуры: вертикальная Тип текстуры: крупный Размер сегмента: средний

Прогноз слов на основе визуальных параметров • • • Рассчитать таблицу ‘перевода’ между сегментами и словами Это можно сделать статистически, максимизируя вышеуказанную функцию на сегментах аннотированных фотографий Используем параметры функции как модель для прогноза слов для сегментов неаннотированных фото • Детали подхода в Duygulu et al. -- ‘Object recognition as machine translation’, European Conference on Computer Vision, 2002

Прогноз слов для сегментов неподписанного образа

Проблемы с сегментацией • Пока нет общего решения проблемы точной сегментации образов • Процесс обработки образов методом сегментации занимает много времени § Требуется значительная нагрузка на вычеслительные ресурсы для обработки больших объемов фотографий

Обнаружение объекта • Рассчитываем как объект должен выглядеть в образе на уровне пикселей (модель объекта) • Ищем конфигурации пикселей в неаннотированных образах соответсвующие нашей модели • Пример: обнаружение лиц

Обнаружение лиц Собираем большую базу данных из образов выделенных лиц, и образов лиц не содержащих Используем статистический алгоритм чтобы найти самую информативную конфигурацию пикселей для обнаружения наличия лица

Обнаружение лиц (2) Сканируем пиксели новой фотографии на предмет их совпадения с моделью лица Дополнительная информация в Viola and Jones, 2001

Проблемы с методами обнаружения объектов • Для рассчета пиксельных моделей объектов требуется большое количество образов с четко выделенным расположением объекта в каждом образе • Создание такой базы фотографий -- трудоемкая работа • Алгоритмы обычно обнаруживают объекты в определенных ракурсах, например, в профиль или в фас, но не под углом

Наш подход: анализ образа целиком • Не применяем сегментацию • Аннотации фотографии прогнозируются на основе распределения визуальных параметров образа • Эти параметры могут быть простыми, например, распределение цвета или текстуры • Именуем подход: глобальный анализ образов • Преимущества: быстрый и простой анализ содержимого фотографий

Глобальный подход: мотивировка Оригинал Цвет Текстура

Аннотация образов через глобальный анализ • Моделируем процесс аннотации как • p(w|x) - вероятность аннотации w при визуальных параметрах x • Нужно найти функцию для каждой категории аннотаций (слова) Рассчитываем эту функцию непараметрической аппроксимацией Парцена: • Используя n образов содержащих аннотацию w в нашей аннотированной базе данных • Применяем первую модель к визуальным параметрам неаннотированных фотографий для прогнозированния слов Дополнительная информация в Yavlinsky, Schofield, Rueger, Conference on Image and Video Retrieval, 2005

Визуальные параметры • Локализованный цвет § CIELab colour (3 канала) в 9 равных частях образа • Текстура § Gabor wavelets - набор из 24 фильтров

Применения • Поиск неаннотированных фотографий через текстовые запросы • Улучшение качества поикса образов существующих интернет-поисковиков, например, Google Image Search • Организация неаннотированных фотографий в Вашей персональной фото-коллекции • Автором разработан поисковик на основе глобального анализа образов: http: //www. beholdsearch. com • Вы можете со мной связаться: alexei@yavlinsky. com

Спасибо! • Вопросы?

Ссылки и публикации Сайт автора: http: //www. beholdsearch. com/alexei Публикации упомянутые в презентации (детали подхов, оценки точности и т. д. ): • P Duygulu, K Barnard, N de Fretias, and D Forsyth. Object recognition as machine translation: Learning a lexicon for a fixed image vocabulary. In Proceedings of the European Conference on Computer Vision, pages 97– 112, 2002. • P Viola and M Jones. Rapid object detection using a boosted cascade of simple features. In International Conference on Pattern Recognition, pages 511– 518, 2001. • A Yavlinsky, E Schofield, and S Ruеger. Automated image annotation using global features and robust nonparametric density estimation. In Proceedings of the International Conference on Image and Video Retrieval, pages 507– 517, 2005.