7d5e09bfcdac096d7f3ad5286f4d535d.ppt
- Количество слайдов: 26
Поиск фотографий по содержанию Алексей Явлинский Аспирант университета Imperial College London, Великобритания
План презентации • Сегодня мы поговорим о том § Как работают поисковики фотографий в интернете § В чем проблема нынешних методов поиска § Как анализ содержимого образов может быть полезен для решния этой проблемы § Какие есть существующие методы анализа образов § Как работает наш метод • И увидим прототип поисковика образов в Интернете, который применяет наш метод анализа (Behold)
Фотографии везде • • Flickr Страницы интернета в целом Ваша личная фото-коллекция Youtube
Организация фотографий • В Вашей личной коллекции: наименование файлов • На Flickr: тегировка • На WWW: непросто § Индекс Google насчитывает более миллиарда образов § Пользователи не делают аннотации своих фотографий вручную
Интернет-поисковик фотографий • Должен угадать что в каждом образе • Нынешний способ: ассоциированние фотографии с текстом содержащей ее веб -страницы
sunset_boat. jpg
Сложности нынешнего подходa • Аннотации вынимаются из страниц и имен файлов автоматически -> частые ошибки § Иногда страницы не содержат никакой информации § Некоторые страницы не упоминают очевидные вещи § Прим. : фотография роз отмечена как любовь, но слово цветы не упоминается • Дополнительный, автоматический метод прогнозированния содержимого фотографий был бы полезен!
Поиск в Google: ‘flower’ bf_img_flower_water. gif Botanical-flower-press. jpg Избранные плохие результаты Flower. Power_v. F. jpg
Автоматический анализ содержимого фотографий Применение статистической модели к этим параметрам для прогноза содержимого Непомеченный образ Извлечение важных Визуальных параметров образа Прогноз: “автомобиль, асфальт, трава” Заметьте: поскольку это статистический прогноз, иногда он будет ошибочным
Расчет статистической модели для категории образов x ~100 Извлекаем важные визуальные параметры каждого образа Собираем большое количество образов данной категории Статистически рассчитываем типичные параметры для данной категории -- это наша модель Ошибочность прогноза будет зависеть от сложности выбранной категории образов
Подходы к извлечению визуальных параметров • Сегментация § Автоматически расчлененяем образ на части, анализируем каждую отдельно • Обнаружение обьекта § Фиксируем специфическую конфигурацию пикселей • Анализ образа целиком (глобальный метод) § Используем все содержимое образа вместе • Каждый метод требует отдельный тип статистического моделирования • Сотни академическх публикаций на эту тему
Сегментация образа Алгоритм “Region growing” Средний цвет: зеленый (RGB 0, 200, 0) Ориентация текстуры: неравномерная Тип текстуры: мелкий Размер сегмента: большой Средний цвет : оранжевый (RGB 255, 128, 0) Ориентация текстуры: вертикальная Тип текстуры: крупный Размер сегмента: средний
Прогноз слов на основе визуальных параметров • • • Рассчитать таблицу ‘перевода’ между сегментами и словами Это можно сделать статистически, максимизируя вышеуказанную функцию на сегментах аннотированных фотографий Используем параметры функции как модель для прогноза слов для сегментов неаннотированных фото • Детали подхода в Duygulu et al. -- ‘Object recognition as machine translation’, European Conference on Computer Vision, 2002
Прогноз слов для сегментов неподписанного образа
Проблемы с сегментацией • Пока нет общего решения проблемы точной сегментации образов • Процесс обработки образов методом сегментации занимает много времени § Требуется значительная нагрузка на вычеслительные ресурсы для обработки больших объемов фотографий
Обнаружение объекта • Рассчитываем как объект должен выглядеть в образе на уровне пикселей (модель объекта) • Ищем конфигурации пикселей в неаннотированных образах соответсвующие нашей модели • Пример: обнаружение лиц
Обнаружение лиц Собираем большую базу данных из образов выделенных лиц, и образов лиц не содержащих Используем статистический алгоритм чтобы найти самую информативную конфигурацию пикселей для обнаружения наличия лица
Обнаружение лиц (2) Сканируем пиксели новой фотографии на предмет их совпадения с моделью лица Дополнительная информация в Viola and Jones, 2001
Проблемы с методами обнаружения объектов • Для рассчета пиксельных моделей объектов требуется большое количество образов с четко выделенным расположением объекта в каждом образе • Создание такой базы фотографий -- трудоемкая работа • Алгоритмы обычно обнаруживают объекты в определенных ракурсах, например, в профиль или в фас, но не под углом
Наш подход: анализ образа целиком • Не применяем сегментацию • Аннотации фотографии прогнозируются на основе распределения визуальных параметров образа • Эти параметры могут быть простыми, например, распределение цвета или текстуры • Именуем подход: глобальный анализ образов • Преимущества: быстрый и простой анализ содержимого фотографий
Глобальный подход: мотивировка Оригинал Цвет Текстура
Аннотация образов через глобальный анализ • Моделируем процесс аннотации как • p(w|x) - вероятность аннотации w при визуальных параметрах x • Нужно найти функцию для каждой категории аннотаций (слова) Рассчитываем эту функцию непараметрической аппроксимацией Парцена: • Используя n образов содержащих аннотацию w в нашей аннотированной базе данных • Применяем первую модель к визуальным параметрам неаннотированных фотографий для прогнозированния слов Дополнительная информация в Yavlinsky, Schofield, Rueger, Conference on Image and Video Retrieval, 2005
Визуальные параметры • Локализованный цвет § CIELab colour (3 канала) в 9 равных частях образа • Текстура § Gabor wavelets - набор из 24 фильтров
Применения • Поиск неаннотированных фотографий через текстовые запросы • Улучшение качества поикса образов существующих интернет-поисковиков, например, Google Image Search • Организация неаннотированных фотографий в Вашей персональной фото-коллекции • Автором разработан поисковик на основе глобального анализа образов: http: //www. beholdsearch. com • Вы можете со мной связаться: alexei@yavlinsky. com
Спасибо! • Вопросы?
Ссылки и публикации Сайт автора: http: //www. beholdsearch. com/alexei Публикации упомянутые в презентации (детали подхов, оценки точности и т. д. ): • P Duygulu, K Barnard, N de Fretias, and D Forsyth. Object recognition as machine translation: Learning a lexicon for a fixed image vocabulary. In Proceedings of the European Conference on Computer Vision, pages 97– 112, 2002. • P Viola and M Jones. Rapid object detection using a boosted cascade of simple features. In International Conference on Pattern Recognition, pages 511– 518, 2001. • A Yavlinsky, E Schofield, and S Ruеger. Automated image annotation using global features and robust nonparametric density estimation. In Proceedings of the International Conference on Image and Video Retrieval, pages 507– 517, 2005.


