Скачать презентацию Создание терминологического ресурса по катализу и его применение Скачать презентацию Создание терминологического ресурса по катализу и его применение

7a92082e2874adbe1382b5371f1931a9.ppt

  • Количество слайдов: 23

Создание терминологического ресурса по катализу и его применение в системе текстового поиска Докладчик: Альперин Создание терминологического ресурса по катализу и его применение в системе текстового поиска Докладчик: Альперин Борис Львович Научный руководитель: к. х. н. с. Кузьмин Андрей Олегович, Институт Катализа им. Г. К. Борескова СО РАН Новосибирск 2012

Решаемые проблемы • Информационное обеспечение научных исследований - поиск и представление информации, стандартизация • Решаемые проблемы • Информационное обеспечение научных исследований - поиск и представление информации, стандартизация • Необходимость в информационно-справочных системах по используемой терминологии • Увеличение эффективности поиска информации в текстовых коллекциях и сети Интернет • Разработка методов извлечения и анализа знаний в области естественных наук путём анализа научных текстовых коллекций • Поиск "горячих направлений" или тенденций развития области исследования (перспективных материалов, методик, процессов и т. д. ) путём анализа изменения терминологической базы во времени • Сравнительный анализ текстового материала, формирование подборок близких по содержанию документов и отслеживание смысловых связей между ними • Отслеживание динамики изменения терминологического словаря

Цели работы Цель работы – создание расширенных тезаурусов (глоссариев) по катализу с разработкой терминологического Цели работы Цель работы – создание расширенных тезаурусов (глоссариев) по катализу с разработкой терминологического веб-ресурса, их применение в системе текстового поиска Задачи: • Разработка терминологического веб-ресурса по катализу (http: //www. catalysis. ru/thezaurus/) • Проектирование БД • Разработка web-приложения • Первоначальное наполнение • Создание Web-сервисов • Разработка методов использования терминологического ресурса для улучшения качества информационного поиска • Разработка поискового модуля

Тезаурус – описание и подходы к формированию Статистика: Терминов: 18204 Рубрик: 3572 Связей: 10622 Тезаурус – описание и подходы к формированию Статистика: Терминов: 18204 Рубрик: 3572 Связей: 10622 • Термины связаны различными типами связей (6 типов связей в наст. время) • Термины соотносятся с рубриками рубрикатора • Изначальное наполнение: • Тезаурус по гетерогенному катализу - справочные и учебные книги по катализу • Тезаурус по фотокатализу – IUPAC Glossary (Pure Appl. Chem. v. 83, № 4, 2011) • L-граммный анализ текстовых источников (книги по катализу)

Тезаурус в информационном поиске. Создание сложного структурированного поискового запроса • Настройка на предметную область Тезаурус в информационном поиске. Создание сложного структурированного поискового запроса • Настройка на предметную область за счет использования связей между терминами поискового запроса Определение пересечения сужений Катализаторы Сужение Серебро, катализатор Использование связи «full equivalent» производства формальдегида Катализаторы производства Сужение Full equivalent Медь, катализатор Модифицированный запрос: (катализаторы производства формальдегида) && ((серебро, катализатор) | (медь, катализатор) ) метаналь формальдегида CH 2 O Модифицированный запрос: катализаторы производства (формальдегид | СH 2 O | метаналь)

Структура программного комплекса (терм. ресурс, сервисы, модуль поиска) mysql БД (тезаурус, рубрикатор) Java, php Структура программного комплекса (терм. ресурс, сервисы, модуль поиска) mysql БД (тезаурус, рубрикатор) Java, php api 1 СБитрикс Ext. JS Info. Vis Модуль поиска Пользовательский интерфейс Серверная часть Вебсервисы Вебприложение Java servlets Math. Jax Язык запросов Яндекс

Web-приложение БД (тезаурус, рубрикатор) api Модуль поиска Пользовательский интерфейс Серверная часть Веб-сервисы Веб-приложение Web-приложение БД (тезаурус, рубрикатор) api Модуль поиска Пользовательский интерфейс Серверная часть Веб-сервисы Веб-приложение

Web-приложение Web-приложение

Web-приложение Web-приложение

Web-приложение Web-приложение

Web-приложение Web-приложение

Веб-сервисы БД (тезаурус, рубрикатор) api Модуль поиска Пользовательский интерфейс Серверная часть Веб-сервисы Веб-приложение Веб-сервисы БД (тезаурус, рубрикатор) api Модуль поиска Пользовательский интерфейс Серверная часть Веб-сервисы Веб-приложение

Веб-сервисы • Веб-сервисы – часть системы, предназначенная для организации доступа к тезаурусам и рубрикаторам Веб-сервисы • Веб-сервисы – часть системы, предназначенная для организации доступа к тезаурусам и рубрикаторам из других программных систем (например, модуля поиска) • Реализация – модуль «веб-сервисы» 1 С-Битрикс Веб-сервис WSDL Термины • Получить. Список. Терминов() • Получить. Термин(Термин. ИД) Клиент SOAP

Модуль поиска БД (тезаурус, рубрикатор) api Модуль поиска Пользовательский интерфейс Серверная часть Веб-сервисы Веб-приложение Модуль поиска БД (тезаурус, рубрикатор) api Модуль поиска Пользовательский интерфейс Серверная часть Веб-сервисы Веб-приложение

Поисковый модуль - пользовательский интерфейс Поисковый модуль - пользовательский интерфейс

Поисковый модуль - пользовательский интерфейс катализаторы производства формальдегид метаналь Поисковый модуль - пользовательский интерфейс катализаторы производства формальдегид метаналь

Полученные результаты • Разработано веб-приложение для работы с тезаурусами и рубрикаторами • Разработан модуль Полученные результаты • Разработано веб-приложение для работы с тезаурусами и рубрикаторами • Разработан модуль web-сервисов • Разработаны методы использования терминологического ресурса для улучшения качества информационного поиска • Разработан поисковый модуль Созданные веб-ресурсы: • Веб - версия терминологического словаря по катализу • (http: //catalysis. ru/thezaurus/application/) • Веб- сервисы для работы с тезаурусом (http: //catalysis. ru/webservice/) • Подсистема текстового поиска на основе сервиса Яндекс (http: //catalysis. ru/thezaurus/search. Form/)

Направления дальнейшего развития • Использование методики L-граммного полнотекстового анализа: • Полуавтоматическое пополнение терминологической базы Направления дальнейшего развития • Использование методики L-граммного полнотекстового анализа: • Полуавтоматическое пополнение терминологической базы • Поиск "горячих направлений" или тенденций развития области исследования путём анализа изменения терминологической базы во времени • Сравнительный анализ текстового материала, формирование подборок близких по содержанию документов и отслеживание смысловых связей между ними путём сопоставления их L-граммных спектров • Разработка методики выявления и установления связей между терминами ПО

Спасибо за внимание Спасибо за внимание

Схема БД Схема БД

Существующие решения • Существующие тезаурусы: • IUPAC Goldbook (http: //goldbook. iupac. org) Представлен список Существующие решения • Существующие тезаурусы: • IUPAC Goldbook (http: //goldbook. iupac. org) Представлен список только самых основных терминологической понятий. • “The Chemical Thesaurus” (http: //www. chemthes. com/) Ограничен в основном списком химических соединений и химических реакций.

Существующие решения Ограничения существующих тезаурусов: • Не позволяют широко охватить предметную область • Не Существующие решения Ограничения существующих тезаурусов: • Не позволяют широко охватить предметную область • Не включают в себя большинство более узких терминов и словосочетаний, синонимы и устаревшие термины. • Отсутствует информация о связях между терминами кроме связи общее-частное. • Не представлено соотнесение терминов к конкретным подразделам данной предметной области. • Нет возможности использования в других приложениях, таких как поисковые системы и т. д.

Существующие решения • Существующие поисковые системы: • Sci. Finder (http: //www. cas. org/products/scifindr/) • Существующие решения • Существующие поисковые системы: • Sci. Finder (http: //www. cas. org/products/scifindr/) • Reaxys (http: //www. reaxys. com/) • Рассчитаны на поиск конкретных фактов в хранилищах литературных данных. • Используют предварительную экспертную разметку текстов с "привязкой" содержащейся информации к элементам собственных закрытых каталогов физикохимических свойств, химических соединений и реакций, библиографических данных. Указанные системы не могут быть применены для анализа собственных текстовых коллекций и поиска в сети Интернет.