24_Dyachenko_Zagorulko.ppt
- Количество слайдов: 26
АВТОМАТИЧЕСКОЕ НАПОЛНЕНИЕ ИНФОРМАЦИОННЫХ СИСТЕМ БИБЛИОГРАИЧЕСКИМИ СВЕДЕНИЯМИ О НАУЧНЫХ ПУБЛИКАЦИЯХ О. О. Дяченко Новосибирский государственный университет Новосибирск, Россия Ю. А. Загорулько Институт систем информатики имени А. П. Ершова СО РАН Новосибирск, Россия RCDL – 2011, Воронеж. 19 -22 октября
ПОСТАВЛЕННЫЕ ЗАДАЧИ Разработка и реализация методов и средств автоматизации пополнения контента портала знаний, включая создание: модуля экспорта формальных описаний публикаций в формат, пригодный для использования сторонними системами модуля добавления/обновления данных портала Интеграция разработанных средств в портал знаний по компьютерной лингвистике.
ПОДХОДЫ К СОЗДАНИЮ ФОРМАЛЬНЫХ ОПИСАНИЙ ПУБЛИКАЦИЙ Research. Index (Site. Seer, NEC) Модель БД цитирования (Д. Сонг) Reference managers Biblio. Scape 8 I, Librarian Mendeley Desktop …
ТЕРМИНОЛОГИЯ Значимая часть текста - часть текста, о которой с высоким уровнем уверенности известно, что она содержит необходимую для описания текста информацию. Поле - компонент цитаты или некоторого значимого отрывка текста, представленный в тексте или цитате своим значением, образуя пару < атрибут – значение >. Пример: «автор» , «заголовок» и др. Подполе - составляющая часть сложного поля. Пример: поле «страницы» со своим значением «С. 251 -256» подполе «признак поля» >>> «С. » , «начальная страница» >>> « 251» , «конечная страница» >>> « 256» . Индикатор (или маркер) - слово или словосочетание, которые характерны для значений или признаков некоторого поля и позволяют однозначно восстановить пару «поле – значение» . Пример: «http: //» является маркером для URL в тексте.
ФОРМАЛЬНОЕ ОПИСАНИЕ СТАТЬИ Статья Описание Цитаты … Описание
ФОРМАЛЬНОЕ ОПИСАНИЕ СТАТЬИ Описание Список Авторов Поле-значение Основные поля: Поле-значение Автор, Название журнала, Год, Город, Название конференции, Том, Выпуск, Часть, Страницы, Издательство, ISBN, URL и другие. Поле-значение
ПОДХОД К АВТОМАТИЗАЦИИ ОБРАБОТКИ ТЕКСТА Генерация формального описания: Определение основной информации о статье выделение значимой части текста ( «шапки» ); определение автора, названия и др. Разбор списка цитируемой литературы. выделение списка цитируемой литературы; разбор списка на отдельные элементы (цитаты); синтаксический разбор цитаты.
СИНТАКСИЧЕСКИЙ РАЗБОР ЦИТАТ (1) Синтаксическим разбором цитаты мы будем понимать определение полей, входящих в нее, и нахождение их значений. Синтаксический разбор осуществляется путем сопоставления цитаты различным шаблонам: <шаблон> : : = {<блок-поле>|<симв. блок>}+ Символьный блок – набор литер, которые обязательны для присутствия в цитате в указанном в шаблоне порядке. Пример: «//» , - присутствует описаниях журнальных статей. Блок-поле – блок, соответствующий некоторому полю. Пример: <Автор> Каждому шаблону присвоен свой вес, обозначающий его авторитетность.
СИНТАКСИЧЕСКИЙ РАЗБОР ЦИТАТ (2) Этапы: нормализация цитаты; поиск полей цитаты среди цитат, имеющихся в библиографической базе; применение шаблонов. Нормализация цитаты - это устранение из цитаты незначимых символов, приведение ее к виду, удобному для сопоставления с шаблонами. Включает удаление повторяющихся пробелов, некоторых комбинаций символов и др.
ТЕСТОВЫЕ ДАННЫЕ (НА ОСНОВЕ 50 СТАТЕЙ) Общее число Число выполненных Процент Шапка (отделение) 50 50 100% Шапка (разбор) 50 48 96% Хвост (отделение) 48 47 >95% Цитат 542 485 >85% Мелкие ошибки 542 69 <15% Не разобрано 542 57 <15%
ПРОБЛЕМА ПОПОЛНЕНИЯ КОНТЕНТА ПОРТАЛА
ПРОБЛЕМА ПОПОЛНЕНИЯ КОНТЕНТА ПОРТАЛА Полные и неполные написания Опыт теории лингвистических моделей «Смысл - Текст» Опыт теории лингвистических моделей Ошибки и различные написания Опыт теории лингвистических моделей «Смысл - Текст» ОПЫТ ТЕОРИИ ЛИНГВИСТИЧЕСКИХ МОДЕЛЕЙ
МЕТОДЫ ПОПОЛНЕНИЯ КОНТЕНТА ПОРТАЛА Добавить статью Есть с таким же названием Добавить связи цитирования Добавить данные как новую статью Добавить связи с авторами Есть общая ссылка Запомнить ID Уже есть в базе. Добавить новые данные. Добавить ссылки Добавить авторов
МЕТОДЫ ПОПОЛНЕНИЯ КОНТЕНТА ПОРТАЛА Добавить автора Есть с с такой же фамилией и именем Есть совпадающий email? Найден Новый То же место работы? Тот же город?
ПАРАМЕТРЫ МЕТОДА Строки сравниваются на основе расстояния Левенштейна — минимальное количество операций вставки одного символа, удаления одного символа и замены одного символа на другой, необходимых для превращения одной строки в другую. Процент расстояния Левенштейна от минимальной длины сравниваемых строк
ПАРАМЕТРЫ МЕТОДА Строки считаются совпадающими, если расстояние меньше заданного порогового значения Варьируя пороговые значения, можно менять качество сравнения объектов
КАЧЕСТВО СРАВНЕНИЯ ПРИ РАЗЛИЧНЫХ ПАРАМЕТРАХ 2000 выделенных названий, 71 уже присутствовали в БД Порог Число отожд. Число ошиб. 90 50 30 25 20 10 5 1468 114 75 72 71 64 63 1397 43 4 1 0 7 8 Среди добавляемых 1378 авторов, только 105 персон уже оказались существующими в БД
РЕЗУЛЬТАТЫ РАБОТЫ Разработаны методы и средства создания формальных описаний научных статей и БД цитирования. Реализована возможность экспортирования полученных формальных описаний в формат XML. Разработаны методы и средства автоматизации пополнения контента портала знаний данными о публикациях по тематике портала знаний. Проведены тестирование разработанных методов на реальных данных (труды конф. Диалог 2005 -2010).
ЗАКЛЮЧЕНИЕ И ПЕРСПЕКТИВЫ Добавить возможность конвертации имеющихся в базе цитат в другие форматы, например, Bib. Tex. Реализовать поддержку различных форматов документов (*. pdf, *. doc, *. html). Добавить функциональность Reference Manager’ов: Конвертация полученных цитат в форматы, необходимые для различных видов публикаций (например, стандарты оформления ссылок в журналах). Визуализация связей между цитатами и авторами.
БЛАГОДАРНОСТИ Работа выполняется при финансовой поддержке РФФИ (проект № 09 -07 -00400).
СПАСИБО ЗА ВНИМАНИЕ!
ПРЕДСТАВЛЕ НИЕ ФОРМАЛЬНОГ О ОПИСАНИЯ
РАЗБОР С ПОМОЩЬЮ ШАБЛОНОВ определение типа цитаты; Журнальная статья, книга, труды конференций, электронный источник или серийные издания. применение всех полных шаблонов, подходящих типу цитаты; Выбор среди подошедших наилучшего по весу, далее по количеству блоков-полей «жадное» отделение данных при помощи частичных шаблонов.
1. ОПРЕДЕЛЕНИЕ ИНФОРМАЦИИ О СТАТЬЕ Отделение «шапки» : наличие индикаторов начала глав; наличие маркеров ключевых слов; «Введение» , «Introduction» и др. «Ключевые слова» , «Keywords» наличие маркеров аннотации; «Статья содержит» , «в работе рассматривается» и др. определение начала первой главы «по большому количеству слов» положение авторов. Разбор происходит с использованием тех же маркеров и шаблонов.
2. ОПРЕДЕЛЕНИЕ И РАЗДЕЛЕНИЕ СЦЛ Отделение списка литературы: по наличию маркеров; по «большому количеству» авторов; по нумерации; по «пустым» строкам; Разделение списка литературы: по нумерации; по специальным маркерам ( «Guaridano 2003 » ); по переводу строки;
ПРИМЕР 1: <Автор><Название>//<Источник>: <Выпуск><Год><Другое> 2: <Автор><Название>//<Источник><Том><Год><Другое> 3: <Автор><Название>//<Источник><Город><Год> <Том> <Страницы> Загорулько Ю. А. , Боровикова О. И. Технология построения онтологий для порталов знаний по гуманитарным наукам // Труды Всероссийской конференции с международным участием “Знания-Онтологии -Теории” (ЗОНТ-07). Новосибирск, 2007. Т. 1, С. 191 -200.
24_Dyachenko_Zagorulko.ppt