Презентация sek3 1 paper

Скачать презентацию  sek3 1 paper Скачать презентацию sek3 1 paper

sek3_1_paper.ppt

  • Размер: 477.5 Кб
  • Количество слайдов: 23

Описание презентации Презентация sek3 1 paper по слайдам

Б. В.  Добров , Н. В. Лукашевич , М. Н. Синицын , В. Н. ШапкинБ. В. Добров , Н. В. Лукашевич , М. Н. Синицын , В. Н. Шапкин Разработка лингвистической онтологии по естественным наукам для решения задач информационного поиска (лингвистические и информационные технологии) АНО Центр информационных исследований. МГУ им. М. В. Ломоносова Научно-исследовательский вычислительный центр ГУ НИМЦ «Базис «

  Поиск научно-технической информации  обеспечениепоиска, основанногоназнаниях,  использованиесинонимов,  автоматическоерасширениезапроса,  автоматическийанализрезультатовзапроса  помощьвинтерактивномпоиске Поиск научно-технической информации обеспечениепоиска, основанногоназнаниях, использованиесинонимов, автоматическоерасширениезапроса, автоматическийанализрезультатовзапроса помощьвинтерактивномпоиске

  Традиционные средства тематического поиска - информационно-поисковые тезаурусы  Основныепонятия. ПО–дескрипторы  Условныесинонимы–аскрипторы  Отношениямеждудескрипторами: Традиционные средства тематического поиска — информационно-поисковые тезаурусы Основныепонятия. ПО–дескрипторы Условныесинонимы–аскрипторы Отношениямеждудескрипторами: — ВЫШЕ-НИЖЕ–транзитивно, несимметрично — АССОЦИАЦИЯ–симметрично —Три-четыреуровняиерархии

  Традиционные ИП тезаурусы и автоматическая обработка текстов • Процессиндексированиябазируетсяназнаниях эксперта – Удобство дляэксперта, относительнонебольшая Традиционные ИП тезаурусы и автоматическая обработка текстов • Процессиндексированиябазируетсяназнаниях эксперта – Удобство дляэксперта, относительнонебольшая величина – Дескрипторынужныдляописанияосновнойтемы – Нехватказнанийопонятияхиязыкепредметной области • Отношения – Проблемасавтоматическимрасширениемзапроса – Особенноотношениеассоциации

  Семантический поиск в Интернет – Semantic Web: ОНТОЛОГИИ  О нтология - этосистема, состоящаяизнабора Семантический поиск в Интернет – Semantic Web: ОНТОЛОГИИ О нтология — этосистема, состоящаяизнабора понятийинабораутвержденийобэтих понятиях, наосновекоторыхможностроить классы, объекты, отношения, функцииитеории Основныекомпоненты: – Классыилипонятия, примеры – Отношения, функции – Аксиомы / правилавывода

  Виды онтологий по составу 1) Словарьсопределениями 2) Простаятаксономия 3) Тезаурус(таксономиястерминами) 4) Модельспроизвольнымнабором отношений 5) Виды онтологий по составу 1) Словарьсопределениями 2) Простаятаксономия 3) Тезаурус(таксономиястерминами) 4) Модельспроизвольнымнабором отношений 5) Таксономияипроизвольныйнабор отношений 6) Полностьюаксиоматизированнаятеория (фундаментальнаяонтология)

  Виды онтологий по применению  Фундаментальныеонтологии  Прикладныеонтологии( application  ontologies)– легкиеонтологии( lightweightontologies) Виды онтологий по применению Фундаментальныеонтологии Прикладныеонтологии( application ontologies)– легкиеонтологии( lightweightontologies) тахономии, ассоциативные тезаурусы Лингвистическиеонтологии– понятияонтологии связанысо значениямиязыковыхвыражений (слов, именныхгруппит. п. )

Подходы к описанию отношений при разработке онтологий отношения–произвольныйпредикат, свойствазадаютсяаксиомами  P(x 1, …xn)  Длятого, чтобытакаясистемаПодходы к описанию отношений при разработке онтологий отношения–произвольныйпредикат, свойствазадаютсяаксиомами P(x 1, …xn) Длятого, чтобытакаясистема отношенийработала, нужностабильно находитьотношениявразнообразных текстах Ноэтопроблема!

  Формализация описания области научного знания • Цель: обеспечениеавтоматическихпроцедур тематическойобработкиипоискатекстов • Традиционныеинформационно-поисковые тезаурусы–недостаточно • Фундаментальныеонтологии–невозможно Формализация описания области научного знания • Цель: обеспечениеавтоматическихпроцедур тематическойобработкиипоискатекстов • Традиционныеинформационно-поисковые тезаурусы–недостаточно • Фундаментальныеонтологии–невозможно

  Отправная точка • Информационно-поисковыйтезауруспо общественно-политическойтематике. Ру. Тез (Общественно-политическийтезаурус) • 32 тысячипонятий • 79 тыс. Отправная точка • Информационно-поисковыйтезауруспо общественно-политическойтематике. Ру. Тез (Общественно-политическийтезаурус) • 32 тысячипонятий • 79 тыс. русскоязычныхтекстовыхвходов • 80 тыс. англоязычныхтекстовыхвходов Автоматическаяобработкатекстов • Автоматическоеконцептуальноеиндексирование • Автоматическаярубрикация • Автоматическоеаннотирование Общая лексика. Специальная лексика Промежуточная зона Специальная лексика Общая лексика. Специальная лексикаавиа комп. безопасность

  Общественно- политическая ПООбщественн ые науки Естественн ые науки. Наука vs Общественно-политическая ПО Общественно- политическая Общественно- политическая ПООбщественн ые науки Естественн ые науки. Наука vs Общественно-политическая ПО Общественно- политическая ПО

  Лингвистическая онтология по естественным наукам: сочетание трех традиций 1) разработкиинформационно-поисковыхтезаурусов (описаниетерминов, многословныетермины, простой наборотношений) Лингвистическая онтология по естественным наукам: сочетание трех традиций 1) разработкиинформационно-поисковыхтезаурусов (описаниетерминов, многословныетермины, простой наборотношений) 2) разработкилингвистическихресурсовтипа Word. Net ( связьпонятиясозначением, многоступенчатое построениелексико-терминологическойсистемы, описаниемногозначноститерминов ) 3) созданийформальныхонтологий (иерархическаясистемапонятий, отношения онтологическойзависимости, свойстватранзитивностии наследования)

  Этапы разработки :  набор коллекции текстов  Длякаждойнауки(математика, физика,  химия, биология, геология) Этапы разработки : набор коллекции текстов Длякаждойнауки(математика, физика, химия, биология, геология) – коллекции документов(от3000 до 8000 документов, от50 до 90 Мб) Источник и коллекций — документы, доступныев. Интернет: • материалышкольныхуроков; • рефераты; • университетскиелекции; • материалыспециализированныхсайтов

  Этапы разработки :  автоматическое извлечение терминов из текстов •  извлечениеименныхгрупп(2 -3 слова) Этапы разработки : автоматическое извлечение терминов из текстов • извлечениеименныхгрупп(2 -3 слова) определеннойсинтаксическойструктуры (зависимоеприлагательноеи / или существительноевродительномпадеже) • извлечениеименныхгрупппроизвольной структурыидлинынаосновеанализа частотныххарактеристик • сопоставлениесимеющимисяресурсами

  Отбор терминологии  Верхниечастичастотныхсписковпокаждойиз наук(10 тысячслов, 15 тысячсловосочетаний)  Просмотрэкспертами  Отбрасывание • Отбор терминологии Верхниечастичастотныхсписковпокаждойиз наук(10 тысячслов, 15 тысячсловосочетаний) Просмотрэкспертами Отбрасывание • явныхошибок, • общеязыковыхвыражений, • составныхконструкций, состоящихизтерминов • величинарезультирующегосписка– 32 тысячислови словосочетаний Ручнаяразметкаподдеревьев Пересечениеотобранныхтерминови Общественно-политическоготезауруса Замыканиеотношений–добавлениевышестоящихпо таксономии Использование знаний, описанных в Общественно-политическом тезаурусе

  Экспертыв. ПО vs. Инженерыпознаниям  датьопределение  описатьтаксономическиеотношения  выделитьобщеедляразныхшкол  провести. ФОРМАЛЬНЫЙАНАЛИЗ Экспертыв. ПО vs. Инженерыпознаниям датьопределение описатьтаксономическиеотношения выделитьобщеедляразныхшкол провести. ФОРМАЛЬНЫЙАНАЛИЗ Примеры: горная порода, руда, минеральное образование (бывает еще и на зубах), природное минеральное образование национальный парк, лесопарк, парк Эксперты-лингвисты– лингвистическаяонтология– работастекстамиизначениями

  Работа экспертов - 1  Источники – Загруженныесписки( «кандидаты» ), надолибоперевести «кандидата» восновнойсписок, либоудалить Работа экспертов — 1 Источники – Загруженныесписки( «кандидаты» ), надолибоперевести «кандидата» восновнойсписок, либоудалить – Энциклопедии, словари, учебники – Интернет Операции(наосновематериалаисточников) – Вводновогопонятия, – Описаниееготекстовыхвариантов(макс. полно) – Таксономическиеотношения – Отношениязависимостипонятий(наосновеанализа определений, употреблениявтексте

  Работа экспертов - 2 1)Вводновогопонятия  Список «кандидатов»  Энциклопедии, книги 2)Поископределения  Энциклопедии, Работа экспертов — 2 1)Вводновогопонятия Список «кандидатов» Энциклопедии, книги 2)Поископределения Энциклопедии, Интернет Анализопределения(анализконтекстаупотребления) • проверкаопределения– разныеопределения, старыеопределения • неполновыраженные, тольковсмысле текущегодокументаиливсмыслеподобласти • Выделениесвязанныхпонятий 3)Проверки • Употребляемость(Интернет, списки «кандидатов» ) • Анализлексическоймногозначности эвтектика (сплав vs. точкаэвтектики) триасс (эпоха vs. пласт)

  Покрытие предметной области понятийная структура терминология илексика 2004,  X тыс. 2005, VI тыс. Покрытие предметной области понятийная структура терминология илексика 2004, X тыс. 2005, VI тыс. 116, 7 132, 7 74, 0 106, 8 88, 2 — 34, 2 — 12, 0 9, 7 44, 52004, X тыс. 2005, VI тыс. 62, 7 65, 0 24, 3 56, 1 43, 7 — 14, 4 — 4, 0 6, 6 21, 1 Всего изнихиз. ОПТ «кандидаты» Науки (без «кандидат» ) изнихиз. ОПТ Итого, вкл. «географию»

  Уже можно использовать с существующим ПО Уже можно использовать с существующим ПО

  Обсуждаемые применения  Мониторинг  инновационноориентированныймониторинг, установлениесвязеймеждусервисами/ продуктамиирезультатаминаучных исследований  поддержкаэкспертизызаявокиотчетов научныхпроектов, исключениедублирования Обсуждаемые применения Мониторинг инновационноориентированныймониторинг, установлениесвязеймеждусервисами/ продуктамиирезультатаминаучных исследований поддержкаэкспертизызаявокиотчетов научныхпроектов, исключениедублирования Техническоерегулирование • поддержкаэкспертизытехнических регламентов • определениеобъектовтехрегулированияв тексте • применимостьтогоилииноготехнического регламента • определениенарушениятребований техническихрегламентов

  Выводы  Представленосостояниеработразработки лингвистическойонтологиибольшогоразмера дляавтоматическойобработкитекстов научно-техническойтематики  Ресурсбудетбесплатендлянекоммерческого применения план 2005 2006 2007 покрытие Выводы Представленосостояниеработразработки лингвистическойонтологиибольшогоразмера дляавтоматическойобработкитекстов научно-техническойтематики Ресурсбудетбесплатендлянекоммерческого применения план 2005 2006 2007 покрытие тестирование приложения