Скачать презентацию Информационно-поисковые тезаурусы основные принципы разработки создания и использования Скачать презентацию Информационно-поисковые тезаурусы основные принципы разработки создания и использования

aa580c5ae69fea177f06fcfc370ffb42.ppt

  • Количество слайдов: 17

Информационно-поисковые тезаурусы: основные принципы разработки, создания и использования А. В. Бочаров, ИФ ТГУ презентация Информационно-поисковые тезаурусы: основные принципы разработки, создания и использования А. В. Бочаров, ИФ ТГУ презентация по курсу «Контент-анализ»

Методическая основа семантического КА • Тема (греч. Thema – основа) – исходный смысловой пункт Методическая основа семантического КА • Тема (греч. Thema – основа) – исходный смысловой пункт предложения (сообщения) • Тезаурус (от греч. - сокровище, сокровищница) – словарь, в котором указаны семантические отношения (родовидовые, синонимические и др. ) между лексическими единицами в корпусе текстов. • Классификатор контент-анализа – общая таблица (или структурированный список), в которую сведены все смысловые категории и единицы анализа, входящие в эти категории. • Классификатор-тезаурус подобен анкете, где смысловые категории анализа играют роль вопросов, а лексические единицы анализа – роль ответов.

Гипонимические ряды как основа семантического КА • Гипонимия (греч. hypo – под, внизу и Гипонимические ряды как основа семантического КА • Гипонимия (греч. hypo – под, внизу и onyma - имя) – иерархическая организация семантического поля на основе родо-видовых отношений. • Гипонимия основана на включении семантически однородных единиц в состав классов наименований – гиперонимов. • Информационно-поисковые тезаурусы – индексирование документов на основе единообразной замены лексических единиц стандартизированными словами и выражениями (дискрипторами), связанными гипонимически или ассоциативно.

Информационно-поисковые тезаурусы: основные принципы разработки, создания и использования Информационно-поисковый тезаурус (ИПТ) – контролируемый словарь Информационно-поисковые тезаурусы: основные принципы разработки, создания и использования Информационно-поисковый тезаурус (ИПТ) – контролируемый словарь терминов предметной области, создаваемый для улучшения качества информационного поиска в данной предметной области Традиционный ИПТ – это • искусственный язык, построенный на базе реальных терминов • лингвистические ресурсы специально для автоматической обработки текстовых коллекций

 • Лукашевич Н. В. Тезаурусы в задачах информационного поиска. М. : Издательство Московского • Лукашевич Н. В. Тезаурусы в задачах информационного поиска. М. : Издательство Московского университета, 2011. - 512 с. • Соловьев В. Д. , Добров Б. В. , Иванов В. В. , и др. Онтологии и тезаурусы. Учебное пособие. Казань, Москва, 2006. 157 с.

Онтология - это система, состоящая из набора понятий и набора утверждений об этих понятиях, Онтология - это система, состоящая из набора понятий и набора утверждений об этих понятиях, на основе которых можно строить классы, объекты, отношения, функции и теории. Онтология - это некоторый компьютерный ресурс, представляющий собой некоторое описание взгляда на мир применительно к конкретной области интересов. Онтология - это формальная спецификация согласованной концептуализации. Под согласованной концептуализацией подразумевается, что данная концептуализация не является частным мнением, а является общей для некоторой общности людей. Основными компонентами онтологии являются описанные в тезаурусах: классы (понятия); атрибуты; отношения; аксиомы; экземпляры.

Примеры тезаурусов • Тезаурус ООН – UNBIS Thesaurus • Тезаурус Европейского союза – Euro. Примеры тезаурусов • Тезаурус ООН – UNBIS Thesaurus • Тезаурус Европейского союза – Euro. Voc • Тезаурус Исследовательской службы Конгресса США – LIV • СССР – ИНИОН, Россия - ГОСТы • Стандарты ISO (International Organization for Standardization) Сферы использования онтологий в экспертных системах и базах знаний: • Collaborative knowledge management • Ontology engineering

СИСТЕМА СТАНДАРТОВ ПО ИНФОРМАЦИИ, БИБЛИОТЕЧНОМУ И ИЗДАТЕЛЬСКОМУ ДЕЛУ ТЕЗАУРУС ИНФОРМАЦИОННО-ПОИСКОВЫЙ ОДНОЯЗЫЧНЫЙ ПРАВИЛА РАЗРАБОТКИ, СТРУКТУРА, СИСТЕМА СТАНДАРТОВ ПО ИНФОРМАЦИИ, БИБЛИОТЕЧНОМУ И ИЗДАТЕЛЬСКОМУ ДЕЛУ ТЕЗАУРУС ИНФОРМАЦИОННО-ПОИСКОВЫЙ ОДНОЯЗЫЧНЫЙ ПРАВИЛА РАЗРАБОТКИ, СТРУКТУРА, СОСТАВ И ФОРМА ПРЕДСТАВЛЕНИЯ (ГОСТ 7. 25 -2001) МЕЖГОСУДАРСТВЕННЫЙ СОВЕТ ПО СТАНДАРТИЗАЦИИ, МЕТРОЛОГИИ И СЕРТИФИКАЦИИ

Дескрипторы с пометами для тезауруса по тематике «Здравоохранение и медицина» в СМИ • Пометы Дескрипторы с пометами для тезауруса по тематике «Здравоохранение и медицина» в СМИ • Пометы для частей названия дескриптора: cranes (lifting equipment) vs. cranes (birds) • Пометы исключения словосочетаний: «больной» (except «больной вопрос» , «больная проблема» ) • Пометы предпочтения словосочетаниям: «первая помощь» versus «помощь» • Пометы для множественного числа: Wood (material) vs. Woods (forested areas) • Пометы сопоставления разных тезаурусов: shells (structures)

Выбор названия дескриптора • Общеизвестность и частотность употребления: «местный бюджет» versus «бюджет муниципального образования» Выбор названия дескриптора • Общеизвестность и частотность употребления: «местный бюджет» versus «бюджет муниципального образования» • Оценочная нейтральность: «развивающиеся страны» versus «слаборазвитые страны»

Иерархические отношения в тезаурусах • Отношение примера: «Больница» version «ОКБ» «Болезнь» version «туберкулез» , Иерархические отношения в тезаурусах • Отношение примера: «Больница» version «ОКБ» «Болезнь» version «туберкулез» , «ОРВ» , «ОРЗ» • Отношение «Часть–целое» . Меронимия (партонимия) / Холонимия: Сердечно-сосудистая система (холоним) – сердце, кровеносные сосуды, кровь (партонимы).

Ассоциативные отношения • Сфера деятельности – действующее лицо : медицина– медик • Дисциплина – Ассоциативные отношения • Сфера деятельности – действующее лицо : медицина– медик • Дисциплина – объект изучения: Неврология – нервная система • Действие – агент или инструмент : лечение – лекарство • Действие – результат действия : лечение – снятие симптомов • Действие – цель : лечение – выздоровление

Ассоциативные отношения • Причина-следствие : врачебная ошибка – смерть пациента • Величина – единица Ассоциативные отношения • Причина-следствие : врачебная ошибка – смерть пациента • Величина – единица измерения: температура тела – градусы по Цельсию • Действие – контрагент : Аллерген – антиаллергический препарат

Этапы разработки ИПТ 1. Индексаторы описывают основную тему текста произвольными словами и словосочетаниями 2. Этапы разработки ИПТ 1. Индексаторы описывают основную тему текста произвольными словами и словосочетаниями 2. Полученные по сводятся вместе многим текстам термины 3. Среди близких по смыслу терминов выбирается наиболее представительный 4. Некоторые из оставшихся становятся условными (ситуационными) синонимами. Условные синонимы – синонимы, явление синонимичности которых в отношении других языковых единиц зависит от сферы употребления. Пример: Мэр Томска synonym Макаров

Функции отношений в тезаурусе для автоматического индексирования • Расширение тематического запроса: сделав запрос на Функции отношений в тезаурусе для автоматического индексирования • Расширение тематического запроса: сделав запрос на наличие понятия, пользователь получает систематизированный список других понятий, имеющих отношения с запрошенным понятием. • Увеличение качества выявления тематики: различные отношений между понятиями – это отдельные новые тематики и смыслы в тексте.

Покрытие терминологией тезауруса лексики текста или корпуса текстов – это параметр, показывающий: Какая часть Покрытие терминологией тезауруса лексики текста или корпуса текстов – это параметр, показывающий: Какая часть неструктурированного текста оказывается частью или вариантами отображения структурированного тезауруса

Покрытие терминологией Тезауруса лексики НА РФ (Постановление Правительства РФ от 26 июня 1995 г. Покрытие терминологией Тезауруса лексики НА РФ (Постановление Правительства РФ от 26 июня 1995 г. N 604) О порядке оказания безвозмездной финансовой помощи на строительство (покупку) жилья и выплаты денежной компенсации за наем (поднаем) жилых помещений военнослужащим и гражданам, уволенным с военной службы Во исполнение Закона Российской Федерации "О статусе военнослужащих" и в целях обеспечения прав на жилище военнослужащих и граждан, уволенных с военной службы, Правительство Российской Федерации п о с т а н о в л я е т : 1. Утвердить прилагаемое Положение о порядке оказания безвозмездной финансовой помощи на строительство (покупку) жилья и выплаты денежной компенсации за наем (поднаем) жилых помещений военнослужащим и гражданам, уволенным с военной службы. 2. Министерству обороны Российской Федерации и иным федеральным органам исполнительной власти , в которых предусмотрена военная служба: в месячный срок разработать и утвердить формы и перечень документов, необходимых для принятия решения об оказании военнослужащим безвозмездной финансовой помощи на строительство (покупку) жилья и о выплате денежной компенсации за наем (поднаем) жилых помещений; расходы, связанные с оказанием военнослужащим безвозмездной финансовой помощи и выплатой денежной компенсации за наем (поднаем) жилых помещений, производить за счет и в пределах средств, выделяемых из федерального бюджета по сметам этих федеральных органов исполнительной власти. 3. Органам исполнительной власти субъектов Российской Федерации: оказывать безвозмездную финансовую помощь в избранном постоянном месте жительства гражданам , уволенным с военной службы, осуществляющим строительство (покупку) жилья , за счет и в пределах средств федерального бюджета , выделяемых на жилищное строительство