aa580c5ae69fea177f06fcfc370ffb42.ppt
- Количество слайдов: 17
Информационно-поисковые тезаурусы: основные принципы разработки, создания и использования А. В. Бочаров, ИФ ТГУ презентация по курсу «Контент-анализ»
Методическая основа семантического КА • Тема (греч. Thema – основа) – исходный смысловой пункт предложения (сообщения) • Тезаурус (от греч. - сокровище, сокровищница) – словарь, в котором указаны семантические отношения (родовидовые, синонимические и др. ) между лексическими единицами в корпусе текстов. • Классификатор контент-анализа – общая таблица (или структурированный список), в которую сведены все смысловые категории и единицы анализа, входящие в эти категории. • Классификатор-тезаурус подобен анкете, где смысловые категории анализа играют роль вопросов, а лексические единицы анализа – роль ответов.
Гипонимические ряды как основа семантического КА • Гипонимия (греч. hypo – под, внизу и onyma - имя) – иерархическая организация семантического поля на основе родо-видовых отношений. • Гипонимия основана на включении семантически однородных единиц в состав классов наименований – гиперонимов. • Информационно-поисковые тезаурусы – индексирование документов на основе единообразной замены лексических единиц стандартизированными словами и выражениями (дискрипторами), связанными гипонимически или ассоциативно.
Информационно-поисковые тезаурусы: основные принципы разработки, создания и использования Информационно-поисковый тезаурус (ИПТ) – контролируемый словарь терминов предметной области, создаваемый для улучшения качества информационного поиска в данной предметной области Традиционный ИПТ – это • искусственный язык, построенный на базе реальных терминов • лингвистические ресурсы специально для автоматической обработки текстовых коллекций
• Лукашевич Н. В. Тезаурусы в задачах информационного поиска. М. : Издательство Московского университета, 2011. - 512 с. • Соловьев В. Д. , Добров Б. В. , Иванов В. В. , и др. Онтологии и тезаурусы. Учебное пособие. Казань, Москва, 2006. 157 с.
Онтология - это система, состоящая из набора понятий и набора утверждений об этих понятиях, на основе которых можно строить классы, объекты, отношения, функции и теории. Онтология - это некоторый компьютерный ресурс, представляющий собой некоторое описание взгляда на мир применительно к конкретной области интересов. Онтология - это формальная спецификация согласованной концептуализации. Под согласованной концептуализацией подразумевается, что данная концептуализация не является частным мнением, а является общей для некоторой общности людей. Основными компонентами онтологии являются описанные в тезаурусах: классы (понятия); атрибуты; отношения; аксиомы; экземпляры.
Примеры тезаурусов • Тезаурус ООН – UNBIS Thesaurus • Тезаурус Европейского союза – Euro. Voc • Тезаурус Исследовательской службы Конгресса США – LIV • СССР – ИНИОН, Россия - ГОСТы • Стандарты ISO (International Organization for Standardization) Сферы использования онтологий в экспертных системах и базах знаний: • Collaborative knowledge management • Ontology engineering
СИСТЕМА СТАНДАРТОВ ПО ИНФОРМАЦИИ, БИБЛИОТЕЧНОМУ И ИЗДАТЕЛЬСКОМУ ДЕЛУ ТЕЗАУРУС ИНФОРМАЦИОННО-ПОИСКОВЫЙ ОДНОЯЗЫЧНЫЙ ПРАВИЛА РАЗРАБОТКИ, СТРУКТУРА, СОСТАВ И ФОРМА ПРЕДСТАВЛЕНИЯ (ГОСТ 7. 25 -2001) МЕЖГОСУДАРСТВЕННЫЙ СОВЕТ ПО СТАНДАРТИЗАЦИИ, МЕТРОЛОГИИ И СЕРТИФИКАЦИИ
Дескрипторы с пометами для тезауруса по тематике «Здравоохранение и медицина» в СМИ • Пометы для частей названия дескриптора: cranes (lifting equipment) vs. cranes (birds) • Пометы исключения словосочетаний: «больной» (except «больной вопрос» , «больная проблема» ) • Пометы предпочтения словосочетаниям: «первая помощь» versus «помощь» • Пометы для множественного числа: Wood (material) vs. Woods (forested areas) • Пометы сопоставления разных тезаурусов: shells (structures)
Выбор названия дескриптора • Общеизвестность и частотность употребления: «местный бюджет» versus «бюджет муниципального образования» • Оценочная нейтральность: «развивающиеся страны» versus «слаборазвитые страны»
Иерархические отношения в тезаурусах • Отношение примера: «Больница» version «ОКБ» «Болезнь» version «туберкулез» , «ОРВ» , «ОРЗ» • Отношение «Часть–целое» . Меронимия (партонимия) / Холонимия: Сердечно-сосудистая система (холоним) – сердце, кровеносные сосуды, кровь (партонимы).
Ассоциативные отношения • Сфера деятельности – действующее лицо : медицина– медик • Дисциплина – объект изучения: Неврология – нервная система • Действие – агент или инструмент : лечение – лекарство • Действие – результат действия : лечение – снятие симптомов • Действие – цель : лечение – выздоровление
Ассоциативные отношения • Причина-следствие : врачебная ошибка – смерть пациента • Величина – единица измерения: температура тела – градусы по Цельсию • Действие – контрагент : Аллерген – антиаллергический препарат
Этапы разработки ИПТ 1. Индексаторы описывают основную тему текста произвольными словами и словосочетаниями 2. Полученные по сводятся вместе многим текстам термины 3. Среди близких по смыслу терминов выбирается наиболее представительный 4. Некоторые из оставшихся становятся условными (ситуационными) синонимами. Условные синонимы – синонимы, явление синонимичности которых в отношении других языковых единиц зависит от сферы употребления. Пример: Мэр Томска synonym Макаров
Функции отношений в тезаурусе для автоматического индексирования • Расширение тематического запроса: сделав запрос на наличие понятия, пользователь получает систематизированный список других понятий, имеющих отношения с запрошенным понятием. • Увеличение качества выявления тематики: различные отношений между понятиями – это отдельные новые тематики и смыслы в тексте.
Покрытие терминологией тезауруса лексики текста или корпуса текстов – это параметр, показывающий: Какая часть неструктурированного текста оказывается частью или вариантами отображения структурированного тезауруса
Покрытие терминологией Тезауруса лексики НА РФ (Постановление Правительства РФ от 26 июня 1995 г. N 604) О порядке оказания безвозмездной финансовой помощи на строительство (покупку) жилья и выплаты денежной компенсации за наем (поднаем) жилых помещений военнослужащим и гражданам, уволенным с военной службы Во исполнение Закона Российской Федерации "О статусе военнослужащих" и в целях обеспечения прав на жилище военнослужащих и граждан, уволенных с военной службы, Правительство Российской Федерации п о с т а н о в л я е т : 1. Утвердить прилагаемое Положение о порядке оказания безвозмездной финансовой помощи на строительство (покупку) жилья и выплаты денежной компенсации за наем (поднаем) жилых помещений военнослужащим и гражданам, уволенным с военной службы. 2. Министерству обороны Российской Федерации и иным федеральным органам исполнительной власти , в которых предусмотрена военная служба: в месячный срок разработать и утвердить формы и перечень документов, необходимых для принятия решения об оказании военнослужащим безвозмездной финансовой помощи на строительство (покупку) жилья и о выплате денежной компенсации за наем (поднаем) жилых помещений; расходы, связанные с оказанием военнослужащим безвозмездной финансовой помощи и выплатой денежной компенсации за наем (поднаем) жилых помещений, производить за счет и в пределах средств, выделяемых из федерального бюджета по сметам этих федеральных органов исполнительной власти. 3. Органам исполнительной власти субъектов Российской Федерации: оказывать безвозмездную финансовую помощь в избранном постоянном месте жительства гражданам , уволенным с военной службы, осуществляющим строительство (покупку) жилья , за счет и в пределах средств федерального бюджета , выделяемых на жилищное строительство
aa580c5ae69fea177f06fcfc370ffb42.ppt