
ccb56f3bb64a40e74a3205149d41d626.ppt
- Количество слайдов: 36
Технологическая схема индексирования на базе информационно-поисковых языков координатного типа Скипор И. Л. , канд. пед. наук, доцент кафедры ТАОИ Кемеровского государственного университета культуры и искусств (384 -2) 35 -80 -63 e-mail: taoi@kemguki. ru www. taoi. kemguki. ru
План 1. Средства реализации технологии координатного индексирования 2. Состав и характеристика операций, выполняемых при координатном индексировании 3. Избыточное индексирование 4. Соотношение формализуемых и неформализуемых процедур при координатном индексировании
Средства реализации технологии координатного индексирования 1. Информационно-поисковые языки: • информационно-поисковые тезаурусы (ИПТ); • дескрипторные словари; • словари ключевых слов 2. Стандарты: • ГОСТ 7. 66 -92 СИБИД. Индексирование документов. Общие требования к координатному индексированию • ГОСТ 7. 0. 47 -2008 СИБИД. Формат для представления на машиночитаемых носителях словарей информационных языков и терминологических данных. Содержание записи • ГОСТ 7. 24 -2007 СИБИД. Тезаурус информационно-поисковый многоязычный. Состав, структура и основные требования к построению • ГОСТ 7. 25 -2001 СИБИД. Тезаурус информационно-поисковый одноязычный. Правила разработки, структура, состав и форма представления • ГОСТ 7. 52 -85 СИБИД. Коммуникативный формат для обмена библиографическими данными на магнитной ленте. Поисковый образ документа • ГОСТ ИСО 8601 -2001 СИБИД. Представление дат и времени. Общие требования 3. Методики, инструкции, правила и т. п. координатного индексирования
Этапы индексирования I этап. Анализ содержания и формы индексируемого сообщения II этап. Перевод результатов анализа с естественного языка на ИПЯ 1. 1 Анализ содержания документа (запроса, факта) и формы документа как объекта индексирования 1. 2 Выбор понятий, характеризующих содержание документа (запроса, факта), форму документа 2. 1 Выбор терминов индексирования для обозначения понятий 2. 2 Формирование поискового образа документа (запроса, факта) из терминов индексирования
Элементы издания, подлежащие анализу при выделении ключевых слов, характеризующих основное смысловое содержание документа Ø справочный аппарат издания (титульный лист, предисловие/ введение, послесловие/заключение, содержание/ оглавление, аннотация, реферат и др. ); Ø заголовки частей и глав; Ø первые фразы глав и параграфов; Ø иллюстрации, схемы, таблицы и подписи к ним; Ø слова и группы слов, выделенные в тексте специальными полиграфическими средствами; Ø ключевые слова, присвоенные автором/ составителем документа.
Элементы электронного документа, подлежащие анализу при выделении ключевых слов, характеризующих его основное смысловое содержание Ø Ø Ø Ø Ø титульный экран; основное меню; заглавие электронного документа; аннотации, представленные на вкладышах и/ или этикетках; сведения об электронном документе (программе, сайте и т. п. ); содержание/ оглавление электронного ресурса; предисловие и заключение, представленные на титульном или ином экране; список литературы/ библиография; алфавитно-предметный указатель; глоссарий/ словарь терминов.
Перечень характеристик, подлежащих отражению в поисковом образе документа Ø предмет рассмотрения (например, тракторы, документы первичные, системы информационные); Ø содержательный аспект рассмотрения (ремонт, комплектование); Ø территориальный аспект (Кузбасс, г. Москва, Красноярский край); Ø хронологический аспект (1954 г. , 20 -е гг. , 20 -50 -е гг. ); Ø вид издания (учебники, пособия учебные, монографии, стандарты); Ø язык издания.
Условия тождественной замены ключевых слов лексическими единицами дескрипторного ИПЯ 1. Ключевое слово полностью совпадает с дескриптором 2. Ключевое слово совпадает с имеющимся в дескрипторном словаре (ИПТ) аскриптором, сопровождаемым пометой см. 3. Ключевое слово, представленное словосочетанием, совпадает с дескриптором в прямом или в инвертированном виде 4. Для каждого слова, входящего в состав словосочетания, найдены дескрипторы- отдельные слова 5. Для каждого из терминоэлементов ключевого слова, представленного сложным словом, найдены дескрипторы (в т. ч. однокоренные существительные, прилагательные)
Избыточное индексирование Восходящее индексирование üосуществляется при индексировании документов; ü предполагает включение в ПОД вышестоящих по отношению к данному дескрипторов/ ключевых слов Нисходящее индексирование üосуществляется при индексировании запросов; ü предполагает включение в ПОЗ нижестоящих по отношению к данному дескрипторов/ ключевых слов
Проведение операции избыточного индексирования Ключевые слова документа или запроса Тезаурусы информационнопоисковые Дескрипторы Избыточное индексирование Восходящее Тезаурусы информационнопоисковые с ИПТ в Языки информационнопоисковые дескрипторные Нисходящее н Тезаурусы информационнопоисковые многоязычные Тезаурусы информационнопоисковые монотематические Тезаурусы информационнопоисковые одноязычные Тезаурусы информационнопоисковые политематические
Группы правил координатного индексирования 1. Правила нормализации ключевых слов на морфологическом уровне: 1. 1. Правила приведения к единой форме записи ключевого слова (род, падеж, число) 1. 2. Правила использования слов и словосочетаний 1. 3. Правила установления порядка слов в словосочетании 2. Правила нормализации ключевых слов на семантическом уровне: 2. 1. Правила субстантивации прилагательных, причастий и глаголов 2. 2. Правила устранения синонимии и полисемии
Группы правил координатного индексирования 3. Правила представления специфических характеристик 3. 1. Правила написания географических названий 3. 2. Правила написания номенклатур (названий технических, программных средств, торговых марок, фирм и т. п. ) 3. 3. Правила написания дат и хронологических периодов 3. 4. Правила написания имен собственных и персоналий 3. 5. Правила описания видов изданий 4. Правила оформления ключевых слов
Использование единственного и множественного числа при нормализации ключевых слов Тип термина Критерий выбора числа единственного множественного 1. Термины, обозначающие субстанции, вещества (химические соединения, смеси, материалы) Если термин выражает видовое (единичное понятие). Например: хлоратан, целлофан Если термин выражает родовое (общее понятие). Например: амины, растворители 2. Термины, обозначающие свойства, условия, характеристики Если термин выражает видовое (единичное понятие). Например: мощность, напряжение, частота Если термин выражает родовое (общее понятие). Например: условия залегания, физические свойства
Использование единственного и множественного числа при нормализации ключевых слов Тип термина Критерий выбора числа единственного множественного 3. Термины, служащие Не применяется для обозначения приборов, оборудования Применяется всегда. Например: аккумуляторы, распылители 4. Термины, обозначающие процессы Не применяется Применяется всегда. Например: поиск, хранение, чтение 5. Термины, в состав В зависимости от смысла которых входят имена Теорема Бернулли Законы Ньютона собственные
Использование единственного и множественного числа при нормализации ключевых слов Тип термина Критерий выбора числа единственного множественного 6. Наименование научных дисциплин Применяется всегда. Например: гидравлика, физика, биология Не применяется 7. Термины, обозначающие исчисляемые события и явления Не применяется Применяется всегда. Например: разряды, взрывы, войны
Лингвистические критерии распознавания устойчивых словосочетаний Правило Пример 1. Словосочетание является устойчивым, если над ним без потери смысла нельзя провести ни одной из следующих операций: а) заменить составляющие его слова синонимами; б) заменить прилагательное существительным с предлогом; в) заменить основное слово его производным; г) изменить порядок слов в словосочетании. Ни одной из этих операций нельзя произвести над словосочетанием «железная дорога»
Лингвистические критерии распознавания устойчивых словосочетаний Правило Пример 2. Словосочетание является устойчивым, если при его образовании одно из слов изменяет свое значение, т. е. происходит переосмысление одного из компонентов словосочетания. «легкая промышленность» (переосмысливается прилагательное «легкая» ); «земная ось» (переосмысливается существительное «ось» ) 3. Словосочетание можно считать устойчивым, если оно употребляется только в единственном числе, либо преимущественно во множественном числе. «автоматический перевод» , «термореактивная бумага» , «библиотечное дело» , «английский язык» , «восточные языки» , «строительные материалы» , «продукты питания» .
Лингвистические критерии распознавания устойчивых словосочетаний Правило Пример 4. Словосочетание является устойчивым, если оно имеет один или несколько синонимов. «стеклоотливные машины» – «линотипы» ; «полупроводниковые триоды» - «транзисторы» ; «суперпозиционные перфокарты» – «просветные карты» – «визуальные перфокарты» ; «символическая логика» – «математическая логика» – «алгебра логики» 5. Устойчивыми являются словосочетания, представляющие собой имена собственные или включающие собственные имена в качестве компонентов. «Новая Гвинея» , «Латинская Америка» , «таблица Менделеева» , «эффект Доплера» , «маятник Фуко»
Прагматические критерии распознавания устойчивых словосочетаний 1) Следует сохранять словосочетание, если в данном словаре ключевых слов очень мала вероятность использования его компонентов по отдельности; 2) Следует сохранять часто встречающиеся словосочетания, разделение которых в принципе возможно, но неэкономично с точки зрения ввода в автоматизированную библиотечноинформационную систему.
Морфологический анализ ключевых слов в составе поисковых образов документов
Способы достижения однозначности лексических единиц Устранение синонимии Устранение омонимии и полисемии пометы: см с развертывание слова до словосочетания Пометы в круглых скобках (реляторы) Языковедение см ЯЗЫКОЗНАНИЕ с Лингвистика Языковедение ТЕХНОЛОГИИ БИБЛИОТЕЧНЫЕ ТЕХНОЛОГИИ ИНФОРМАЦИОННЫЕ БИБЛИОГРАФИЯ (деятельность) БИБЛИОГРАФИЯ (наука) БИБЛИОГРАФИЯ (указатель литературы)
Виды эквивалентности ключевых слов Ø имманентная Ø факультативная
Имманентная (безусловная) эквивалентность ключевых слов 1) лексические синонимы (например, дефект = неисправность; габарит = размер); 2) полное наименование и общепринятое сокращение, аббревиатура (например, автоматизированные информационные системы = АИС; избирательное распространение информации = ИРИ; запись видеомагнитная = видеозапись).
Факультативная (условная) эквивалентность ключевых слов 1) эллипсы (пропуски слов в речи), имеющие хождение в той или иной отрасли знания (например, машина = электронновычислительная машина; инфракрасный = диапазон инфракрасный); 2) квазисинонимы, т. е. семантически родственные слова, смысловым различием которых можно пренебречь в рамках данной ИПС (например, воздух = атмосфера; местоположение = координата; диаметр = радиус); 3) термины, выражающие понятия и представления, связанные логическими отношениями и психологическими ассоциациями (например, авиация = самолет; алюминий = дюраль; точность = ошибка).
Правила устранения синонимии Заглавие Ключевые слова Актуальные вопросы взаимодействия членов инженернопедагогического коллектива профтехучилища по воспитанию учащихся ПРОФЕССИОНАЛЬНО-ТЕХНИЧЕСКОЕ УЧИЛИЩЕ, УЧЕБНО-ВОСПИТАТЕЛЬНАЯ РАБОТА, ПТУ СМ. ПРОФЕССИОНАЛЬНО-ТЕХНИЧЕСКОЕ УЧИЛИЩЕ, ВОСПИТАНИЕ МОЛОДЕЖИ, КАДРЫ ИНЖЕНЕРНОПЕДАГОГИЧЕСКИЕ, КОЛЛЕКТИВ ПЕДАГОГИЧЕСКИЙ, ВЗАИМОДЕЙСТВИЕ В ВОСПИТАНИИ, ВЗАИМОДЕЙСТВИЕ, ВОСПИТАНИЕ В ПРОФТЕХУЧИЛИЩЕ, УЧАЩИЙСЯ ПРОФЕССИОНАЛЬНО-ТЕХНИЧЕСКОГО УЧИЛИЩА Заглавие Адреса передового опыта Ключевые слова БЕЛОРУССКАЯ ССР, АГРОПРОМЫШЛЕННЫЙ КОМПЛЕКС, БЕЛОРУССИЯ см. также БЕЛАРУСЬ, БЕЛОРУССКАЯ ССР, ПЕРЕДОВОЙ ОПЫТ
Правила устранения полисемии и омонимии (использование специальных помет) Заглавие Волны. Оптика Ключевые слова ВОЛНА (ФИЗ. ), ВОЛНА УПРУГАЯ, ВОЛНА ЭЛЕКТРОМАГНИТНАЯ, ОПТИКА, ИНТЕРФЕРЕНЦИЯ СВЕТА, ДИФРАКЦИЯ СВЕТА, ПОЛЯРИЗАЦИЯ СВЕТА, ДИСПЕРСИЯ СВЕТА, ПОГЛОЩЕНИЕ СВЕТА, РАССЕЯНИЕ СВЕТА, ЭФФЕКТ ВАВИЛОВА-ЧЕРЕНКОВА Основы математического анализа Заглавие Ключевые слова ЧИСЛА ВЕЩЕСТВЕННЫЕ, ФУНКЦИЯ (МАТ. ), ФУНКЦИЯ ОДНОЙ ПЕРЕМЕННОЙ, ТЕОРИЯ ПРЕДЕЛОВ, ПРЕДЕЛ ФУНКЦИИ, СХОДИМОСТЬ (МАТ. ), ФУНКЦИЯ НЕПРЕРЫВНАЯ, ДИФФЕРЕНЦИРОВАНИЕ, ПРОИЗВОДНАЯ (МАТ. ), ДИФФЕРЕНЦИАЛ, ТЕОРЕМА ФЕРМА, ТЕОРЕМА Ролля, ФОРМУЛА Тейлора, ИССЛЕДОВАНИЕ ФУНКЦИЙ, ФУНКЦИЯ НЕСКОЛЬКИХ ПЕРЕМЕННЫХ, ЭКСТРЕМУМ ФУНКЦИЙ, ФУНКЦИЯ ПЕРВООБРАЗНАЯ, ИНТЕГРАЛ НЕОПРЕДЕЛЕННЫЙ, ИНТЕГРИРОВАНИЕ, , ИНТЕГРАЛ ОПРЕДЕЛЕННЫЙ, ВЫЧИСЛЕНИЕ ИНТЕГРАЛА, ИСЧИСЛЕНИЕ ИНТЕГРАЛЬНОЕ
Правила устранения полисемии и омонимии (развертывание слова до словосочетания ) 8. Омская государственная областная научная библиотека им. А. С. Пушкина. ogonbp_gak - Основной каталог Заглавие Ключевые слова Интенсификация работы листоформовочных машин асбестоцементной промышленности АСБЕСТОЦЕМЕНТ, ИНТЕНСИФИКАЦИЯ ПРОИЗВОДСТВА, Лист асбестоцементный, Листоформовочная машина, ПРОМЫШЛЕННОСТЬ асбестоцементная Заглавие Фотосинтетический аппарат и световой режим Ключевые слова ЛИСТ, ФОТОСИНТЕЗ Заглавие Больничный лист Ключевые слова Больничный лист
Правила написания географических названий Заглавие Речные круизы Ключевые слова ПУТЕВОДИТЕЛЬ, КРУИЗ речной, МОСКВА, УГЛИЧ (Г. ), МОСКВА (Р. ), ЯРОСЛАВЛЬ, КОСТРОМА (г. ), НИЖНИЙ НОВГОРОД, Череповец (г. ), КИРИЛЛОВ (Г. ), ПЕТРОЗАВОДСК, КИЖИ, ВАЛААМ, САНКТ-ПЕТЕРБУРГ, ПУТЕШЕСТВИЕ речное, ДОСТОПРИМЕЧАТЕЛЬНОСТЬ, ОТДЫХ, РЕСТОРАН, ГОСТИНИЦА, РЫБИНСК (Г. ) Заглавие Венок усадьбам Ключевые слова ПАМЯТНИК АРХИТЕКТУРЫ, АРХИТЕКТУРА РУССКАЯ, ПОДМОСКОВЬЕ, КУСКОВО, ОСТАНКИНО, ПЕТРОВСКОЕ (С. ), ВВЕДЕНское, РОЖДЕСТВЕНО, ЗНАМЕНСКОе, АРХАНГЕЛЬСКОЕ, ВОЛОКОЛАМСК (Г. ), ЯРОПОЛЬЦ, СТАРИЦА, УГЛИЧ (Г. ), МАРФИНО, АБРАМЦЕВО, МУРАНОВО, ГЛИНки, ГОРЕНк. И, МОСКВА (Р. ), ЦАРИЦЫНО, КОНСТАНТИНОВО, ИВАНОВСКое, ДУБРОВИЦЫ, ДВОРЕЦ, ЦЕРКОВЬ ПРАВОСЛАВНАЯ РУССКАЯ, ПАМЯТНИК ПИСАТЕЛЮ, ПАВИЛЬОН, УСАДЬБА ДВОРЯНСКАЯ, СОБОР, МАВЗОЛЕЙ, КОЛОКОЛЬня, ИНТЕРЬЕР (АРХИТ. ), БЕСЕДк. А, ИСКУССТВОВЕД, ИСТОРИЯ АРХИТЕКТУРЫ
Правила написания названий номеклатур (технических программных средств, торговых марок, фирм и т. п. ) Результаты поиска: Интернет (330) Internet (27) Интернет ИЛИ Internet (354) Интернет И Internet (23) Интернет И-НЕ Internet (262) Заглавие Эффективная работа с Corel Draw 8 Предмет вычислительная техника программирование coreldraw 8 windous corel фирма macintosh internet corelscan
Правила написания дат и хронологических периодов ü При описании века используют арабские цифры и «в» без точки и пробелов. Например, 19 в, 20 в ü Устоявшиеся названия веков или иных временных периодов записываются как одна лексическая единица. Например, Серебряный век, Бронзовый век, средневековье ü Годы записываются арабскими цифрами и буквой «г» для одного года или «гг» для интервала лет. Например, 1954 г, 1941 -1945 гг ü Десятилетия записываются арабскими цифрами, дефис, «е» , интервал и «гг» . Например, 20 -е гг; 20 -50 -е гг
Правила написания имен собственных и персоналий ü Имена собственные, присвоенные неодушевленным предметам, событиям и т. п. , а также объединениям и партиям, пишутся в кавычках. Например, «Багратион» , «Адмирал Нахиов» , «Комсомолец» , «Яблоко» и т. п. ü Имена литературных героев, персонажей художественных и анимационных фильмов, спектаклей и т. п. приводятся в КС с соответствующим уточнением «литературные персонажи» или «персонажи» . Например: Раскольников; литературные персонажи; Евгений Онегин; Владимир Ленский; литературные персонажи; Бемби; персонажи
Правила отражения видов изданий Заглавие Экономико-математический словарь. Словарь современной экономической науки Предмет экономика словари справочная литература математика экономико-математический анализ Заглавие Энциклопедический словарь юного математика: для среднего и старшего школьного возраста / сост. А. П. Савин; ред. Л. В. Звягинцев Предмет НАУКА РАЗВИТИЕ ИСТОРИЯ ПОНЯТИЯ ТЕРМИНЫ ЛОГИКА МЫШЛЕНИЕ УЧЕНЫЕ
Соотношение формализуемых и неформализуемых процедур, осуществляемых в ходе координатного индексирования Формализуемые операции Интеллектуальные операции 1. Анализ и определение содержания и формы документа: Выделить ключевые слова, характеризующие содержание документа из названия документа, наименований частей, разделов, глав и т. д. ); Выделить ключевые слова, характеризующие форму документа, из элементов справочного аппарата
Соотношение формализуемых и неформализуемых процедур, осуществляемых в ходе координатного индексирования Формализуемые операции Интеллектуальные операции 2. Выбор понятий, характеризующих содержание документов: - соотнести выделенное ключевое слово с ключевым словом в структуре запросов пользователей ИПС; - соотнести выделенное ключевое слово со списком характеристик, которые признаются важными для отражения в ПОД. - определить понятия, которые могут иметь ценность для пользователей; определить потенциальную ценность понятия для выражения содержания документа или для его поиска; - определить количество сведений, содержащихся в документе; - осуществить содержательный отбор наиболее важных понятий; - осуществить отбор понятий, являющихся вспомогательными для изложения содержания документа; - определить степень полноты раскрытия содержания в документе.
Соотношение формализуемых и неформализуемых процедур, осуществляемых в ходе координатного индексирования Формализуемые операции Интеллектуальные операции 3. Выбор терминов индексирования для обозначения понятий - Осуществить поиск ключевых слов в ИПТ; - Осуществить тождественную замену; - Провести избыточное индексирование; - Осуществить нетождественную замену – заменить ключевое слово вышестоящим дескриптором; - Найти ключевое слово в справочном издании; - На основе учитываемой частоты использования ключевого слова определить необходимость его включения в ИПТ. - осуществить нетождественную замену – подобрать подходящие по смыслу дескрипторы; - определить авторитетность справочных, нормативных и др. изданий для заданной предметной области; - определить необходимость включения ключевого слованедескриптора в ПОД
Соотношение формализуемых и неформализуемых процедур, осуществляемых в ходе координатного индексирования Формализуемые операции Интеллектуальные операции 4. Формирование поисковых образов документов (поисковых образов запросов) из терминов индексирования - Используя грамматические средства ИПЯ, объединить выбранные термины индексирования в ПОД (ПОЗ). - Представить термины индексирования на естественном языке в соответствии с используемыми в данном естественном языке орфографическими правилами и условными кодами, представленными в ИПТ. - Используя указатели роли, отразить роль термина индексирования в ПОД (ПОЗ). - Используя указатель информационного веса, отразить в ПОД (ПОЗ) важность данного понятия для данного документа (запроса). - Записать ПОД на носителе информации
ccb56f3bb64a40e74a3205149d41d626.ppt