817839751e86f13b10a1458aa6b68eac.ppt
- Количество слайдов: 70
Государственная публичная библиотека Индексирование документов Сибирского отделения с использованием вербальных Российской академии наук информационно-поисковых языков http: //www. spsl. nsc. ru
Индексирование документов с использованием вербальных информационно-поисковых языков Семинар - стажировка
Тема: Координатное индексирование документов. 3 день
Координатное индексирование n. Выражение смыслового содержания документа или запроса множеством ключевых слов или дескрипторов
Процессы координатного индексирования n n 1) ананлиз определения содержания документа, как объекта индексирования 2) выбор понятий, характеризующих содержание документа n 3) выбор терминов индексирования для обозначения понятий n 4) Формирование поискового образа документа из терминов индексирования
Методы анализа текста n Анкетный (аспектный) n Позиционный n Частотный
Ключевое слово (ГОСТ 7. 74 -96) n Информативное слово, приведенное к стандартной лексикографической форме и используемое для координатного индексирования
Язык ключевых слов (ГОСТ 7. 74 -96) n Информационно-поисковый язык, предназначенный для индексирования документов и информационных запросов посредством ключевых слов
Свойства ЯКС n Неконтролируемый n Посткоординатный (координатный)
Поиск по КС в публикациях: n n n поиск по ключевым словам, отобранным из текста документа на основании различных методик, при этом ПОД может быть дополнительно обогащен либо индексатором, либо с помощью автоматических процедур; поиск по полным текстам документов; поиск по полным текстам аннотаций и рефератов; по полным текстам заглавий и по наиболее информативным словам заглавий; по словам из традиционных предметных рубрик в режиме посткоординации.
Ключевые слова по Э. Р. Сукиаяну n Слова, выбираемые из текста документа, совокупность которых отражает тему документа
Ф. С. Воройский 1. Индексирование документов в АБИС // Библиотековедение. – 1996. – № 9. – С. 42– 44. 2. Основные принципы обеспечения информационного поиска в корпоративных электронных каталогах // Информационные технологии, компьютерные системы и издательская продукция для библиотек: Материалы 8 -й Междунар. конф. «LIBCOM-2004» -- Режим доступа: http: //www. gpntb. ru/libcom 4/index 3. cfm? n=tez/doc 2/doc 6 ИСТОЧНИК:
Анализу подлежат: Ü заглавие (название), Ü продолжение заглавия, Ü аннотация или реферат (к книге или статье), Ü оглавление (содержание), Ü выборочные участки текста (введение, выводы и т. п. )
Выбор ключевых слов В качестве КС при свободном индексировании используются ЛЕ, представляющие именные слова и словосочетания, аббревиатуры, числа, формулы, а также фрагменты сложных слов (например электро-, гидро-, термо-, метокси- и т. п. ). n
Не разрешается использовать! не предусмотренные ГОСТом аббревиатуры и сокращения, n различные свертки слов, заменяющих дескрипторы, n другие искусственные способы записи ЛЕ иначе как в их канонической форме n
ПРАВИЛА НАПИСАНИЯ КЛЮЧЕВЫХ СЛОВ n КС — одиночные существительные должны быть представлены в форме именительного падежа и, как правило, единственного числа. n Во множественном числе записываются существительные, не имеющие формы единственного числа (сани, очки, ножницы. . . ), а также КС, представляющие собой обобщающие понятия для нескольких однородных объектов описания (войны, технологии — к описаниям нескольких войн или технологий).
ПРАВИЛА НАПИСАНИЯ КЛЮЧЕВЫХ СЛОВ n КС — одиночные прилагательные и причастия записываются в форме именительного падежа. n Прилагательные и причастия в единственном числе приводятся в форме мужского рода. n В словосочетании они согласуются в роде и числе с соответствующими существительными.
ПРАВИЛА НАПИСАНИЯ КЛЮЧЕВЫХ СЛОВ n Одиночные деепричастия преобразуются в соответствующее существительное распределяя — распределение, поставляя — поставка. n Одиночные наречия заменяются соответствующими прилагательными автоматически — автоматический, вручную — ручной.
ПРАВИЛА НАПИСАНИЯ КЛЮЧЕВЫХ СЛОВ n Глаголы в личной форме записываются, как правило, в форме отглагольного существительного или инфинитива расшифровывает — расшифровка, расшифровать; преобразует — преобразование, преобразовать.
Сохранение КС-словосочетаний 1. ЛЕ представляет собой устойчивое словосочетание и включает: — идиоматические выражения, пре ставляющие собой термины или другие нерасторжимые сочетания слов, красная строка, черный ящик, — словосочетания термины, для которых существуют синонимы и аббревиатуры радиолокационя станция — РЛС — словосочетания, являющиеся имена ми собственными или включающие их Новая Зеландия, закон Ома, вольтова дуга — словосочетания, отдельные компоненты которых имеют широкое значение металлическая конструкция, математическое обеспечение.
Сохранение КС-словосочетаний 2. Словосочетания, обозначающие измеряемые параметры и характеристики сила тока, диапазон частот, средняя скорость 3. Наиболее используемые в данной тематической области словосочетания уксусная кислота, товары широкого потребления 4. Словосочетания, обозначающие наменования оборудования, машин, материалов и т. п. , пишущиеся через дефис смесители-запарники, увлажнители-охладители
Разделение КС- словосочетаний — процесс и объект, который подвергается воздействию производство азота — производство, азот; — часть и целое катоды радиоламп — катоды, радиолампы — объект и его назначение станки для распилки карандашей — станки, распилка, карандаши — объединяет два существительных история России — история, Россия — объединяет существительное и прилагательное, если они не представляют собой устойчивые термины в политематической области военная доктрина — военный, доктрина — содержит несколько прилагательных торированные вольфрамовые катоды — торированные катоды, вольфрамовые катоды
Порядок расположения КС n Список ключевых слов может быть не упорядочен и не зависеть от их роли и характера отношений между ними в содержании каждого конкретного документа (используется так называемая "мешочная" грамматика). n КС отделяются друг от друга запятой.
Базы данных ВИНИТИ
Дескрипторный ИПЯ n Информационно-поисковый язык, предназначенный для координатного индексирования документов и информационных запросов посредством дескрипторов
ЛЕКСИКА ДИПЯ
ДЕСКРИПТОР n Лексическая единица, выраженная информативным словом (вербально) или кодом и являющаяся именем класса синонимичных или близких по смыслу ключевых слов
Класс эквивалентности ЛЕ n Совокупность лексических единиц, различие значение которых несущественно для определения основного содержания документов в информационной системе.
Аскриптор n недескриптор, нондескриптор: Лексическая единица в информационно-поисковом тезаурусе, которая не может быть использована для координатного индексирования и подлежит замене одним или несколькими дескрипторами
ГРАММАТИКА ДИПЯ
Синтаксис (выражение синтагматических отношений) n «Мешочная» грамматика n техника безопасности травматизм литейное производство. n n Указатели роли и связи n «Контекстная» (позиционная) грамматика n
«Контекстная» (позиционная) грамматика n n n n Слова включаются в ПОД и ПОЗ в соответствии со специально разработанным перечнем (анкетой, фиксированной схемой). Индексирование ведется путем заполнения позиций анкеты. Пример такой схемы: Предмет или тема исследования. Область применения или использования предмета. Метод исследования Условия, в которых протекало исследование Технические средства или оборудование Результаты исследования.
Указатель роли n Вспомогательный символ, выбираемый из фиксированного списка и присоединяемый к лексическим единицам для обозначения логической роли их в данном поисковом образе
Указатели роли Р 1 Основной объект рассмотрения n Р 2 Область, сфера, место применения n Р 3 Метод, способ, средство решения n Р 4 Отличительная часть, элемент, составляющая n
Указатель связи Вспомогательный символ, выбираемый из фиксированного списка и присоединяемый к лексическим единицам для — выражения синтагматических отношений между ними в поисковом образе. n Примечание — Указатели связи объединяют различные лексические единицы, выражающие в данном поисковом образе единое понятие n
Информационно-поисковый тезаурус (ИПТ) n Нормативный словарь дескрипторного информационно-поискового языка с зафиксированными в нем парадигматическими отношениями лексических единиц.
Этапы построения ИПТ определение тематического охвата ИПТ; n сбор массива ЛЕ; n формирование словаря ИПТ; n построение словарных статей и указателей; n оформление ИПТ; n
Формирование словаря ИПТ В словарь ИПТ могут быть включены следующие типы ЛЕ: n n одиночные слова (существительные, прилагательные, глаголы, наречия); именные словосочетания; лексически значимые компоненты сложных слов; сокращения слов и словосочетаний.
Допускается включать словосочетания: n если в качестве опорного слова они содержат существительное и если выполнен ряд условий
Примеры: n ЧЕРНЫЙ ЯЩИК, n ЛЕГКАЯ ПРОМЫШЛЕННОСТЬ n ТАБЛИЦА МЕНДЕЛЕЕВА n ЭЛЕКТРИЧЕСКИЕ МАШИНЫ n УНИВЕРСАЛЬНАЯ ДЕСЯТИЧНАЯ КЛАССИФИКАЦИЯ = УДК n ЯЗЫК ПРОГРАММИРОВАНИЯ
Структура тезауруса Обязательные элементы Вводная часть Лексикосемантичес кий указатель Факультативные элементы Системати ческий указатель Иерархиче ский указатель Пермутаци онный указатель
Лексико-семантический указатель n упорядоченная последовательность словарных статей ИПТ n формируется путем расположения их в алфавитном порядке заглавных ЛЕ.
Примеры: n n в Изделия костюмные Изделия пальтовые Изделия швейные Н Куртка двуботная n n n Куртка спортивная Кусок ткани 2203 с Отрез Лавсан 2304 в Волокно полиэфирное Волокна синтетические
Систематический указатель перечень дескрипторов, сгруппированных согласно принятой в ИПТ рубрикации. n n Систематические указатели ИПТ подразделяют на три типа: — тематические, — категориальные, — смешанные.
Примеры: ВОИНСКИЕ ПОДРАЗДЕЛЕНИЯ АРМИЯ БАТАЛЬОН ДИВИЗИЯ ПОЛК РОТА n ОВОЩНЫЕ КУЛЬТУРЫ БОБОВЫЕ ГОРОХ ФАСОЛЬ СПАРЖЕВАЯ n
Иерархический указатель отражает полную структуру иерархических отношений. n n Представляет собой перечень списков дескрипторов, причем каждый список начинается с дескриптора, не имеющего вышестоящих. После каждого дескриптора приведены непосредственно нижестоящие дескрипторы с указанием их уровня в иерархии путем применения нумерации либо графического обозначения уровня.
Примеры: 1. АРМИЯ 2. ДИВИЗИЯ 3. ПОЛК 4. БАТАЛЬОН 5. РОТА
Пермутационный указатель n n n предназначен для поиска ЛЕ по отдельным словам, входящим в текст ЛЕ, в том числе и по тем, которые стоят не в начале ЛЕ. представляет собой перечень списков, каждый из которых соответствует одному из знаменательных слов в составе ЛЕ и включает все ЛЕ, содержащие это знаменательное слово. Перечень списков упорядочен по алфавиту знаменательных слов, а внутри списки упорядочены по тексту ЛЕ.
Пример: оптические квантовые возбуждения электрические ГЕНЕРАТОРЫ помех ГЕНЕРАТОРЫ последовательного ГЕНЕРАТОРЫ постоянного тока
Тезаурусная статья n Элемент лексико- семантического указателя, состоящий из дескриптора или нондескриптора и всей информации, относящейся к нему
Структура словарной статьи n Дескрипторная статья состоит из заглавного дескриптора, списка дескрипторов и аскрипторов, семантически связанных с ним, с обозначением видов связи. n Аскрипторная статья состоит из аскриптора и заменяющих его при обработке и поиске информации дескрипторов или комбинации дескрипторов.
Словарная статья может также включать: n частоту использования дескриптора; n кодовый номер дескриптора; n код дескриптора по систематическому указателю; n классификационные индексы; n дополнительные семантические и лексикографические пометы; n иноязычные эквиваленты.
Порядок расположения элементов в словарной статье n n n n заглавный дескриптор; дополнительные данные; лексическое примечание; аскрипторы или дескрипторы-синонимы; вышестоящие дескрипторы; нижестоящие дескрипторы; ассоциативные дескрипторы; дескрипторы, связанные другими видами отношений
АЛГОРИТМИЧЕСКИЕ ЯЗЫКИ (формализм теории алгоритмов см. ТЕОРИЯ АЛГОРИТМОВ) с языки алгоритмические машиноориентированные языки проблемноориентированные языки в ПРОГРАММНОЕ ОБЕСПЕЧЕНИЕ ФОРМАЛЬНЫЕ ЯЗЫКИ н АВТОКОДЫ АЛГОЛ ИПЛ КОБОЛ КОМИТ ПЛ/1 ФОРТРАН а АЛГОРИТМЫ ПРОГРАММИРОВАНИЕ ср искусственные языки б) Аскрипторные статьи: 1) Языки программирования см АЛГОРИТМИЧЕСКИЕ ЯЗЫКИ 2) Языки иа ФОРМАЛЬНЫЕ ЯЗЫКИ ЕСТЕСТВЕННЫЕ ЯЗЫКИ 3) Алфавитно-цифровые знаки ик БУКВЫ ЦИФРЫ n Дескриптор n Синонимы n Ссылки к вышестоящим дескрипторам n Ссылки к нижестоящим дескрипторам n Ссылка к ассоциативно связанному дескриптору Ссылка «Сравни» Ссылка от аскриптора к дескриптору Ссылка к нескольким формально заменяющим дескрипторам Ссыылка от аскриптора к заменяющей его комбинации дескрипторов n n
ГОСТы: n ГОСТ 7. 25— 2001 СИБИД. Тезаурус информационно поисковый одноязычный. Состав, структура и основные требования к построению n ГОСТ 7. 66— 92 СИБИД. Индексирование документов. Общие требования к координатному индексированию n n ГОСТ 7. 74— 96 СИБИД. Информационно поисковые языки. Термины и определения
Основная литература: n n n Воройский, Ф. С. Индексирование документов в АБИС / Ф. С. Воройский // Библиотековедение. – 1996. – № 9. – С. 42– 44. Воройский, Ф. С. Основные принципы обеспечения информационного поиска в корпоративных электронных каталогах // Информационные технологии, компьютерные системы и издательская продукция для библиотек: Материалы 8 й Междунар. конф. «LIBCOM-2004» -- Режим доступа: http: //www. gpntb. ru/libcom 4/index 3. cfm? n=tez/doc 2/doc 6 Гендина, Н. И. Лингвистическое обеспечение автоматизированных библиотечных систем / Н. И. Гендина. – Алма-Ата, 1991. – 221 с. Сукиасян, Э. Р. Язык ключевых слов , Э. Р. Сукиасян // Библиотека. – 2005. -- № 6. – С. 13— 15. Ханжин, А. Г. Разработка методики координатного индексирования документов. Ч. 2. / А. Г. Ханжин // НТИ. Сер. 2. Информационные процессы и системы. – 1995. – № 9. – С. 14– 19.
Вы прослушали курс: Индексирование документов с использованием вербальных информационно-поисковых языков Благодарим за сотрудничество!
На Ваши вопросы готовы ответить: Людмила Анатольевна Жарикова, старший научный сотрудник ГПНТБ СО РАН, отдел научной обработки документов zhar@spsl. nsc. ru Галина Анатольевна Скарук, кандидат педагогических наук, старший научный сотрудник ГПНТБ СО РАН, отдел научной обработки документов skaruk@spsl. nsc. ru
817839751e86f13b10a1458aa6b68eac.ppt