Скачать презентацию Лекция 8 Языки запросов корпусных менеджеров Выходные интерфейсы Скачать презентацию Лекция 8 Языки запросов корпусных менеджеров Выходные интерфейсы

ad27747e7d5600fb0d2dc625da60216e.ppt

  • Количество слайдов: 28

Лекция 8. Языки запросов корпусных менеджеров. Выходные интерфейсы В. П. Захаров Санкт-Петербургский государственный университет Лекция 8. Языки запросов корпусных менеджеров. Выходные интерфейсы В. П. Захаров Санкт-Петербургский государственный университет Лекция 8 Корпусная лингвистика

Обобщенная структурная модель языка запросов Собственно поисковые элементы (термины, выражающие информационную потребность, и т. Обобщенная структурная модель языка запросов Собственно поисковые элементы (термины, выражающие информационную потребность, и т. п. ). 2. Средства морфологической нормализации текстовых элементов запроса. 3. Поисковые (булевские) операторы. 4. Средства линейной грамматики (операторы расстояния, позиционные операторы). 5. Дополнительные условия поиска: 1. Ø Ø Ø поиск в определенных полях (частях) документа; ограничение области поиска по языку, региону, дате создания документа; и т. п. Средства управления критерием смыслового соответствия. 7. Требование на сортировку (ранжирование) выдаваемых результатов поиска. 8. Требования к форме представления результатов поиска: 6. Ø Ø Ø Лекция 8 вид выдаваемых результатов; количество выдаваемых документов; и т. п. Корпусная лингвистика 2

Способы задания запроса Два подхода (базируются на языке регулярных выражений): Øоконный интерфейс см. далее Способы задания запроса Два подхода (базируются на языке регулярных выражений): Øоконный интерфейс см. далее язык запросов BONITO Øформализованный язык запросов см. далее язык запросов DDC Лекция 8 Корпусная лингвистика 3

Язык регулярных выражений Каждое выражение состоит из одной или нескольких управляющих команд. Некоторые из Язык регулярных выражений Каждое выражение состоит из одной или нескольких управляющих команд. Некоторые из них можно группировать, и тогда они считаются за одну команду. Все управляющие команды разбиваются на три класса: Øпростые символы, а также управляющие символы, играющие роль их заменителей; Øуправляющие конструкции (квантификаторы повторений, оператор альтернативы, группирующие скобки и т. д. ); Øтак называемые мнимые символы (в строке их нет, но они "помечают" какую-то часть строки - например, ее конец). Лекция 8 Корпусная лингвистика 4

Язык регулярных выражений (2) Простые символы Класс простых символов, действительно, самый простой. А именно, Язык регулярных выражений (2) Простые символы Класс простых символов, действительно, самый простой. А именно, любой символ в строке на языке Reg. Ex обозначает сам себя, если он не является управляющим. К управляющим символам причисляются следующие: . *? +[]{}|$^ Группы символов "л. к" "л[иуа]к" Квантификаторы повторений Ноль и более совпадений: "19*8 « Одно и более совпадений: "[а-я]+-[а-я]+" Ноль или одно совпадение: "Петров[аы]? " Заданное число совпадений: А{n, m} - указывает, что символ "А" может быть повторен от n до m раз; А{n} - символ "А" должен быть повторен ровно n раз; А{n, } - символ "А" может быть повторен n или более раз. Лекция 8 Корпусная лингвистика 5

Bonito/Manatee ØЯзык запросов • поиск отдельных атрибутов (словоформа, лемма, тэг); • использование регулярных выражений; Bonito/Manatee ØЯзык запросов • поиск отдельных атрибутов (словоформа, лемма, тэг); • использование регулярных выражений; • логические операторы; • средства задания структуры (границы предложения и др. ); • быстрая обработка сложных запросов; • шаблоны; ØКонкордансные списки • история запросов пользователя; • просмотр морфологических характеристик словоформы; • отображение леммы; ØОперации над конкордансом • сохранение списков в файл; • печать списков; • сортировка по ключевым словам, контексту; • фильтрация (удаление части построенных конкордансов); • удаление повторений. Лекция 8 Корпусная лингвистика 6

Bonito: запросы Пользователь может ввести собственно запрос, сформулированный по правилам языка запросов системы, или Bonito: запросы Пользователь может ввести собственно запрос, сформулированный по правилам языка запросов системы, или шаблон (готовый или созданный пользователем) в окно запросов. Запрос состоит из двух частей: тип запроса (выбирается кнопкой-меню в верхнем левом углу окна); Ø текст запроса или шаблона (набирается в первом окне ввода). Ø Лекция 8 Корпусная лингвистика 7

Bonito: примеры запросов Пример 1. Поиск синтагмы Допустим, мы хотим найти разрывную синтагму Bonito: примеры запросов Пример 1. Поиск синтагмы Допустим, мы хотим найти разрывную синтагму "take (smth) out". В окно запроса вводится "take". Строится конкорданс для данного КС. Выбирается тип запроса Положительный фильтр (P-filter). В оба окна "From: " и "To: " вводится значение "2", что соответствует второй позиции справа от найденного слова для "оторванной" части синтагмы (у нас "out"). В окно запроса вводим "out". Выдается: for governor would force it to petitions out into voting the peasant. Nonetheless , they time out -- much time -- Mis-ter Mc. Bride. You do that or you out a permit right now Лекция 8 Корпусная лингвистика 8

"." src="http://present5.com/presentation/ad27747e7d5600fb0d2dc625da60216e/image-9.jpg" alt="Bonito: поиск всех форм слова по лемме В окно запроса вводится "[lemma="be"] within "." /> Bonito: поиск всех форм слова по лемме В окно запроса вводится "[lemma="be"] within ". Выдается: DECISIONS MADEAsked to elaborate LEADERSHIP HOPEFULThe housing. Nations. FORMULA DUE THIS WEEKThe Advisory year. COULD SCRAMBLESome predict ends. CHOICE EXPECTEDThe selection TOBACCO ROAD DEAD. LONG LIVE TOBACCO Лекция 8 Корпусная лингвистика 9

Bonito: поиск по морфологическим признакам (1) • • a sequence of an adjective, a Bonito: поиск по морфологическим признакам (1) • • a sequence of an adjective, a noun, a conjunction and another noun: [pos="JJ. *"] [pos="N. *"] "and|or" [pos="N. *"]; (takes some time to compute) a noun, followed by either is or was, followed by a verb ending in ed: [pos="N. *"] "is|was" [pos="V. *" & word=". *ed"]; similar, but is or was followed by a past participle (which is described by a special POS tag): [pos="N. *"] "is|was" [pos="VBD"]; catch or caught, followed by a determiner, any number of adjectives and a noun, or a noun, followed by was or were, followed by caught: "catch|caught" [pos="DT"] [pos="JJ"]* [pos="N. *"] | [pos="N. *"] "was|were" "caught"; (due to the truncation to 15 concordance lines in this demo version, you will only get results matching the first disjunct of this query) look or bring, followed by either up or down with at most 10 non-verbs in between: "look|bring" [pos != "VB. *"]{0, 10} "up|down" Лекция 8 Корпусная лингвистика 10

Bonito: поиск по морфологическим признакам (2) В окно запроса вводится Bonito: поиск по морфологическим признакам (2) В окно запроса вводится "[tag="VVZv"]". Выдается: charge of the election , " the praise and thanks of the However , the jury said it " these two offices should be of Fulton County , which none of this money ". The when the new management charge Jan. 1 the airport be face is a state law which that before making a first Пример демонстрирует возможность корпусного менеджера искать словоформы по морфологическим признакам. Код "VVZv" означает, что это третье лицо ед. ч. (Zv) значимого глагола (VV). Такая кодировка предложена схемой аннотирования SUSANNE. Следовательно, данная возможность будет успешно использоваться теми, кто знаком с принципами данной схемы аннотирования. Лекция 8 Корпусная лингвистика 11

Bonito: Поиск конкретной словоформы (КС) В окно запроса вводится КС Bonito: Поиск конкретной словоформы (КС) В окно запроса вводится КС "run". Выдается: announced that he would not for reelection. Georgia medical benefits paid out would 1 billion or more in the May , said today Jones will well ahead of his GOP opponents reports that he had decided to and wanted Mr. Screvane , investigation Street car tracks down the center of Pennsylvania Система ищет полное соответствие запрашиваемому слову и выдает результат. Иных словоформ для КС "run" не будет найдено. Лекция 8 Корпусная лингвистика 12

Bonito: Поиск синтагмы В окно запроса вводится Bonito: Поиск синтагмы В окно запроса вводится "run in". Выдается: contest. The Orioles got a the first inning when Breeding record in the 600 - yard the Knights of Columbus track The Bears added their last the sixth on Alusik 's double for the third Indianapolis the ninth. Despite the 45 's first major league home the fifth put the Sox back Словоформы ищутся в строго заданном (линейном) порядке, как неразрывная синтагма. Лекция 8 Корпусная лингвистика 13

Bonito: Поиск различных форм слова (1) В окно запроса вводится Bonito: Поиск различных форм слова (1) В окно запроса вводится "runs? in". Выдается: tied the game , and single the eighth and ninth gave record in the 600 - yard the Knights of Columbus track their eight hits for two the sixth. Chuck Hinton The Bears added their last the sixth on Alusik 's double 's first major league home the fifth put the Sox back В данном запросе используется управляющий символ "? ", который означает, что предшествующая ему буква "s" может встретиться ноль или один раз. Полученный результат подтверждает это. Лекция 8 Корпусная лингвистика 14

Bonito: Поиск различных форм слова (2) В окно запроса вводится Bonito: Поиск различных форм слова (2) В окно запроса вводится "run(|s|ning)". Выдается: announced that he would not for reelection. Georgia medical benefits paid out would 1 billion or more in the group are interested in on the required non lawyer and former FBI man is against the Republican tied the game , and single in the eighth and ninth gave Здесь используются группирующие скобки и оператор альтернативы ( | ) (логическое "или"). То есть, системе дается команда найти КС "run" или "runs" или "running". Лекция 8 Корпусная лингвистика 15

Корпусный менеджер DDC: язык запросов (1) (Dialing-DWDS-Concordance) Тип Назначение запроса Пример Результат Word Описание Корпусный менеджер DDC: язык запросов (1) (Dialing-DWDS-Concordance) Тип Назначение запроса Пример Результат Word Описание слова дом Все предложения, в которых есть морфологический вариант слова «дом» . Word* Описание слова до* Все предложения, в которых есть слово, имеющее префикс «до» . /regexp/ Описание слова /^до. *ло$/ Все предложения, в которых регулярным есть слово, имеющее префикс выражением «до» и постфикс «до» . *Word Лекция 8 Описание слова *до Все предложения, в которых есть слово, имеющее постфикс «до» . Корпусная лингвистика 16

Корпусный менеджер DDC: язык запросов (2) (Dialing-DWDS-Concordance) Тип запроса Назначение Пример Результат [Part. Of. Корпусный менеджер DDC: язык запросов (2) (Dialing-DWDS-Concordance) Тип запроса Назначение Пример Результат [Part. Of. Speech описание слова Features] [C ед] [Г пвл] "Part. Of. Speech" - часть речи, "Features" - граммемы (см. ниже полный список граммем и частей речи) @Word @дом все предложения, в которых есть словоформа "дом" (точное соответствие) "мой новый дом" "дом [Г]" все предложения, в которых есть "мой новый дом" все предложения, в которых есть "дом", за которым сразу идет какой-нибудь глагол описание слова "X 1 X 2. . . XN" последовательность слов Q 1 && Q 2 Лекция 8 конъюнкция дом && описаний слов или [С ед] последовательностей слов все предложения, в которых есть "дом" и существительное в единственном числе Корпусная лингвистика 17

Корпусный менеджер DDC: язык запросов (3) (Dialing-DWDS-Concordance) Тип запроса Назначение Пример Q 1 && Корпусный менеджер DDC: язык запросов (3) (Dialing-DWDS-Concordance) Тип запроса Назначение Пример Q 1 && !Q 2 конъюнкция описаний слов или последовательностей слов с отрицанием [С ед] && все предложения, в !дом которых есть существительное в единственном числе, но нет слова "дом" Q 1 || Q 2 дизъюнкция описаний слов или последовательностей слов [Г 2 л] || все предложения, в "мой дом" которых есть глагол во втором лице или словосочетание "мой дом" near(Q 1; Q 2; n) два слова рядом друг с NEAR другом 0<=n<=32 (дом ; [С]; 2) Лекция 8 Корпусная лингвистика Результат все предложения, в которых есть "дом" и какое -нибудь существительное, и между ними стоит не больше двух слов 18

Корпусный менеджер DDC: язык запросов (4) (Dialing-DWDS-Concordance) Тип запроса Назначение Пример Результат Корпусный менеджер DDC: язык запросов (4) (Dialing-DWDS-Concordance) Тип запроса Назначение Пример Результат "X 1 #D 1 X 2 #D 2 : XN" последовательность слов с максимальными дистанциями "мой #1 дом" все предложения, в которых есть "мой", за которым следует "дом", и между ним не больше одного слова A with B конъюктивное описание слова (должно одновременно выполняться А и B) петух with [C им] поиск слова петух, которому приписана морф. интерпретация [C им] Корпусная лингвистика 19 Лекция 8

Корпусный менеджер CQP (1) (Corpus Query Processor) Способы задания запросов: 1. простой поиск, подобный Корпусный менеджер CQP (1) (Corpus Query Processor) Способы задания запросов: 1. простой поиск, подобный использованию Google, задан по умолчанию; 2. поиск точной последовательности с использованием упрощенного языка запросов (кавычки); 3. поиск с использованием всех возможностей CQP. Слово в запросе может быть представлено: Ø словоформой (setting); Ø леммой – необходим знак % (set% означает set, sets, setting); Ø набором словоформ или лемм со знаком дизъюнкции |, для нахождения одного или другого слова запроса, например indignation|resentment indignation ИЛИ resentment; для поиска набора лемм используется % в конце всего выражения (absorb|accumulate% для поиска absorbed, accumulates и т. д. ); Ø подцепочкой. *, e. g. indigna. * находит indignant и indignation Ø неизвестным словом. (точка); Ø последовательностью неизвестных слов, которые могут быть заданы. . (две точки соответствуют возможному интервалу между словами) или диапазоном. . N-M (где N и M соответствуют минимальному и максимальному количеству слов в интервале). Лекция 8 Корпусная лингвистика 20

Корпусный менеджер CQP (2) (Corpus Query Processor) Примеры запросов: Ø thank верхний или нижний Корпусный менеджер CQP (2) (Corpus Query Processor) Примеры запросов: Ø thank верхний или нижний регистр: "[t. T]hank"; Слово, начинающееся с confuse, за которым следует предлог или личное местоимение: "confuse. *" [pos="IN" | pos="PP"]; Ø или "confuse. *" ([pos="IN"] | [pos="PP"]); или "confuse. *" [pos="IN|PP"]; то же самое, но на расстоянии от 0 до 10 слов: "confuse. *" []{0, 10} [pos="IN" | pos="PP"]; Ø то же самое, но без точек между: "confuse. *" [word!=". "]{0, 10} [pos="IN" | pos="PP"]; (надо использовать , иначе будут исключены все односимвольные слова) Ø Лекция 8 Корпусная лингвистика 21

Входной интерфейс для поиска в НКРЯ Лекция 8 Корпусная лингвистика 22 Входной интерфейс для поиска в НКРЯ Лекция 8 Корпусная лингвистика 22

Входной интерфейс для грамматического поиска в НКРЯ Лекция 8 Корпусная лингвистика 23 Входной интерфейс для грамматического поиска в НКРЯ Лекция 8 Корпусная лингвистика 23

Выходной интерфейс НКРЯ Лекция 8 Корпусная лингвистика 24 Выходной интерфейс НКРЯ Лекция 8 Корпусная лингвистика 24

SARA: корпусный менеджер BNC Лекция 8 Корпусная лингвистика 25 SARA: корпусный менеджер BNC Лекция 8 Корпусная лингвистика 25

Выходной интерфейс BNC Лекция 8 Корпусная лингвистика 26 Выходной интерфейс BNC Лекция 8 Корпусная лингвистика 26

Выходной интерфейс Bonito (Marie Kopřivová, Jan Kocek) Лекция 8 Корпусная лингвистика 27 Выходной интерфейс Bonito (Marie Kopřivová, Jan Kocek) Лекция 8 Корпусная лингвистика 27

Выходной интерфейс DDC Лекция 8 Корпусная лингвистика 28 Выходной интерфейс DDC Лекция 8 Корпусная лингвистика 28