de9d5e6647418198c5cbd81424c55410.ppt
- Количество слайдов: 68
Автоматическая обработка текста Лекция 2 Корпуса 3/19/2018 1
n Введение. Обработка текста. Этапы и разработка n Корпуса: основные понятия n Требования к корпусу n Стандарты n Разметка 3/19/2018 2
Автоматическая обработка текста. Лингвистические платформы n графематический анализ препроцессинг (очистка текста) n токенизатор, n сплиттер n n морфологический анализ нормализация (лемматизация, стемминг) n частеречная разметка (POS-tagging) n n синтаксический анализ полный синтаксический анализ, n chunking, 3/19/2018 n shallow parsing n 3
Автоматическая обработка текста. Лингвистический конвейер ? ? ? семантический анализ n распознавание аргументной структуры n n semantic role labeling разрешение анафоры (anaphora resolution) n дискурсивный анализ (риторические структуры) n распознавание именованных сущностей n извлечение фактов n классификация, кластеризация текстов n 3/19/2018 4
Разработка модулей n обучение корпус текстов n обучающий корпус vs. тестовый корпус специальным образом отобранные тексты размеченные под проблему (аннотированные) 3/19/2018 5
Разработка: корпуса Как собирать корпуса? n Как аннотировать корпуса? n Ø специальные технологии сбора корпуса под задачу Ø vs. использование существующих экспертных (эталонных) корпусов 3/19/2018 6
Разработка: корпуса Золотой стандарт Примеры: n n n 3/19/2018 НКРЯ со снятой омонимией Penn-Treebank 7
Корпус n Корпус – множество текстов, Ø Ø Ø отобранных исходя из некоторых принципов, размеченных (аннотированных) в корпусе с помощью специальных программ можно искать необходимые фрагменты текста по заданным параметрам (например, множество текстов одного жанра или автора, множество строчек или предложений, в которых встретилось конкретное слово или словосочетание, множество существительных в родительном падеже и т. п. ) 08. 02. 2008 8
Понятие корпуса Лингвистический, или языковой, корпус те – большой, представленный в электронном виде, унифицированный, структурированный, размеченный, филологически компетентный массив языковых данных, предназначенный для решения конкретных лингвистических задач. 08. 02. 2008 9
Основные единицы n Основной элемент хранения в корпусе: текст (может быть полное произведение, фрагмент произведения, одно предложение и т. п. ) s- насколько большой объем текстов в данном корпусе, как измерять этот объем, как сравнивать корпуса: в количестве текстов, страниц и т. п. ? ? ? Возможный ответ: В словах 08. 02. 2008 10
Но: что такое слово? Что мы будем считать словом? n Сколько слов в предложении: Ворон к ворону Ворон ворону 08. 02. 2008 летит кричит 11
n Что такое слово? Что мы будем считать словом? sсловоупотребление s. Лемма (множество словоформ, сведенных к одной исходной форме (≈лексема)) 08. 02. 2008 12
Основные единицы n Единицы хранения в корпусе – текст или структурный элемент текста (требование завершенности фрагмента) n Словоупотребление n Лемма (нормализованная форма) 3/19/2018 13
Лемма древних Является для 08. 02. 2008 древние =S, мн, од=(род|вин|пр)| древний =A =род, мн|вин, мн, од|пр, мн являться Длить Для =V=непрош, ед, изъяв, 3 л, нсв, страд =V=непрош, ед, изъяв, 3 -л, нсв =V, несов=непрош, деепр =PR 14
n Основные понятия n Требования к корпусу n Стандарты n Разметка n Типы корпусов n Примеры корпусов 3/19/2018 15
Требования к корпусу n Репрезентативность n Полнота n Экономичность n Структурированность n Компьютерная поддержка 3/19/2018 16
Требования к корпусу: Репрезентативность способность корпуса текстов отражать все свойства проблемной области, релевантные для данного типа лингвистических исследований, в определенной пропорции, определяемой частотой явления в проблемной области. – 3/19/2018 17
Требования к корпусу: Репрезентативность Требование репрезентативности при создании национального корпуса Размеры и процентные соотношения: Ø Жанры Ø Стили Ø Периоды Ø Авторы Ø Хронологические границы ……………. 3/19/2018 18
Требования к корпусу: Репрезентативность Требование репрезентативности при создании национального корпуса n Всеобщий корпус, нацеленный на пропорциональный охват языковой практики, по анализам Д. Байбера, должен был бы содержать приблизительно 90% разговоров (обычной разговорной речи), 3% писем и замечаний и 7% опубликованных и неопубликованных текстов классических стилей и жанров. 3/19/2018 19
Требования к корпусу: Репрезентативность Требование репрезентативности при создании национального корпуса n Обычно художественные тексты составляют в национальных корпусах 20 -40% 3/19/2018 20
Требования к корпусу: Репрезентативность Требование репрезентативности при создании национального корпуса n Если всеобщий национальный корпус составляется из письменных текстов современного языка, при создании проекта все же необходимо: § с хронологической точки зрения ограничить современный язык § с точки зрения репрезентативности определить, будут ли тексты для корпуса подбираться на основе принципа адекватного представления всех стилей и жанров (типов текстов) § или на основе адекватного размещения языковых явлений в соответствующих текстах / целом корпусе 3/19/2018 21
Требования к корпусу: Репрезентативность Требование репрезентативности при создании национального корпуса Культурно-репрезентативный корпус n От лингвистической работы часто требуется не языковой пример, а хороший языковой пример, “освященный” авторитетом сочинителя собрание культурно значимых текстов на данном языке В практическом преломлении “культурная значимость” üпотенциальным источником расхожих цитат текст ü признаётся принадлежащим данному слою, если он вносит какой-то вклад в историю русского языка (в том числе и интересен языковыми экспериментами). 3/19/2018 22
Требования к корпусу: Репрезентативность Требование репрезентативности при создании национального корпуса n культурная значимость не гарантирует “стандартности” авторского языка. n От корпуса языка требуется соответствие узусу и языковой компетенции его образованного носителя. Между тем тексты таких авторов, как Зощенко, Платонов или даже Гоголь изобилуют “авторскими особенностями” n Отсюда задача: “стандартный”, “эталонный” корпус русского языка; языка лишённого по возможности сознательных стилевых и лексических экспериментов, тем не менее “гладкого” и “профессионального”. 3/19/2018 23
Требования к корпусу: Репрезентативность Требование репрезентативности при создании исследовательского корпуса Например, проблема – корпус текстов по дискурсивным словам русского языка Ср. частота частицы же vs. типа 3/19/2018 24
Требования к корпусу: Полнота В корпусе исследуемое явление должно быть представлено во всей его полноте, включая редкие случаи и отклонения от нормы NB: Полнота требует учета релевантных явлений, даже если они очень редкие и не попадают в корпус в соответствии с требованием репрезентативности n 3/19/2018 25
Требования к корпусу: ? ? Экономичность “Корпус должен экономить усилия исследователя при изучении проблемной области. n В частности, он должен быть не просто строгим подмножеством проблемной области, но, по возможности, существенно отличаться от нее (меньше) по объему” n А. Н. Баранов. Введение в прикладную лингвистику. С. 119. 3/19/2018 26
Требования к корпусу: Структуризация А. Н. Баранов. Введение в прикладную лингвистику. С. 119. 3/19/2018 27
Требования к корпусу: Компьютерная поддержка необходимы специальные программы по обработке данных n Необходима предварительная подготовка текста для того, чтобы его можно было обрабатывать компьютером n 3/19/2018 28
n Сбалансированный корпус n в корпусе должны быть представлены в соответствующих пропорциях тексты разных функциональных стилей, жанров, авторов и т. п. (например, как художественная литература, так и газетные и журнальные статьи, учебники, научнопопуляпная литература и т. д. ). Пример: Брауновский корпус Фрэнсис – Кучера. 1 млн словоупотреблений. 500 текстов по 2000 словоупотреблений. n Мониторный корпус 3/19/2018 29
n Основные понятия (лекция 1) n Требования к корпусу n Стандарты n Разметка 3/19/2018 30
Требование унификации: многократное использование; Ø много пользователей; Ø совместимость с другими корпусами; Ø совместимость с другими лингвопроцессорами; Ø совместимость с общепринятыми научными теориями; Ø совместимость с общепринятыми классификациями; Ø возможность применения стандартных программных средств. Ø 3/19/2018 31
Объекты стандартизации Ø Ø Структура формата Наполнение формата Метаданные Классификаторы Лингвистическая разметка Ø 3/19/2018 Кодировки 32
Стандарты Пример: In passing the door of that sanctum some time after, I caught the words -'She'll happen do better for him nor ony o' f grand ladies. ' And again, 'If she ben't one o' th' handsomest, she's noan faa''l, and varry good-natured; and i' his een she's fair beautiful, onybody may see that. ‘ 474 JANE EYRE 475 n 3/19/2018 33
Стандарты n Пример: In passing the door of that sanctum some time after, I caught the words -- 'She'll happen do better for him nor ony o' f grand ladies. ' And again, 'If she ben't one o' th' handsomest, she's noan faa''l, and varry good-natured; and i' his een she's fair beautiful, onybody may see that. ‘ 474 JANE EYRE 3/19/2018 475 34
n Стандарты В этой записи имеется ряд недостатков: Ø номера страниц и колонтитулы идут прямо в тексте (программам обработки трудно различать их); Ø нет разницы между одинарными кавычками и апострофами (проблемы с выделением прямой речи); Ø сохранение переносов, которые были в исходном тексте, (сложности для автоматического поиска); Ø буква с ударением в слове faál и длинное тире представлены специальными группами символов, которые не соответствуют стандарту (дополнительные проблемы с обработкой); Ø абзацы выделены только отступом, а знак возврата каретки, жестко задающий формат, имеется в конце каждой строки (если изменить размер шрифта, которым печатается текст, то переформатирование текста будет непростой задачей). 3/19/2018 35
Стандарты n n In passing the door of that sanctum some time after, I caught the words ‐ <p><q>She'll happen do better for him nor ony o' t' grand ladies. </q> And again, <q>If she ben't one o' th' handsomest, she's noan faà l, and varry good-natured; and i' his een she's fair beautiful, onybody may see that. </q> <pb n='475'> 3/19/2018 36
Стандарты разметки TEI – text encoding initiative n EAGLES -Expert Advisory Group on Language Engineering Standards n SGML - Standard Generalised Markup Language n XML (Extensible Markup Language) - язык разметки документов n 3/19/2018 37
Другие международные проекты и стандарты стандарт CES (Corpus Encoding Standard); Ø стандарт XCES (Corpus Encoding Standard for XML); Ø проект ISLE (International Standards for Language Engineering); Ø стандарт CDIF (Corpus Document Interchange Format, BNC). Ø 3/19/2018 38
Группа стандартов TEI для корпусов (TEI P 4, TEI P 5) Схема описания документа: Ø Ø Ø библиографическое описание текста, собственно метаописание текста и "технологическое" описание: кодировка текста, история создания электронной версии и т. п. 3/19/2018 39
Стандарт Text Encoding Initiative (TEI) 1. 2. формальное описание текста Название Автор Год Размер ……… содержательное описание текста Жанр Стиль Целевая аудитория Время создания ……… 3/19/2018 40
TEI – универсальное множество, из которого создатель корпуса может выбрать любое подмножество, релевантное для своей конкретной задачи. 3/19/2018 41
Примеры стандартных тегов TEI • <front> • содержит различную вступительную информацию (заголовки, титульный лист, предисловия, посвящения и т. п. ), которую размещают перед основным текстом. • <group> • содержит число монолитных текстов или групп текстов. • <body> • <back> 3/19/2018 • содержит всю основную часть одного монолитного текста, исключая то, что относится к вводной или закрывающей частям текста. • содержит различные приложения и т. п. , которые располагаются после основной части текста. 42
TEI <p> • отмечает абзацы написанного прозой текста. • <div> • содержит раздел вводного, основного или закрывающего текста. • содержит раздел первого уровня вводного, основного или закрывающего текста (это самый высокий уровень, если элемент <div 0> не используется, или второй уровень, если он используется). • <div 1> 3/19/2018 43
Кодирование метаданных в TEI Предусмотрены следующие тэги: 1. <creation> — информация о времени и месте создания текста; 2. <text. Class> — классификация текста; 3. <text. Desc> — описание текста; 4. <partic. Desc> — описание автора или участников акта коммуникации; 5. <setting. Desc> — условия, в которых происходил акт коммуникации. тэгов. 3/19/2018 Внутри каждого тэга – большое количество вложенных уточняющих 44
Классификаторы: пример тематической классификации EAGLES (1) natsci appsci socsci 3/19/2018 естественные науки mathematics математика physics физика chemistry химия … прикладные науки medicine медицина engineering техника и технология computing вычислительная техника military военное дело marine мореплавание … общественные науки anthropology антропология language лингвистика, филология … 45
Формальные языки разметки Ø Ø 3/19/2018 SGML (Standard Generalized Mark-up Language), XML (Extensible Mark-up Language) 46
Пример описания на языке XML описание слова 'лошади' будет записано следующим образом: <noun lemma="лошадь" number="singular" gender=“feminine" case="genitive"> лошади </noun> <w> лошади <ana lemma=“лошадь" feats="noun, sg, m, gen“/></w> или <w> lemma="лошадь" feats="NSM 2 -----">лошади</w>, где NSM 2 обозначает the noun (N), Singular (S), masculine (M), Genitive (2) 3/19/2018 47
Разметка Øметатекстовая разметка n Øразбиение текста на фрагменты n Øлемматизация n Øморфологическая разметка n Øсинтаксическая разметка n Øсемантическая разметка n Øфонетическая разметка другие типы разметки: n Øанафорическая n Øструктура дискурса n DRT (http: //www. coli. uni-sb. de/~bos/doris/ ) n 3/19/2018 48
Метаразметка n n n 3/19/2018 Факторы: 1) факторы, относящиеся к созданию текста автором; 2) факторы, относящиеся к внешним признакам текста; 3) факторы, относящиеся к целям создания текста и его влиянию на аудиторию. 4) предметная область текста; 5) стилистические особенности текста. 49
Пример метаразметки: <A BEAUMONT ELIZABETH> Author's name n <C E 1> Sub-period n <O 1500 -1570> Date of original n <M X> Date of manuscript n <K X> Contemporaneity of original and manuscript n <D ENGLISH> Dialect n <V PROSE> Verse or prose n <T LET PRIV> Text type n <F X> Language of foreign original n <W WRITTEN> Relationship to spoken language n <X FEMALE> Sex of author n <J INTERACTIVE> Interactive/non-interactive n <I INFORMAL> Formal/informal 3/19/2018 n 50
Например, Трифонов, "Дом на набережной": <tei. Header id="TRIF 1" target="TRIFONOW/dom. txt" type="text" lang="ru"> <file. Desc> <title. Stmt> <title>Дом на набережной</title><author>Юрий Трифонов</author> <extent type="w">45238</extent> <extent type="u">4</extent> <extent type="s">4132</extent> </title. Stmt> <source. Desc> <resp. Stmt><name>Мошков</name><resp>Электронная библиотека</resp></resp. Stmt> <address>http: //www. lib. ru/PROZA/TRIFONOW/dom. txt</address> </source. Desc> 3/19/2018 </file. Desc> 51
Морфологическая разметка This example is from the Spoken English Corpus and used the C 7 tagset: Perdita&NN 1 -NP 0; , &PUN; covering&VVG; the&AT 0; bottom&NN 1; of&PRF; the&AT 0; lorries&NN 2; with&PRP; straw&NN 1; to&TO 0; protect&VVI; the&AT 0; ponies&NN 2; '&POS; feet&NN 2; , &PUN; suddenly&AV 0; heard&VVD-VVN; Alejandro&NN 1 -NP 0; shouting&VVG; that&CJT; n AJ 0: general adjective n AT 0: article, neutral for number AV 0: general adverb AVP: prepositional adverb CJC: co-ordinating conjunction CJS: subordinating conjunction CJT: that conjunction DPS: possessive determiner DT 0: singular determiner NN 0: common noun, neutral for number NN 1: singular common noun NN 2: plural common noun 3/19/2018 NP 0: proper noun POS: genitive marker PNP: pronoun PRF: of PRP: prepostition PUN: punctuation TO 0: infintive to VBI: be VM 0: modal auxiliary VVB: base form of lexical verb VVD: past tense form of lexical verb VVG: -ing form of lexical verb VVI: infinitive form of lexical verb 52 VVN: past participle form of lexical verb
EXAMPLE OF PART-OF-SPEECH TAGGING, LOB CORPUS: hospitality_NN is_BEZ an_AT excellent_JJ virtue_NN , _, but_CC not_XNOT when_WRB the_ATI guests_NNS have_HV to_TO sleep_VB in_IN rows_NNS in_IN the_ATI cellar_NN !_! the_ATI lovers_NNS , _, whose_WP$ chief_JJB scene_NN was_BEDZ comparatively_RB little_AP to_TO sing_VB cut_VBN at_IN the_ATI last_AP moment_NN , _, had_HVD Rollinson_NP. _. '_' he_PP 3 A stole_VBD my_PP$ wallet_NN !_! '_' roared_VBD 3/19/2018 53
Пример морфологической разметки Национального корпуса русского языка: n <s>Я{я=S, ед, од=им} сидел{сидеть=V, несов=изъяв, прош, ед, муж} на{на=PR} n барском{барский=A=ед, сред, пр} сиденье{сиденье=S, сред, неод=ед, пр}, дышал{дышать=V, несов=изъяв, прош, ед, муж} горячим{горячий=A=ед, муж, твор} ветром{ветер=S, муж, неод=ед, твор}, бившим{бить=V, несов=прич, прош, ед, муж, твор} в{в=PR} лицо{лицо=S, сред, неод=ед, вин}, ощущая{ощущать=V=несов, деепр, непрош} в{в=PR} то{тот=A=ед, сред, вин} же{же=PART} время{время=S, сред, неод=ед, вин} не{не=PART} 3/19/2018 54
Лемматизация SUSANNE corpus : n N 12: 0510 g - PPHS 1 m He he N 12: 0510 h - VVDv studied study N 12: 0510 i - AT the N 12: 0510 j - NN 1 c problem. . . VVDv thought think N 12: 0520 c - IO of of n N 12: 0520 d - AT 1 a a n n n 3/19/2018 n n n n N 12: 0520 e - NNc means N 12: 0520 f - IIb by by N 12: 0520 g - DDQr which N 12: 0520 h - PPH 1 it it N 12: 0520 i - VMd might may N 12: 0520 j - VB 0 be be N 12: 0520 k - VVNt solved solve N 12: 0520 m - YF +. - 55
Синтаксическая разметка n Treebanks Parsing (S=sentence, NP=noun phrase, VP=verb phrase, PP=prepositional phrase, N=noun, V=verb, AT=article, P=preposition. ) 3/19/2018 56
[S[NP Claudia_NP 1 NP][VP sat_VVD [PP on_II [NP a_AT 1 stool_NN 1 NP] PP] VP] S] [S [NP Claudia NP] [VP sat [PP on [NP a stool NP] PP] VP] S] 3/19/2018 57
Full parsing: [S[Ncs another_DT new_JJ style_NN feature_NN Ncs] [Vzb is_BEZ Vzb] [Ns the_AT 1 [NN/JJ& wine-glass_NN [JJ+ or_CC flared_JJ HH+]NN/JJ&] heel_NN , _, [Fr[Nq which_WDT Nq] [Vzp was_BEDZ shown_VBN Vzp] [Tn[Vn teamed_VBN Vn] [R up_RP R] [P with_INW [NP[JJ/JJ/NN& pointed_JJ , _, [JJ- squared_JJ JJ-] , _, [NN+ and_CC chisel_NN NN+]JJ/JJ/NN&] toes_NNS Np]P]Tn]Fr]Ns]. _. S] & whole coordination + subordinate conjunct, introduced - subordinate conjunct, not introduced Fr relative phrase JJ adjective phrase Ncs noun phrase, count noun singular Np noun phrase, plural Nq noun phrase, wh-word Ns noun phrase, singular 3/19/2018 n P prepositional phrase R adverbial phrase S sentence singular Tn past participal phrase Vn verb phrase, past participle Vzb verb phrase, third person singular to be Vzp verb phrase, passive third person 58
Skeleton Parsing [S& [P For_IF [N the_AT members_NN 2 [P of_IO [N this_DD 1 university_NNL 1 N]P] [N this_DD 1 charter_NN 1 N] [V enshrines_VVZ [N a_AT 1 victorious_JJ principle_NN 1 N]V]S&] ; _; and_CC [S+[N the_AT fruits_NN 2 [P of_IO [N that_DD 1 victory_NN 1 N]P]N] [V can_VM immediately_RR be_VB 0 seen_VVN [P in_II [N the_AT international_JJ community_NNJ [P of_IO [N scholars_NN 2 N]P] [Fr that_CST [V has_VHZ graduated_VVN here_RL today_RT V]Fr]N]P]V]S+] 3/19/2018 59
Семантическая разметка Разрешение семантической неоднозначности n Выделение значений лексем в данном контексте n Разметка в соответствии с тезаурусом Роже n Разметка семантических ролей n Разметка в соответсвии с выделяемыми в словаре подзначениями n Разметка в соответствии с классами, выделяемыми в WORDNET n 3/19/2018 60
Пример семантической разметки: По тезаурусу Роже n n n n And the soldiers platted a crown of thorns 00000000 23241000 21072000 0000 21110400 0000 13010000 n n n n 3/19/2018 0000 Low content word (and, the, a, of, on, his, they etc) 13010000 Plant life in general 21030000 Body and body parts 21072000 Object-oriented physical activity (e. g. put) 21110321 Men's clothing: outer clothing 21110400 Headgear 23231000 War and conflict: general 61
Пример семантической разметки в НКРЯ <st> При{при=ПРЕД} мощном{мощный=П=ср, ед, пр} сложении{сложение=С, ср, но=ед, пр}, крупной{крупный=П=жр, ед, пр} голове{голова=С, жр, но=ед, пр}, крупных{крупный=П=мн, пр} чертах{черта=С, жр, но=мн, пр [Ex="Провести черту. " R="непр" Cl="форма" | Ex="Пограничная ч. " R="непр" C 3="характеристика" Ap="оценка: max" | Ex="Черты характера. " R="непр" C 3="характеристика" | Ex="Пограничная ч" R="предм" Cl="пр&м" ]} лица{лицо=С, ср, но=ед, рд} он{он=М-С, мр, ед, 3 л=им}, когда{когда=СОЮЗ} сидел{сидеть=Г, нс, нп, дст=мр, ед, прш}, производил{производить=Г, нс, пе=мр, ед, дст, прш [Mo="преф" | Ex="Завод производит станки. " Cl="существование" Ca="каузация существования" Mo="преф" | Ex="П. свое имя от древнего рода. " Mo="преф" ]} впечатление{впечатление=С, ср, но=ед, вн [R="непр" Cl="восприятие" C 4="возд" | R="непр" Do="ментальная сфера" ]} рослого{рослый=П=мр, ед, рд} человека{человек=С, мр, од=ед, рд}. </st> 3/19/2018 62
Пример семантической разметки: The rock moved down the hill rolling FIGURE MOTION PATH GROUND MANNER The rock rolled down the hill FIGURE MOTION + MANNER PATH GROUND La botella entró a la cueva flotando (the bottle) (moved-in) (to) (the cave) (floating) FIGURE MOTION + PATH GROUND MANNER She powdered her nose MOTION + PATH + FIGURE GROUND I shelved the books MOTION + PATH + GROUND FIGURE 3/19/2018 63
1. 2. 6. Фонетическая разметка n 1 8 14 1470 1 1 A 11 ^what a_bout a cigarette#. /1 8 15 1480 1 1 A 20 *((4 sylls))* /1 8 14 1490 1 1 B 11 *I ^won't have one th/anks#* - - /1 8 14 1500 1 1 A 11 ^aren't you. going to sit d/own# /1 8 14 1510 1 1 B 11 ^[/m]# n # end of tone group n ^ onset n / rising nuclear tone falling nuclear tone / rise-fall nuclear tone_ level nuclear tone n [] enclose partial words and phonetic symbols. n normal stress n ! booster: higher pitch than preceding prominent 64 3/19/2018 syllable
1. 2. 7. Разметка анафоры n A 039 1 v (1 [N Local_JJ atheists_NN 2 N] 1) [V want_VV 0 (2 [N the_AT (9 Charlotte_N 1 9) Police_NN 2 Department_NNJ N] 2) [Ti to_TO get_VV 0 rid_VVN of_IO [N 3 <REF=2 its_APP$ chaplain 3) , _, [N {{3 the_AT Rev. _NNSB 1 Dennis_NP 1 Whitaker_NP 1 3} , _, 38_MC N]N]Ti]V]. _. 3/19/2018 65
Другие виды разметки • структура дискурса "apologies" e. g. sorry, excuse me "greetings" e. g. hello "hedges" e. g. kind of, sort of thing "politeness" e. g. please "responses" e. g. really, that's right n DRT (http: //www. coli. uni-sb. de/~bos/doris/ ) n • • 3/19/2018 66
Принципы разметки Leech's Maxims of Annotation n n n Теоретическая база – максимально независимая, но не может быть таковой Тэги – мнемоничные, теоретически прозрачные По возможности однозначные Минимальный набор необходимых тэгов Тэги поддающиеся инструктажу – 2 любых человека с улицы оттэгировали одинаково Недорогие общедоступные решения 3/19/2018 67
Максимы Лича Требование удаления/восстановления разметки <w><ana lex="из-под" gr="PR"/>Из-под</w> <w><ana lex="сено" gr="S n inan sg gen" sem="r: concr t: stuff t: food: fodder pt: aggr sc: part(plant) " sem 2="r: concr t: stuff t: food: fodder pt: aggr sc: part(plant) "/>сена</w> , <w><ana lex="на" gr="PR"/>на</w> <w><ana lex="который" gr="A-PRO n sg loc" sem="r: rel | r: rel t: ord " sem 2="r: rel | r: rel t: ord "/>котором</w> <w><ana lex="сена gr="V ipf intr act m sg лежалact" sem="t: loc: body ca: noncaus d: root" Из-под лежать" , на котором praet indic , Платон Спиридоныч sem 2="t: loc: body ca: noncaus вытянул свёрток , d: root || d: root | t: loc ca: noncaus d: root | протянул Павлу d: root "/>лежал</w> , <w><ana lex="Платон" gr="S persn m anim sg nom" sem="r: propn t: hum t: persn" sem 2="r: propn t: hum t: persn || t: fam"/>Платон</w> <w><ana lex="Спиридонович" gr="S m anim sg nom distort" sem="r: propn t: hum t: patrn der: s " sem 2="r: propn t: hum t: patrn der: s "/>Спиридоныч</w> <w><ana lex="вытянуть" gr="V pf tran m sg act praet indic act" sem="t: move ca: caus d: pref der: v" sem 2="t: move ca: caus d: pref der: v || d: pref der: v | d: pref der: v "/>вытянул</w> <w><ana lex="сверток" gr="S m inan sg acc" sem="r: concr pt: set sc: thing der: v" sem 2="r: concr pt: set sc: thing der: v || r: concr pt: qtm qc: stuff der: v "/>свёрток</w> , <w><ana lex="протянуть" gr="V pf tran m sg act praet indic act" sem="d: pref der: v" sem 2="d: pref der: v || d: pref der: v | t: be: exist ca: noncaus d: pref der: v | d: pref der: v "/>протянул</w> <w><ana lex="Павел" gr="S persn m anim sg dat" sem="r: propn t: hum t: persn " sem 2="r: propn t: hum 68 3/19/2018"/>Павлу</w> t: persn
de9d5e6647418198c5cbd81424c55410.ppt