593dc64252e4dbf7b63b46181e4f3fc1.ppt
- Количество слайдов: 96
Компьютерные инструменты лингвистических исследований Корпуса Лекция 2
n Преимущества корпусных данных n Что такое корпус n Национальный корпус n История корпусной лингвистики n Основные единицы n Основные требования, предъявляемые к корпусам n Разметка корпусов n Типы корпусов n Использование корпусов 3/18/2018 2
n Преимущества корпусных данных (корпус как ресурс и как инструмент) n Что такое корпус n Национальный корпус n Использование корпусов n История корпусной лингвистики n Основные единицы n Поиск в корпусе n Основные требования, предъявляемые к корпусам 3/18/2018 3
Методы исследования: n эксперимент vs. наблюдение Эксперимент: Øконтролируемость Ø воспроизводимость исходных условий Øдостоверность - устойчивость результата Наблюдение: Ø невозможность воспроизведения условий Øнеконтролируемость Ø отсутствие отрицательного результата 3/18/2018 4
Наблюдение: аргументы «против» (Н. Хомский и его последователи) употребления языка и языковой компетенции n противопоставление n «бесконечная» природа естественного языка n Значение интроспекции n Невероятная трудоемкость такого способа лингвистического исследования 3/18/2018 5
Наблюдение: аргументы «за» Преимущества корпусных данных n n Возможность верификации результатов исследования Большинство высказываний грамматичны в определенных контекстах Доступность квантитативных данных Компьтерная поддержка -> возможность легкого доступа к большому количеству данных, соответствующих конкретным интересам пользователя 3/18/2018 6
представление лингвистических данных в реальном контексте; n достаточно большая представительность данных (при большом объёме корпуса); n возможностью многократного использования единожды созданного корпуса для решения различных лингвистических задач. n 3/18/2018 7
n Цели и задачи курса n Преимущества корпусных данных n Что такое корпус. n Национальный корпус n История корпусной лингвистики n Основные единицы n Поиск в корпусе n Основные требования, предъявляемые к корпусам 3/18/2018 8
Корпус n Корпус – множество текстов, Ø отобранных, исходя из исследовательской задачи и в соответствии с некоторыми исследовательскими принципами Ø специально подготовленных, размеченных (имеющих лингвистическую аннотацию) Ø снабженный специальным поисковым интерфейсом 3/18/2018 9
Корпус Лингвистический, или языковой, корпус те – большой, представленный в электронном виде, унифицированный, структурированный, размеченный, филологически компетентный массив языковых данных, предназначенный для решения конкретных лингвистических задач. 3/18/2018 10
Пример: Национальный корпус русского языка 3/18/2018 11
n Цели и задачи курса n Преимущества корпусных данных n Что такое корпус n Национальный корпус n Использование корпусов n История корпусной лингвистики n Основные единицы n Поиск в корпусе n Основные требования, предъявляемые к корпусам 3/18/2018 12
Национальный корпус n n n это собрание текстов в электронной форме, представляющих данный язык (на определенном этапе его существования), отображающий данный язык во всем многообразии жанров, стилей, территориальных и социальных вариантов и т. п. Общепризнанными образцами являются, в частности, Британский национальный корпус (BNC), на который ориентированы и многие другие корпуса; среди славянских корпусов выделяется Чешский национальный корпус, созданный в Карловом университете Праги, Русский национальный корпус. 3/18/2018 13
n Цели и задачи курса n Преимущества корпусных данных n Что такое корпус n Национальный корпус n Использование корпусов n История корпусной лингвистики n Основные единицы n Поиск в корпусе n Основные требования, предъявляемые к корпусам 3/18/2018 14
Исследования полевых лингвистов Америки n Они занимались изучением языков американских индейцев, например, Боас 1940 г 3/18/2018 15
Освоение языка: n n Одно из направлений психолингвистики – это исследование процесса освоения языка детьми. Такие исследования невозможны без тщательного документирования речи ребенка на протяжении некоторого достаточно длительного времени. И действительно где-то с 1876 по 1926 гг. проводилось исследование детской речи – которое основывалось на родительских дневниках, где были тщательно задокументированы высказывания ребенка. В течении многих лет корпус продолжал пополняться и расширяться, так с 1927 по 1957 собран огромный материал – образцы речи многих детей самых разных возрастов. Задачи, которые преследуются – выявить нормы языкового развития ребенка. Сбор образцов детской речи ведется до нашего времени - Child 3/18/2018 16
Spelling conventions n Еще одним примером предшественника современных корпусных исследований может служить работа Kading (1897) – он использовал огромный корпус на немецком языке – 11 миллионов слов – чтобы подсчитать частоту букв и буквенных сочетаний в немецком языке 3/18/2018 17
n Составление частотных словарей для улучшения работы систем связи (телеграфа) и т. п. Эшту, Кондон 3/18/2018 18
Обучение языку n n n Фрайз и Трэвер (1940) и некоторые другие – использовали корпус текстов для разработки методов обучения второму языку. Проблемы эмигрантов – задача быстро научить людей понимать некоторый минимум. Для этого необходимо выявить некоторый минимум общеупотребительной лексики Так в 1921 г был создан один из первых частотных словарей Торндайка как раз в этих целях. Для того, чтобы выявить этот самый необходимый лексический минимум надо было проанализировать некоторое достаточно большое множество текстов и при этом разных жанров 3/18/2018 19
n Цели и задачи курса n Преимущества корпусных данных n Что такое корпус n Национальный корпус n Использование корпусов n История корпусной лингвистики n Основные единицы n Поиск в корпусе n Основные требования, предъявляемые к корпусам 3/18/2018 20
Основные единицы n Основной элемент хранения в корпусе: текст (может быть полное произведение, фрагмент произведения, одно предложение и т. п. ) s- насколько большой объем текстов в данном корпусе, как измерять этот объем, как сравнивать корпуса: в количестве текстов, страниц и т. п. ? ? ? Возможный ответ: В словах 3/18/2018 21
Но: что такое слово? Что мы будем считать словом? n Сколько слов в предложении: Ворон к ворону Ворон ворону 3/18/2018 летит кричит 22
n Но что такое слово? Что мы будем считать словом? sсловоупотребление s. Лемма (множество словоформ, сведенных к одной исходной форме (≈лексема)) 3/18/2018 23
Лемма древних Является для 3/18/2018 древние =S, мн, од=(род|вин|пр)| древний =A =род, мн|вин, мн, од|пр, мн являться Длить Для =V=непрош, ед, изъяв, 3 л, нсв, страд =V=непрош, ед, изъяв, 3 -л, нсв =V, несов=непрош, деепр =PR 24
1 млн. словоупотреблений – это много или мало? Сравнение данных корпусов относительно лексемы imaginable Объем (в Корпус миллиона х) Абс. Част. частота на 1 млн. 1 Brown Corpus 0 0 1 Bible 0 0 2 Shakespeare 0 0 7 WSJ (Wall Street Journal) Hansard 41 5, 9 15 0, 8 18 3/18/2018 1 роман ~ 200 тыс. словоупотреблений 25
n Цели и задачи курса n Преимущества корпусных данных n Что такое корпус n Национальный корпус n Использование корпусов n История корпусной лингвистики n Основные единицы n Поиск в корпусе n Основные требования, предъявляемые к корпусам 3/18/2018 26
Поиск в корпусе: конкорданс Алфавитный перечень всех слов какого-л. текста с указанием контекстов их употребления; тип словаря, представленный в таком виде. • Конкорданс поэтических произведений Лермонтова. • Конкорданс древнерусского памятника. 3/18/2018 27
Поиск в корпусе: конкорданс Конкорданс для лексемы «bag» 3/18/2018 28
Поиск в корпусе: частотные характеристики Powerful (Corpus of Contemporary American English) WORD/PHRASE TOKENS 1 TOKENS 2 1 POWERFUL 6440 SEC 1: 95, 565, 075 WORDS 7048 PM 1 PM 2 67. 39 76. 84 RATIO 0. 88 SEC 2: 91, 717, 452 WORDS PMI – items per million (WPM, IPM) (C(w)/N = X/1000 000) X = (6440/95, 565, 075)*1000000 = 67. 39 3/18/2018 29
Фрагмент конкорданса для слова «язык» по статьям конференции «Диалог» и слово мысли величайшую важность переводи на элементами будут: эпитетов новый, нет, быть к это 3/18/2018 - Соотношение русского альтернативный у воздержнее представлению и и имеет интеллигентский информационнопоисковый компьютерный литературного литературный меня на на язык языка языке 30
на русский с в естественный и не который длить для он этот язык к литературный свой текст универсальный английский быть 3/18/2018 36 23 18 17 16 15 13 10 9 9 8 8 6 5 5 5 4 4 31
Collocation русский язык английский язык иностранный язык родной язык немецкий язык французский язык общий язык казахский язык литературный язык государственный язык украинский язык греческий язык разный язык японский язык испанский язык китайский язык арабский язык разговорный язык 3/18/2018 Joint Freq LL score 2 89668 17829. 01 22247 7592. 03 14911 4908. 92 16393 3133. 84 19889 1852. 88 17658 1646. 62 56391 1191. 93 1681 1068. 37 11778 1051. 95 45761 606. 27 6171 499. 73 4670 451. 61 56950 446. 31 8158 406. 48 3570 377. 68 9286 369. 66 3646 360. 44 956 317. 1332 Freq 1 7619 2967 1933 1361 925 822 834 377 530 481 257 224 413 232 184 222 178 125
n Цели и задачи курса n Преимущества корпусных данных n Что такое корпус n Национальный корпус n Использование корпусов n История корпусной лингвистики n Основные единицы n Поиск в корпусе n Основные требования, предъявляемые к корпусам 3/18/2018 33
Требования пользователя к корпусу: репрезентативность корпуса n полнота n экономичность n структуризация (разметка, лемматизация) n компьютерная поддержка n 3/18/2018 34
Репрезентативность – способность корпуса текстов отражать все свойства проблемной области, релевантные для данного типа лингвистических исследований, в определенной пропорции, определяемой частотой явления в проблемной области. 3/18/2018 35
Требования к корпусу: Репрезентативность Требование репрезентативности при создании национального корпуса Размеры и процентные соотношения: Ø Жанры Ø Стили Ø Периоды Ø Авторы Ø Хронологические границы ……………. 3/18/2018 36
Требования к корпусу: Репрезентативность Требование репрезентативности при создании национального корпуса n Всеобщий корпус, нацеленный на пропорциональный охват языковой практики, по анализам Д. Байбера, должен был бы содержать приблизительно 90% разговоров (обычной разговорной речи), 3% писем и замечаний и 7% опубликованных и неопубликованных текстов классических стилей и жанров. 3/18/2018 37
Требования к корпусу: Репрезентативность Требование репрезентативности при создании национального корпуса n Обычно художественные тексты составляют в национальных корпусах 20 -40% 3/18/2018 38
Требования к корпусу: Репрезентативность Требование репрезентативности при создании национального корпуса n Если всеобщий национальный корпус составляется из письменных текстов современного языка, при создании проекта все же необходимо: § с хронологической точки зрения ограничить современный язык § с точки зрения репрезентативности определить, будут ли тексты для корпуса подбираться на основе принципа адекватного представления всех стилей и жанров (типов текстов) § или на основе адекватного размещения языковых явлений в соответствующих текстах / целом корпусе 3/18/2018 39
Требования к корпусу: Репрезентативность Требование репрезентативности при создании национального корпуса Культурно-репрезентативный корпус n От лингвистической работы часто требуется не языковой пример, а хороший языковой пример, “освященный” авторитетом сочинителя è собрание культурно значимых текстов на данном языке В практическом преломлении “культурная значимость” üпотенциальным источником расхожих цитат текст ü признаётся принадлежащим данному слою, если он вносит какой-то вклад в историю русского языка (в том числе и интересен языковыми экспериментами). 3/18/2018 40
Требования к корпусу: Репрезентативность Требование репрезентативности при создании национального корпуса n культурная значимость не гарантирует “стандартности” авторского языка. n От корпуса языка требуется соответствие узусу и языковой компетенции его образованного носителя. Между тем тексты таких авторов, как Зощенко, Платонов или даже Гоголь изобилуют “авторскими особенностями” n Отсюда задача: “стандартный”, “эталонный” корпус русского языка; языка лишенного по возможности сознательных стилевых и лексических экспериментов, тем не менее “гладкого” и “профессионального”. 3/18/2018 41
Требования к корпусу: Репрезентативность Требование репрезентативности при создании исследовательского корпуса Например, проблема – корпус текстов по дискурсивным словам русского языка Ср. частота частицы же vs. типа 3/18/2018 42
Требования к корпусу: Полнота В корпусе исследуемое явление должно быть представлено во всей его полноте, включая редкие случаи и отклонения от нормы NB: Полнота требует учета релевантных явлений, даже если они очень редкие и не попадают в корпус в соответствии с требованием репрезентативности n 3/18/2018 43
Требования к корпусу: ? ? Экономичность “Корпус должен экономить усилия исследователя при изучении проблемной области. n В частности, он должен быть не просто строгим подмножеством проблемной области, но, по возможности, существенно отличаться от нее (меньше) по объему” n А. Н. Баранов. Введение в прикладную лингвистику. С. 119. 3/18/2018 44
Требования к корпусу: Структуризация Лингвистическая аннотация: Ø Метаинформация о текстах Ø Морфологическая, синтаксическая и др. разметка 3/18/2018 45
Требования к корпусу: Компьютерная поддержка необходимы специальные программы по обработке данных n Необходима предварительная подготовка текста для того, чтобы его можно было обрабатывать компьютером n 3/18/2018 46
n Сбалансированный корпус n в корпусе должны быть представлены в соответствующих пропорциях тексты разных функциональных стилей, жанров, авторов и т. п. (например, как художественная литература, так и газетные и журнальные статьи, учебники, научнопопуляпная литература и т. д. ). Пример: Брауновский корпус Фрэнсис – Кучера. 1 млн словоупотреблений. 500 текстов по 2000 словоупотреблений. n Мониторный корпус 3/18/2018 47
Требование унификации: многократное использование; Ø много пользователей; Ø совместимость с другими корпусами; Ø совместимость с другими лингвопроцессорами; Ø совместимость с общепринятыми научными теориями; Ø совместимость с общепринятыми классификациями; Ø возможность применения стандартных программных средств. Ø 3/18/2018 48
Объекты стандартизации Ø Ø Структура формата Наполнение формата Метаданные Классификаторы Лингвистическая разметка Ø 3/18/2018 Кодировки 49
Стандарты Пример: In passing the door of that sanctum some time after, I caught the words -'She'll happen do better for him nor ony o' f grand ladies. ' And again, 'If she ben't one o' th' handsomest, she's noan faa''l, and varry good-natured; and i' his een she's fair beautiful, onybody may see that. ‘ 474 JANE EYRE 475 n 3/18/2018 50
Стандарты n Пример: In passing the door of that sanctum some time after, I caught the words -- 'She'll happen do better for him nor ony o' f grand ladies. ' And again, 'If she ben't one o' th' handsomest, she's noan faa''l, and varry good-natured; and i' his een she's fair beautiful, onybody may see that. ‘ 474 JANE EYRE 3/18/2018 475 51
Стандарты n n In passing the door of that sanctum some time after, I caught the words ‐
She'll happen do better for him nor ony o' t' grand ladies.
And again, If she ben't one o' th' handsomest, she's noan faà l, and varry good-natured; and i' his een she's fair beautiful, onybody may see that.
Стандарты разметки TEI – text encoding initiative n EAGLES -Expert Advisory Group on Language Engineering Standards n SGML - Standard Generalised Markup Language n XML (Extensible Markup Language) - язык разметки документов n 3/18/2018 53
Другие международные проекты и стандарты стандарт CES (Corpus Encoding Standard); Ø стандарт XCES (Corpus Encoding Standard for XML); Ø проект ISLE (International Standards for Language Engineering); Ø стандарт CDIF (Corpus Document Interchange Format, BNC). Ø 3/18/2018 54
Группа стандартов TEI для корпусов (TEI P 4, TEI P 5) Схема описания документа: Ø Ø Ø библиографическое описание текста, собственно метаописание текста и "технологическое" описание: кодировка текста, история создания электронной версии и т. п. 3/18/2018 55
Стандарт Text Encoding Initiative (TEI) 1. 2. формальное описание текста Название Автор Год Размер ……… содержательное описание текста Жанр Стиль Целевая аудитория Время создания ……… 3/18/2018 56
TEI – универсальное множество, из которого создатель корпуса может выбрать любое подмножество, релевантное для своей конкретной задачи. 3/18/2018 57
Pizza Chef: технология и программное обеспечение для создания собственного подмножества TEI (TEI Lite, Burnard & Sperberg-Mc. Queen 1995) 1. Выбрать нужное подмножество тэгов (проза, речь, словарь и 2. Выбрать стандарт кодирования (ISO Latin 1, ISO Cyrillic 2 и т. п. ) Создать файлы модификации для удаления или переопределения элементов 4. Загрузить файлы модификации 5. "Можно запекать пиццу"! генерируется пользовательская таблица DTD для нужного подмножества TEI 3. 3/18/2018 58
Кодирование метаданных в TEI Предусмотрены следующие тэги: 1.
TEI •
The example is taken from William Blake's Songs of innocence and experience (1794).
n Преимущества корпусных данных n Что такое корпус n Национальный корпус n История корпусной лингвистики n Основные единицы n Основные требования, предъявляемые к корпусам n Разметка корпусов n Типы корпусов n Использование корпусов 3/18/2018 62
Разметка метатекстовая разметка ( в т. ч. разбиение текста на фрагменты) Ø морфологическая разметка (в т. ч. лемматизация) Ø синтаксическая разметка Ø семантическая разметка Ø фонетическая разметка другие типы разметки: n анафорическая n структура дискурса (например, DRT http: //www. coli. uni-sb. de/~bos/doris/ ) Ø 3/18/2018 63
Метаразметка n n n 3/18/2018 Факторы: 1) факторы, относящиеся к созданию текста автором; 2) факторы, относящиеся к внешним признакам текста; 3) факторы, относящиеся к целям создания текста и его влиянию на аудиторию. 4) предметная область текста; 5) стилистические особенности текста. 64
Морфологическая разметка Лемматизация n Разметка по частям речи (POS tagging) n Морфологическая разметка (по всем грамматическим категориям) n 3/18/2018 67
Лемматизация SUSANNE corpus : n N 12: 0510 g - PPHS 1 m He he N 12: 0510 h - VVDv studied study N 12: 0510 i - AT the N 12: 0510 j - NN 1 c problem. . . VVDv thought think N 12: 0520 c - IO of of n N 12: 0520 d - AT 1 a a n n n 3/18/2018 n n n n N 12: 0520 e - NNc means N 12: 0520 f - IIb by by N 12: 0520 g - DDQr which N 12: 0520 h - PPH 1 it it N 12: 0520 i - VMd might may N 12: 0520 j - VB 0 be be N 12: 0520 k - VVNt solved solve N 12: 0520 m - YF +. - 68
Морфологическая разметка This example is from the Spoken English Corpus and used the C 7 tagset: Perdita&NN 1 -NP 0; , &PUN; covering&VVG; the&AT 0; bottom&NN 1; of&PRF; the&AT 0; lorries&NN 2; with&PRP; straw&NN 1; to&TO 0; protect&VVI; the&AT 0; ponies&NN 2; '&POS; feet&NN 2; , &PUN; suddenly&AV 0; heard&VVD-VVN; Alejandro&NN 1 -NP 0; shouting&VVG; that&CJT; n AJ 0: general adjective n AT 0: article, neutral for number AV 0: general adverb AVP: prepositional adverb CJC: co-ordinating conjunction CJS: subordinating conjunction CJT: that conjunction DPS: possessive determiner DT 0: singular determiner NN 0: common noun, neutral for number NN 1: singular common noun NN 2: plural common noun 3/18/2018 NP 0: proper noun POS: genitive marker PNP: pronoun PRF: of PRP: prepostition PUN: punctuation TO 0: infintive to VBI: be VM 0: modal auxiliary VVB: base form of lexical verb VVD: past tense form of lexical verb VVG: -ing form of lexical verb VVI: infinitive form of lexical verb 69 VVN: past participle form of lexical verb
EXAMPLE OF PART-OF-SPEECH TAGGING, LOB CORPUS: hospitality_NN is_BEZ an_AT excellent_JJ virtue_NN , _, but_CC not_XNOT when_WRB the_ATI guests_NNS have_HV to_TO sleep_VB in_IN rows_NNS in_IN the_ATI cellar_NN !_! the_ATI lovers_NNS , _, whose_WP$ chief_JJB scene_NN was_BEDZ comparatively_RB little_AP to_TO sing_VB cut_VBN at_IN the_ATI last_AP moment_NN , _, had_HVD Rollinson_NP. _. '_' he_PP 3 A stole_VBD my_PP$ wallet_NN !_! '_' roared_VBD 3/18/2018 70
Пример морфологической разметки Национального корпуса русского языка: n
Синтаксическая разметка n Treebanks Parsing (S=sentence, NP=noun phrase, VP=verb phrase, PP=prepositional phrase, N=noun, V=verb, AT=article, P=preposition. ) 3/18/2018 72
[S[NP Claudia_NP 1 NP][VP sat_VVD [PP on_II [NP a_AT 1 stool_NN 1 NP] PP] VP] S] [S [NP Claudia NP] [VP sat [PP on [NP a stool NP] PP] VP] S] 3/18/2018 73
Full parsing: [S[Ncs another_DT new_JJ style_NN feature_NN Ncs] [Vzb is_BEZ Vzb] [Ns the_AT 1 [NN/JJ& wine-glass_NN [JJ+ or_CC flared_JJ HH+]NN/JJ&] heel_NN , _, [Fr[Nq which_WDT Nq] [Vzp was_BEDZ shown_VBN Vzp] [Tn[Vn teamed_VBN Vn] [R up_RP R] [P with_INW [NP[JJ/JJ/NN& pointed_JJ , _, [JJ- squared_JJ JJ-] , _, [NN+ and_CC chisel_NN NN+]JJ/JJ/NN&] toes_NNS Np]P]Tn]Fr]Ns]. _. S] & whole coordination + subordinate conjunct, introduced - subordinate conjunct, not introduced Fr relative phrase JJ adjective phrase Ncs noun phrase, count noun singular Np noun phrase, plural Nq noun phrase, wh-word Ns noun phrase, singular 3/18/2018 n P prepositional phrase R adverbial phrase S sentence singular Tn past participal phrase Vn verb phrase, past participle Vzb verb phrase, third person singular to be Vzp verb phrase, passive third person 74
Skeleton Parsing [S& [P For_IF [N the_AT members_NN 2 [P of_IO [N this_DD 1 university_NNL 1 N]P] [N this_DD 1 charter_NN 1 N] [V enshrines_VVZ [N a_AT 1 victorious_JJ principle_NN 1 N]V]S&] ; _; and_CC [S+[N the_AT fruits_NN 2 [P of_IO [N that_DD 1 victory_NN 1 N]P]N] [V can_VM immediately_RR be_VB 0 seen_VVN [P in_II [N the_AT international_JJ community_NNJ [P of_IO [N scholars_NN 2 N]P] [Fr that_CST [V has_VHZ graduated_VVN here_RL today_RT V]Fr]N]P]V]S+] 3/18/2018 75
Синтаксическая разметка
Ситнтаксическая разметка nsentence 63838: Наш регион приближается к эпидемии повремени непочислу , но заболевших. n n Barcelona – Napoli – n Toulon – Nice – n Brega – Trieste – n Marceille – Manchester –
Семантическая разметка Разрешение семантической неоднозначности n Выделение значений лексем в данном контексте n Разметка в соответствии с тезаурусом Роже n Разметка семантических ролей n Разметка в соответсвии с выделяемыми в словаре подзначениями n Разметка в соответствии с классами, выделяемыми в WORDNET n 3/18/2018 78
Пример семантической разметки: По тезаурусу Роже n n n n And the soldiers platted a crown of thorns 00000000 23241000 21072000 0000 21110400 0000 13010000 n n n n 3/18/2018 0000 Low content word (and, the, a, of, on, his, they etc) 13010000 Plant life in general 21030000 Body and body parts 21072000 Object-oriented physical activity (e. g. put) 21110321 Men's clothing: outer clothing 21110400 Headgear 23231000 War and conflict: general 79
Пример семантической разметки в НКРЯ
Пример семантической разметки: The rock moved down the hill rolling FIGURE MOTION PATH GROUND MANNER The rock rolled down the hill FIGURE MOTION + MANNER PATH GROUND La botella entró a la cueva flotando (the bottle) (moved-in) (to) (the cave) (floating) FIGURE MOTION + PATH GROUND MANNER She powdered her nose MOTION + PATH + FIGURE GROUND I shelved the books MOTION + PATH + GROUND FIGURE 3/18/2018 81
Фонетическая разметка n 1 8 14 1470 1 1 A 11 ^what a_bout a cigarette#. 8 15 1480 1 1 A 20 *((4 sylls))* 1490 1 1 B 11 *I ^won't have one th/anks#* - - 1500 1 1 A 11 ^aren't you. going to sit d/own# 1510 1 1 B 11 ^[/m]# - /1 /1 8 14 n • • • 3/18/2018 # end of tone group ^ onset / rising nuclear tone falling nuclear tone / rise-fall nuclear tone_ level nuclear tone [] enclose partial words and phonetic symbols. normal stress ! booster: higher pitch than preceding prominent syllable = booster: continuance (( )) unclear * * simultaneous speech - pause of one stress unit 82
Разметка анафоры n A 039 1 v (1 [N Local_JJ atheists_NN 2 N] 1) [V want_VV 0 (2 [N the_AT (9 Charlotte_N 1 9) Police_NN 2 Department_NNJ N] 2) [Ti to_TO get_VV 0 rid_VVN of_IO [N 3
3/18/2018 84
Другие виды разметки • структура дискурса "apologies" e. g. sorry, excuse me "greetings" e. g. hello "hedges" e. g. kind of, sort of thing "politeness" e. g. please "responses" e. g. really, that's right n DRT (http: //www. coli. uni-sb. de/~bos/doris/ ) n • • 3/18/2018 85
Из-под
Типы корпусов Корпусы, относящиеся ко всему языку; Ø корпусы, относящиеся к какому-либо подъязыку (жанр, стиль, язык определенной возрастной или социальной группы, язык писателя или ученого и т. п. ). Ø Существует большое число разных других типов корпусов. Можно выделить различные основания для классификации корпусов. 3/18/2018 87
Классификация корпусов Признак Типы корпусов Тип данных • Письменные • Речевые • Смешанные Язык текстов • «Параллельность» • Русский • Английский и т. д. Одноязычные • Двуязычные • Многоязычные «Литературность» , специф ичность Жанр 3/18/2018 Литературные • Диалектные • Разговорные • Терминологические • Смешанные • Литературные Фольклорные • Драматургические Публицистические • В. П. Захаров Санкт-Петербургский государственный университет «Введение в корпусную лингвистику» 88
Классификация корпусов (прод. ) Признак Типы корпусов Доступность • Свободно доступные • Коммерческие • Закрытые Назначение • Исследовательские Динамичность • Динамические Разметка • Размеченные Характер разметки • Морфологические • Иллюстративные (мониторные) • Статические • Неразмеченные • Синтаксические • Семантические • Просодические Объем текстов 3/18/2018 и т. д. • Полнотекстовые • «Фрагментнотекстовые» В. П. Захаров Санкт-Петербургский государственный университет «Введение в корпусную лингвистику» 89
Классификация корпусов (прод. ) Признак Типы корпусов Хронологический аспект • Синхронические «Общность» • Общие Структура • Центральные 3/18/2018 • Диахронические • Одного писателя и архивные • Ядерные и периферийные В. П. Захаров Санкт-Петербургский государственный университет «Введение в корпусную лингвистику» 90
Использование корпусов 3/18/2018 91
Пример 1 n n 101 самое частое существительное (частоты от 271 до 41) у Высоцкого друг, люди, рука, дело, дом, человек, раз, душа, жизнь, земля, день, песня, время, бог, слово, лицо, глаз, женщина, год, сон, правда, конец, нога, голова, конь, черт, вода, парень, свет, лета, дверь, место, кровь, путь, мир, час, ночь, спина, ветер, голос, окно, ребята, смерть, мужчина, враг, бой, сила, век, стол, море, брат, судьба, поезд, война, купе, сердце, беда, дорога, работа, вид, девушка, гора, жена, товарищ, рот, город, мать, страна, народ, слеза, дети, деньги, отец, водка, поле, грудь, нож, машина, корабль, профессор, проводник, игра, стена, снег, лес, плечо, пес, ум, мама, зуб, минута, утро, король, вопрос, вечер, язык, любовь, срок, сосед, рай, письмо; 3/18/2018 92
Пример 2. одушевленные ИГ неодушевленные ИГ Sg Pl Pl % SV 11 48 81 21 20 49 VS 24 23 49 70 18 20 3/18/2018 93
корпус поможет, например, n ü быстро, более полно и более последовательно составить словарь (лексикографическое описание интересующего нас слова, группы слов), оценить, как часто оно употребляется в том или ином своем значении n ü выделить множество его значений (более полное) n ü проверить свою формальную теорию 3/18/2018 94
n ü исследование некоторого языкового явления на большом массиве текстов может привести к неожиданным выводам, которые невозможно получить другим путем ü может предоставить более доказательную базу для подтверждения той или иной гипотезы n ü провести социолингвистические исследования (например, сравнить особенности употребления той или иной лексики мужчинами и женщинами) n 3/18/2018 95
n определить тенденции языковых изменений, сравнивая современные тексты с текстами, созданными в другой исторический период (например, сравнить употребление деепричастных оборотов в середине 20 в. и сейчас) n провести контент-анализ современной прессы (например, проследить, какие слова и выражения ассоциируются с понятием «власть» в тот или иной период времени или в прессе той или иной политической направленности) 3/18/2018 96



