Скачать презентацию Лекция 11 Использование корпусов в прикладной лингвистике и Скачать презентацию Лекция 11 Использование корпусов в прикладной лингвистике и

3be539adaa11beec8d7377d81edca015.ppt

  • Количество слайдов: 20

Лекция 11. Использование корпусов в прикладной лингвистике и в других областях В. П. Захаров Лекция 11. Использование корпусов в прикладной лингвистике и в других областях В. П. Захаров Санкт-Петербургский государственный университет Лекция 11 Корпусная лингвистика

Корпусы в прикладной лингвистике и в других областях Пользователи Прикладные лингвисты различного профиля. Ø Корпусы в прикладной лингвистике и в других областях Пользователи Прикладные лингвисты различного профиля. Ø Лексикографы. Ø Преподаватели: корпусы как база при обучении языкам. Ø Компьютерные лингвисты: выявление статистических и других закономерностей для создания и отладки компьютерных моделей языка. Ø Другие специалисты по языку (литературоведы, редакторы, специалисты по рекламе). Ø Специалисты по общественным наукам (историки, социологи и др. ). Ø Лекция 11 Корпусная лингвистика 2

Что дают корпусы пользователям Ø реальные контексты; контексты Ø реальные статистические данные (на больших Что дают корпусы пользователям Ø реальные контексты; контексты Ø реальные статистические данные (на больших объемах текстов); Ø сочетаемость (коллокации); Ø категоризацию языкового материала; Ø проекции языка на различные подъязыки. Лекция 11 Корпусная лингвистика 3

Корпусы как средство описания и применения языка Ø Ø Ø Ø Фонетика и фонология Корпусы как средство описания и применения языка Ø Ø Ø Ø Фонетика и фонология (корпуса устной речи); морфология; словообразование; словоизменение; лексикология; фразеология; парадигматика в широком смысле; синтагматика (коллокации, словосочетания); синтаксис связного текста; семантика; стилистика; прагматика. Лекция 11 Корпусная лингвистика 4

Прикладные задачи Ø Ø Ø Ø Лекция 11 Лексикография, подготовка словарей ; подготовка грамматик; Прикладные задачи Ø Ø Ø Ø Лекция 11 Лексикография, подготовка словарей ; подготовка грамматик; подготовка учебной литературы; преподавание языков; самостоятельное изучение языков; справки по правописанию; языковая политика; сохранение языкового наследия; машинный перевод; информационный поиск; распознавание речи; распознавание текста; тестирование и отладка систем автоматизированной обработки текста (NLP). Корпусная лингвистика 5

Использование корпусов прикладными лингвистами Лексикография Исследования в области словарного запаса – самые частые в Использование корпусов прикладными лингвистами Лексикография Исследования в области словарного запаса – самые частые в корпусной лингвистике. Можно сказать, что корпуса совершили революцию в лексикографии. По крайней мере, все современные словари английского языка создаются на базе корпусов. Корпусы позволяют получить данные по лексеме в целом (поиск по лемме) и по конкретной словоформе, выявить типичные/нетипичные употребления и харакетрные сочетания слов. Эти данные могут быть разными: контексты, частоты (абсолютные и относительные), частоты по коллокациям, статистика по жанрам/стилям/авторам, и т. д. Грамматика С помощью корпусов можно исследовать различные морфологические и синтаксические конструкции. Так, можно изучать словообразование, валентности глаголов, типы предложного управления, прямой и обратный порядок слов, синтаксические функции различных грамматических категорий, напр. , функции инфинитива в предложении, функции союзов в начале и в середине предложения. Корпусы позволяют также получить сведения о правописании и пунктуации. И т. д. Лекция 11 Корпусная лингвистика 6

Лексикография При составлении словарей корпусы помогают: выявить новые значения; Ø удалить нерелевантные; Ø более Лексикография При составлении словарей корпусы помогают: выявить новые значения; Ø удалить нерелевантные; Ø более точно упорядочить отдельные значения внутри словарных статей. Ø Лекция 11 Корпусная лингвистика 7

Примеры Пример 1: KNOW Longman Dictionary of Contemporary English 1987: 20 значений Longman Dictionary Примеры Пример 1: KNOW Longman Dictionary of Contemporary English 1987: 20 значений Longman Dictionary of Contemporary English 1995: более 40 значений Пример 2: MATTER Longman Dictionary of Contemporary English 1987: 10 значений Longman Dictionary of Contemporary English 1995: 30 значений Лекция 11 Корпусная лингвистика 8

Частотные словари Корпусы служат источником для составления общеязыковых частотных словарей и частотных списков отдельных Частотные словари Корпусы служат источником для составления общеязыковых частотных словарей и частотных списков отдельных жанров, стилей, подъязыков См. новый частотный словарь русского языка http: //www. artint. ru/projects/frqlist. asp Лекция 11 Корпусная лингвистика 9

Частотный словарь русского языка (Интернет-версия) Лекция 11 Корпусная лингвистика 10 Частотный словарь русского языка (Интернет-версия) Лекция 11 Корпусная лингвистика 10

Статистические исследования в грамматике Можно сказать, ни одна из современных грамматик не создается без Статистические исследования в грамматике Можно сказать, ни одна из современных грамматик не создается без использования корпусов. В ряде случаев статистическая информация о частотах, полученная на основе корпусов непосредственно включается в текст грамматики. Лекция 11 Корпусная лингвистика 11

Пример Mindt D. An Empirical Grammar of the English Verb System. Berlin, 2000. Present Пример Mindt D. An Empirical Grammar of the English Verb System. Berlin, 2000. Present Perfect: в отличие от других учебников данная грамматика, базирующаяся на корпусе, показывает, что 2 из 4 грамматических значений этого времени (past-into-present, recent past) используются гораздо реже, чем принято считать. Лекция 11 Корпусная лингвистика 12

Меры вычисления устойчивости в лексикографии Существуют различные меры учета силы синтагматических связей в тексте Меры вычисления устойчивости в лексикографии Существуют различные меры учета силы синтагматических связей в тексте (mutual information, tscore, log-likelihood и др. ). Но их достоверность требует больших объемов текстовых данные. Поэтому только появление корпусов дало возможность делать на их основе теоретические и практические выводы. В современной лексикографии на основе использования коллокаций наблюдается тенденция: Ø заменять отдельные значения слов дефиниями словосочетаний с этими словами (Ср. Cobuild Dictionary (2000): вместо особого значения для ‘brink’ появился фразеологизм ‘be on the brink’ ) иллюстрировать фразеологизмы примерами из корпуса увеличивать число устойчивых словосочетаний в словаре Ø Ø Лекция 11 Корпусная лингвистика 13

Меры вычисления устойчивости: MI score Лекция 11 Корпусная лингвистика 14 Меры вычисления устойчивости: MI score Лекция 11 Корпусная лингвистика 14

Меры вычисления устойчивости: T score Лекция 11 Корпусная лингвистика 15 Меры вычисления устойчивости: T score Лекция 11 Корпусная лингвистика 15

Меры вычисления устойчивости: LL score Лекция 11 Корпусная лингвистика 16 Меры вычисления устойчивости: LL score Лекция 11 Корпусная лингвистика 16

Меры вычисления устойчивости в грамматике Меры учета силы синтагматических связей в тексте (mutual information, Меры вычисления устойчивости в грамматике Меры учета силы синтагматических связей в тексте (mutual information, t-score, log-likelihood и др. ) используются и при написании грамматик. Например, Longman Grammar of Written and Spoken English. London, 1999 показывает, что одни глаголы (bet, doubt, know, mean и др. ) почти всегда используется в Present Tense, в то время как другие (eye, glance, grin, nod и др. ), как правило, стоят в Past Tense. Эти данные невозможно было бы получить без корпусов. Лекция 11 Корпусная лингвистика 17

Словари и грамматики подъязыков Корпуса позволяют на основе статданных учесть различия в лексике и Словари и грамматики подъязыков Корпуса позволяют на основе статданных учесть различия в лексике и грамматике применительно к подъязыкам (жанры, стили, языки писателей, специальные языки). Так, например, корпусные исследования показали, что: в современном английском языке в разговорной речи чаще встречается время present, в то время в художественных текстах чаще встречается время past (Longman Grammar of Written and Spoken English. London, 1999). Ø в разговорной речи пассивный залог глагола TO BE встречается реже, чем в художественной прозе, в то время как для глагола TO GET наблюдается обратная картина в художественных текстах чаще встречается время past (Mindt D. An Empirical Grammar of the English Verb System. Berlin, 2000 ). Ø То же – см. сравнение употребления существительных галоша и калоша в русском языке (слайд 25 из лекции 10) Ø Лекция 11 Корпусная лингвистика 18

Социология, культура, литературоведение В настоящее время растет интерес к изучению идеологии и культуры через Социология, культура, литературоведение В настоящее время растет интерес к изучению идеологии и культуры через язык. Корпуса оказываются здесь назаменимым средством. То же самое относится к новому направлению в прикладной лингвистике, к юридической лингвистике. Корпусные данные широко используются при разработке систем контент-анализа, для определения авторства, в стилистических исследованиях. Лекция 11 Корпусная лингвистика 19

Использование корпусов для настройки и самообучения лингвистических автоматов В системах автоматической обработки текстов, как Использование корпусов для настройки и самообучения лингвистических автоматов В системах автоматической обработки текстов, как правило, используются два подхода к анализу текста: на основе лингвистических (контекстных и/или синтаксических) правил или на основе стохастических (статистических) алгоритмов. В обоих случаях создание качественного лингвистического и математического обеспечения для этих систем невозможно без использования корпусов, которые используются и как источник данных, и как настроечные тренировочные массивы. Лекция 11 Корпусная лингвистика 20