3be539adaa11beec8d7377d81edca015.ppt
- Количество слайдов: 20
Лекция 11. Использование корпусов в прикладной лингвистике и в других областях В. П. Захаров Санкт-Петербургский государственный университет Лекция 11 Корпусная лингвистика
Корпусы в прикладной лингвистике и в других областях Пользователи Прикладные лингвисты различного профиля. Ø Лексикографы. Ø Преподаватели: корпусы как база при обучении языкам. Ø Компьютерные лингвисты: выявление статистических и других закономерностей для создания и отладки компьютерных моделей языка. Ø Другие специалисты по языку (литературоведы, редакторы, специалисты по рекламе). Ø Специалисты по общественным наукам (историки, социологи и др. ). Ø Лекция 11 Корпусная лингвистика 2
Что дают корпусы пользователям Ø реальные контексты; контексты Ø реальные статистические данные (на больших объемах текстов); Ø сочетаемость (коллокации); Ø категоризацию языкового материала; Ø проекции языка на различные подъязыки. Лекция 11 Корпусная лингвистика 3
Корпусы как средство описания и применения языка Ø Ø Ø Ø Фонетика и фонология (корпуса устной речи); морфология; словообразование; словоизменение; лексикология; фразеология; парадигматика в широком смысле; синтагматика (коллокации, словосочетания); синтаксис связного текста; семантика; стилистика; прагматика. Лекция 11 Корпусная лингвистика 4
Прикладные задачи Ø Ø Ø Ø Лекция 11 Лексикография, подготовка словарей ; подготовка грамматик; подготовка учебной литературы; преподавание языков; самостоятельное изучение языков; справки по правописанию; языковая политика; сохранение языкового наследия; машинный перевод; информационный поиск; распознавание речи; распознавание текста; тестирование и отладка систем автоматизированной обработки текста (NLP). Корпусная лингвистика 5
Использование корпусов прикладными лингвистами Лексикография Исследования в области словарного запаса – самые частые в корпусной лингвистике. Можно сказать, что корпуса совершили революцию в лексикографии. По крайней мере, все современные словари английского языка создаются на базе корпусов. Корпусы позволяют получить данные по лексеме в целом (поиск по лемме) и по конкретной словоформе, выявить типичные/нетипичные употребления и харакетрные сочетания слов. Эти данные могут быть разными: контексты, частоты (абсолютные и относительные), частоты по коллокациям, статистика по жанрам/стилям/авторам, и т. д. Грамматика С помощью корпусов можно исследовать различные морфологические и синтаксические конструкции. Так, можно изучать словообразование, валентности глаголов, типы предложного управления, прямой и обратный порядок слов, синтаксические функции различных грамматических категорий, напр. , функции инфинитива в предложении, функции союзов в начале и в середине предложения. Корпусы позволяют также получить сведения о правописании и пунктуации. И т. д. Лекция 11 Корпусная лингвистика 6
Лексикография При составлении словарей корпусы помогают: выявить новые значения; Ø удалить нерелевантные; Ø более точно упорядочить отдельные значения внутри словарных статей. Ø Лекция 11 Корпусная лингвистика 7
Примеры Пример 1: KNOW Longman Dictionary of Contemporary English 1987: 20 значений Longman Dictionary of Contemporary English 1995: более 40 значений Пример 2: MATTER Longman Dictionary of Contemporary English 1987: 10 значений Longman Dictionary of Contemporary English 1995: 30 значений Лекция 11 Корпусная лингвистика 8
Частотные словари Корпусы служат источником для составления общеязыковых частотных словарей и частотных списков отдельных жанров, стилей, подъязыков См. новый частотный словарь русского языка http: //www. artint. ru/projects/frqlist. asp Лекция 11 Корпусная лингвистика 9
Частотный словарь русского языка (Интернет-версия) Лекция 11 Корпусная лингвистика 10
Статистические исследования в грамматике Можно сказать, ни одна из современных грамматик не создается без использования корпусов. В ряде случаев статистическая информация о частотах, полученная на основе корпусов непосредственно включается в текст грамматики. Лекция 11 Корпусная лингвистика 11
Пример Mindt D. An Empirical Grammar of the English Verb System. Berlin, 2000. Present Perfect: в отличие от других учебников данная грамматика, базирующаяся на корпусе, показывает, что 2 из 4 грамматических значений этого времени (past-into-present, recent past) используются гораздо реже, чем принято считать. Лекция 11 Корпусная лингвистика 12
Меры вычисления устойчивости в лексикографии Существуют различные меры учета силы синтагматических связей в тексте (mutual information, tscore, log-likelihood и др. ). Но их достоверность требует больших объемов текстовых данные. Поэтому только появление корпусов дало возможность делать на их основе теоретические и практические выводы. В современной лексикографии на основе использования коллокаций наблюдается тенденция: Ø заменять отдельные значения слов дефиниями словосочетаний с этими словами (Ср. Cobuild Dictionary (2000): вместо особого значения для ‘brink’ появился фразеологизм ‘be on the brink’ ) иллюстрировать фразеологизмы примерами из корпуса увеличивать число устойчивых словосочетаний в словаре Ø Ø Лекция 11 Корпусная лингвистика 13
Меры вычисления устойчивости: MI score Лекция 11 Корпусная лингвистика 14
Меры вычисления устойчивости: T score Лекция 11 Корпусная лингвистика 15
Меры вычисления устойчивости: LL score Лекция 11 Корпусная лингвистика 16
Меры вычисления устойчивости в грамматике Меры учета силы синтагматических связей в тексте (mutual information, t-score, log-likelihood и др. ) используются и при написании грамматик. Например, Longman Grammar of Written and Spoken English. London, 1999 показывает, что одни глаголы (bet, doubt, know, mean и др. ) почти всегда используется в Present Tense, в то время как другие (eye, glance, grin, nod и др. ), как правило, стоят в Past Tense. Эти данные невозможно было бы получить без корпусов. Лекция 11 Корпусная лингвистика 17
Словари и грамматики подъязыков Корпуса позволяют на основе статданных учесть различия в лексике и грамматике применительно к подъязыкам (жанры, стили, языки писателей, специальные языки). Так, например, корпусные исследования показали, что: в современном английском языке в разговорной речи чаще встречается время present, в то время в художественных текстах чаще встречается время past (Longman Grammar of Written and Spoken English. London, 1999). Ø в разговорной речи пассивный залог глагола TO BE встречается реже, чем в художественной прозе, в то время как для глагола TO GET наблюдается обратная картина в художественных текстах чаще встречается время past (Mindt D. An Empirical Grammar of the English Verb System. Berlin, 2000 ). Ø То же – см. сравнение употребления существительных галоша и калоша в русском языке (слайд 25 из лекции 10) Ø Лекция 11 Корпусная лингвистика 18
Социология, культура, литературоведение В настоящее время растет интерес к изучению идеологии и культуры через язык. Корпуса оказываются здесь назаменимым средством. То же самое относится к новому направлению в прикладной лингвистике, к юридической лингвистике. Корпусные данные широко используются при разработке систем контент-анализа, для определения авторства, в стилистических исследованиях. Лекция 11 Корпусная лингвистика 19
Использование корпусов для настройки и самообучения лингвистических автоматов В системах автоматической обработки текстов, как правило, используются два подхода к анализу текста: на основе лингвистических (контекстных и/или синтаксических) правил или на основе стохастических (статистических) алгоритмов. В обоих случаях создание качественного лингвистического и математического обеспечения для этих систем невозможно без использования корпусов, которые используются и как источник данных, и как настроечные тренировочные массивы. Лекция 11 Корпусная лингвистика 20


