Скачать презентацию Современная корпусная лингвистика Тупицына Екатерина План лекции Скачать презентацию Современная корпусная лингвистика Тупицына Екатерина План лекции

ИТОГ_СОВРЕМЕННАЯ КОРПУСНАЯ ЛИНГВИСТИКА.pptx

  • Количество слайдов: 23

Современная корпусная лингвистика Тупицына Екатерина Современная корпусная лингвистика Тупицына Екатерина

План лекции 1. Что такое корпус? Для чего он нужен и как он помогает План лекции 1. Что такое корпус? Для чего он нужен и как он помогает лингвистам в их исследованиях? Корпус vs. электронная библиотека. 2. Из истории развития корпусной лингвистики: традиционная лингвистика vs. корпусная лингвистика. Корпусная лингвистика как раздел компьютерной лингвистики. 3. Корпусы национальных языков мира vs. специализированные корпусы. 4. Национальный корпус русского языка. 5. Владимир Плунгян, «О корпусной лингвистике» .

http: //www. gramota. ru – справочно-информационный портал «Русский язык» http: //www. ruscorpora. ru – http: //www. gramota. ru – справочно-информационный портал «Русский язык» http: //www. ruscorpora. ru – Национальный корпус русского языка

Что такое корпус? ▪ Corpus (на латинском ‘тело’) в широком смысле: в узком смысле: Что такое корпус? ▪ Corpus (на латинском ‘тело’) в широком смысле: в узком смысле: совокупность текстов, объединенных каким-либо общим признаком (автор, время издания, жанр: корпус текстов Льва Николаевича Толстого, корпус русской лирики ХХ века). совокупность текстов, собранных в соответствии с определёнными принципами, размеченных по определённому стандарту и обеспеченных специализированной поисковой системой. ▪ В. П. Захаров, к. ф. н. , доцент кафедры математической лингвистики филологического факультета СПб. ГУ: лингвистический корпус – «большой, представленный в электронном виде, унифицированный, структурированный, размеченный, филологически компетентный массив языковых данных, предназначенный для решения конкретных лингвистических задач» .

Корпусы могут быть: 1) по языку представления текстов: одноязычные, многоязычные; 2) по жанровой принадлежности: Корпусы могут быть: 1) по языку представления текстов: одноязычные, многоязычные; 2) по жанровой принадлежности: литературные, разговорные, диалектные, публицистические, смешанные; 3) по свободе доступа: открытые, коммерческие, закрытые; 4) по динамичности: динамические (мониторные), статические и проч. ; 5) по форме хранения: в звуковой форме, письменные, смешанные; 6) по назначению: исследовательские, иллюстративные; 7) по наличию дополнительной информации: аннотированные (размеченные), неразмеченные.

Корпус vs. электронная библиотека ЛИНГВИСТИЧЕСКИЙ КОРПУС ТЕКСТОВ ЭЛЕКТРОННАЯ БИБЛИОТЕКА • образцы текстов; • полные Корпус vs. электронная библиотека ЛИНГВИСТИЧЕСКИЙ КОРПУС ТЕКСТОВ ЭЛЕКТРОННАЯ БИБЛИОТЕКА • образцы текстов; • полные тексты; • лингвистическая разметка; • библиографические и историкокультурные элементы данных; • лингвостатистика; • отсутствие статистики; • репрезентативность языкового материала «условная» ; • полнота текстов электронной библиотеки; • отбор языкового материала на основе критериев репрезентативности, лингвистической и историкокультурной значимости. • отбор текстов, определяемый выбором составителей библиотеки.

▪ Библиотека Максима Мошкова (http: //www. lib. ru/); ▪ Фундаментальная электронная библиотека (http: //febweb. ▪ Библиотека Максима Мошкова (http: //www. lib. ru/); ▪ Фундаментальная электронная библиотека (http: //febweb. ru/); ▪ Русская виртуальная библиотека (http: //www. rvb. ru/); ▪ Библиотека Алексея Комарова (http: //ilibrary. ru/).

Для чего нужен корпус и как он помогает лингвистам в исследованиях? ▪ машинный перевод Для чего нужен корпус и как он помогает лингвистам в исследованиях? ▪ машинный перевод (http: //translate. google. ru); ▪ сбор лингвистической информации по заданным параметрам – лексическим и грамматическим; ▪ лексикография (частотные словари, семантическая деривация, неологизмы); ▪ семантика (семантические категории слов); ▪ диахронная лингвистика (исторические исследования); ▪ лингвистическая обработка больших массивов текстов; ▪ системы автоматической обработки текста.

▪ Объем выборки – 504 лексемы. ▪ В среднем у каждого глагола обнаруживаются 2 ▪ Объем выборки – 504 лексемы. ▪ В среднем у каждого глагола обнаруживаются 2 -3 значения, в которых реализована сема ‘говорение’: 504 х 2 = 1008 ЛСВ со значением речи. ВОРЧАТЬ, -чу, -чишь; нсв. 1. (на кого-что). Сердито бормотать, выражая неудовольствие, раздражение (обычно в адрес кого-, чего-л. ); брюзжать. И Василиса, второй раз согревавшая девочкам обед, переставала ворчать. (Людмила Улицкая. Казус Кукоцкого (Путешествие в седьмую сторону света) // «Новый Мир» , 2000); Он позвонил ещё раз и начал ворчать и тихонько ругаться. (М. А. Булгаков. Мастер и Маргарита, часть 1 (1929 -1940)) 2. Издавать негромкие урчащие звуки, выражая недовольство, угрозу, злобу и т. п. (о животных) (БТС) ГОРЛАНИТЬ, -ню, -нишь; нсв. что и без дополн. Разг. -сниж. Говорить, кричать или петь слишком громко, во всё горло (БТС). Россия, конечно же, великая страна, но надо все-таки совесть иметь и не горланить согласно грубой пословице: «Нажрался, как дурак на поминках» . (Евгений Попов. Подлинная история «Зеленых музыкантов» (1997)); И пешеходы выпрыгивали из-под нашей машины, как куры, и мы мчались с неслыханной быстротой, и мне было очень весело, и на душе было свободно, и очень хотелось горланить что-нибудь отчаянное. (Виктор Драгунский. Денискины рассказы/ На Садовой большое движение (1963))

Корпусная лингвистика как раздел компьютерной лингвистики КОМПЬЮТЕРНАЯ ЛИНГВИСТИКА, направление в прикладной лингвистике, ориентированное на Корпусная лингвистика как раздел компьютерной лингвистики КОМПЬЮТЕРНАЯ ЛИНГВИСТИКА, направление в прикладной лингвистике, ориентированное на использование компьютерных инструментов – программ, компьютерных технологий организации и обработки данных – для моделирования функционирования языка в тех или иных условиях, ситуациях, проблемных сферах и т. д. , а также вся сфера применения компьютерных моделей языка в лингвистике и смежных дисциплинах (Энциклопедия «Кругосвет» ). Круг проблем К. Л. : ▪ машинный перевод; ▪ компьютерные интерфейсы, управляемые при помощи естественного языка; ▪ автоматическая проверка правописания и стиля; ▪ обработка документов и извлечение информации; ▪ создание словарей, поисковых программ и проч.

Из истории развития корпусной лингвистики: традиционная лингвистика vs. корпусная лингвистика Корпусная лингвистика – раздел Из истории развития корпусной лингвистики: традиционная лингвистика vs. корпусная лингвистика Корпусная лингвистика – раздел компьютерной лингвистики, занимающийся разработкой общих принципов построения и использования лингвистических корпусов с использованием компьютерных технологий. Два аспекта: ▪ создание и разметка (аннотирование) корпусов текстов, разработка средств поиска по ним; ▪ собственно лингвистический – экспериментальные исследования на базе корпусов.

История и современность ▪ конец XIX – начало XX в. – создание частотных словарей История и современность ▪ конец XIX – начало XX в. – создание частотных словарей ▪ 60 -х гг. ХХ в. – первые корпусы текстов (прообразом служат словарные картотеки) ▪ 1963 г. – Брауновский корпус (Brown Corpus) ▪ появление периодических изданий, посвященных проблемам корпусной лингвистики: International Journal of Corpus Linguistics, Corpora, Corpus Linguistics and Linguistic Theory, ICAME Journal ▪ 2001 г. – начало работ по созданию Национального корпуса русского языка

Традиционная лингвистика vs. корпусная лингвистика Традиционная лингвистика Корпусная лингвистика • изучение языка; • описание Традиционная лингвистика vs. корпусная лингвистика Традиционная лингвистика Корпусная лингвистика • изучение языка; • описание и объяснение языка; • изучение речи; • описание языка, как он проявил себя в речи; • опирается на данные корпуса текста; • идёт от теории к её объяснению и подтверждению в фактах речи; • квалитативные методы; • часть традиций, базирующихся на рационалистических методах; • текст рассматривается как некоторая абстракция; • внимание не только к форме, но и к содержанию; • рассматривает тексты в локальной перспективе; • анализирует некоторую конкретную, искусственно ограниченную, проблемную область; • квантитативные методы; • часть традиций, базирующихся на эмпирических методах; • текст рассматривается как физическая сущность; • основное внимание уделяется форме; • рассматривает тексты в глобальной перспективе; • фокусирует своё внимание на как можно более широком взгляде на текст, неограниченном никакими догмами;

Традиционная лингвистика Корпусная лингвистика • опирается на интуицию в отборе речевого материала, в отборе Традиционная лингвистика Корпусная лингвистика • опирается на интуицию в отборе речевого материала, в отборе эмпирических материалов своих исследований; • предпочитает логические рассуждения; • опирается на наблюдение речевой деятельности, проявленной в виде текстов; • пользуется вероятностными методами и статистикой для первичной обработки речевого материала; • искусственные примеры из изолированных • проводится работа с лингвистическими от текста словоупотреблений; данными (словоупотреблениями) в том виде, в каком они встречались в контексте; • дедуктивные методы обработки • индуктивные методы обработки эмпирического словесного материала; эмпирического словесного материала (суть научного метода); • верит в открытия, основанные на • верит в научные открытия, основанные на процедурах, оценках, сравнениях и т. д. обработке эмпирических данных. Но что же именно изучает лингвистика – язык или речь?

 «Corpus linguistics doesn’t mean anything. It’s like saying <…> suppose physics and chemistry «Corpus linguistics doesn’t mean anything. It’s like saying <…> suppose physics and chemistry decide that instead of relying on experiments, what they’re going to do is [to] take videotapes of things happening in the world and they’ll collect huge videotapes of everything that’s happening and from that maybe they’ll come up with some generalizations or insights. Well, you know, sciences don’t do this» . N. Chomsky [Andor, J. : 2004, ‘The master and his performance: An interview with Noam Chomsky’, Intercultural Pragmatics, 1: 1, 93 -111]

 «Корпусная лингвистика ничего не значит. Это все равно, что сказать <…> допустим, что «Корпусная лингвистика ничего не значит. Это все равно, что сказать <…> допустим, что физики и химики, вместо того, чтобы полагаться на эксперименты, начнут записывать на видео все, что происходит в мире, соберут большую коллекцию того, что происходит, и на основе этого может быть придут к каким-то обобщениям или озарениям. Вы же знаете, что в науке так не принято» N. Chomsky [Andor, J. : 2004, ‘The master and his performance: An interview with Noam Chomsky’, Intercultural Pragmatics, 1: 1, 93 -111]

Корпусы национальных языков мира vs. специализированные корпусы ▪ http: //www. ruscorpora. ru – Национальный Корпусы национальных языков мира vs. специализированные корпусы ▪ http: //www. ruscorpora. ru – Национальный корпус русского языка; ▪ http: //opencorpora. org/ – Открытый корпус русского языка; ▪ http: //www. narusco. ru/ – Корпус русского литературного языка; ▪ http: //nkjp. pl/ – Национальный корпус польского языка; ▪ http: //korpus. cz/ – Национальный корпус чешского языка; ▪ http: //www. natcorp. ox. ac. uk/ – Британский национальный корпус; ▪ http: //www. ge. ilc. cnr. it/strumenti. php – Национальный корпус итальянского языка; ▪ http: //cblle. tufs. ac. jp/llc/ja/search. php? menulang=en – Обучающий корпус японского языка ▪ и др.

▪ http: //foni. uio. no: 3000/users/sign_in – корпус древних переводов Нового завета университета Осло; ▪ http: //foni. uio. no: 3000/users/sign_in – корпус древних переводов Нового завета университета Осло; ▪ http: //www. childes. psy. cmu. edu – корпус детской речи; ▪ http: //www. statmt. org/europarl/ – корпус слушаний Европарламента; ▪ https: //ec. europa. eu/jrc/en/institutes/ipsc/? id=198 – корпус документов Евросоюза (более 20 языков); ▪ и др.

Национальный корпус русского языка ▪ объем – более 500 млн. слов; ▪ метаразметка и Национальный корпус русского языка ▪ объем – более 500 млн. слов; ▪ метаразметка и морфологическая разметка; ▪ 13 корпусов текстов; ▪ возможность задать подкорпус; ▪ графики частотности словоформ; ▪ тексты XVIII – XIX веков + исторический корпус.

Национальный корпус русского языка 1. Поиск по корпусу (основной, газетный, синтаксический…). 2. Выбор подкорпуса Национальный корпус русского языка 1. Поиск по корпусу (основной, газетный, синтаксический…). 2. Выбор подкорпуса (автор, дата создания текста, жанр…). 3. Графики частотности.

График частотности График частотности

Владимир Плунгян, «О корпусной лингвистике» Владимир Плунгян, «О корпусной лингвистике»

10. 11): 1. Выберите два любых полисеманта, у которых не менее 3 значений. Найдите 10. 11): 1. Выберите два любых полисеманта, у которых не менее 3 значений. Найдите примеры употребления каждого ЛСВ слова. ▪ Матлингвисты – художественные тексты второй половины XX века, ▪ востоковеды – публицистические тексты XXI века, ▪ филологи – художественные тексты XIX века. 2. Выберите два любых слова и проследите частотность их употребления в текстах с 1800 по 2010 год. С чем может быть связано такое строение графика частотности? Какие экстралингвистические факторы, по вашему мнению, повлияли на такое словоупотребление? ! Задание оформить на двух страницах А 4 следующим образом (подписать ФИО и группу!): шрифт – Times New Roman, размер шрифта – 12, выравнивание по ширине, отступ слева и справа – 0 см, интервал перед и после – 0 пт, первая строка – отступ 1, 27 см, междустрочный интервал – точно 18 пт. 3. Сдать Т. И. во вторник (10. 11) и прислать на [email protected] ru