Скачать презентацию Национальный корпус русского языка http www ruscorpora ru Скачать презентацию Национальный корпус русского языка http www ruscorpora ru

Национальный корпус.pptx

  • Количество слайдов: 14

Национальный корпус русского языка http: //www. ruscorpora. ru/ Национальный корпус русского языка http: //www. ruscorpora. ru/

Что такое Корпус? • • Корпус — это информационно-справочная система, основанная на собрании текстов Что такое Корпус? • • Корпус — это информационно-справочная система, основанная на собрании текстов на некотором языке в электронной форме. Национальный корпус представляет данный язык на определенном этапе (этапах) его существования и во всём многообразии жанров, стилей, территориальных и социальных вариантов. Создается специалистами по корпусной лингвистике для научных исследований и обучения языку (Британский национальный корпус (BNC) – с 1980 -х гг. , 100 млн слов; Русский национальный корпус – с 2003 г. , более 500 млн слов). 2 особенности НК: • представительный состав текстов: по возможности все типы письменных и устных текстов данного языка, имеющие культурную значимость (пропорционально их доле в языке соответствующего периода); • дополнительная информация о свойствах входящих в него текстов (разметка/аннотация). В НК РЯ используется 5 типов разметки: • метатекстовая, • морфологическая (словоизменительная), • синтаксическая, • акцентная, • семантическая, • + скоро: внедрение словообразовательной разметки, упрощённой синтаксической разметки

Зачем нужен Национальный корпус? • • для обеспечения научных исследований лексики и грамматики языка, Зачем нужен Национальный корпус? • • для обеспечения научных исследований лексики и грамматики языка, непрерывных процессов языковых изменений последних одного-двух столетий; предоставление всевозможных справок, относящихся к указанным областям; компьютерные технологии упрощают и ускоряют лингвистическую обработку больших массивов текстов; возможность обнаружить в структуре и развитии языка неизвестные ранее закономерности; научные описания грамматического строя языков, авторитетные академические словари должны составляться на основе корпусов; надежные статистические данные о языке определенной эпохи/автора могут интересовать литературоведов, историков и представителей других областей гуманитарного знания; обращен ко всем, кто ищет ответ на вопросы об устройстве и функционировании языка (к носителям языка и иностранцам, изучающим язык)

10 подкорпусов Национального корпуса русского языка: • основной корпус: прозаические письменные тексты XVIII — 10 подкорпусов Национального корпуса русского языка: • основной корпус: прозаические письменные тексты XVIII — начала XXI века, представляющие СРЛЯ; • синтаксический корпус: полная морфологическая и синтаксическая структура предложения; • газетный корпус: статьи из СМИ 1990 -2000 -х годов; • параллельные корпуса: все переводы для определенного слова или словосочетания на/с русского языка (более 16 словарей); • корпус диалектных текстов: запись диалектной речи регионов РФ с сохранением их грамматической специфики; • корпус поэтических текстов: поиск по лексическим, грамматическим, специфическим для стиха признакам (стихотворения с определённым типом рифмовки); • обучающий корпус русского языка: ориентирован на школьную программу русского языка; • корпус устной речи: расшифровки магнитофонных записей публичной и частной устной речи, транскрипты кинофильмов; • акцентологический корпус: тексты, несущие информацию об истории русского ударения (поиск по просодической структуре слова); • мультимедийный корпус: видео- и аудиоряды фрагментов кинофильмов 1930— 2000 -х гг. (поиск по произносимому тексту, жестам, типу речевого действия)

Распределение текста по подкорпусам ! ! Распределение текста по подкорпусам ! !

Распределение текста по жанрам ! ! Распределение текста по жанрам ! !

Метаразметка Национального корпуса Метаразметка - приписывание тексту атрибутов, характеризующих обстоятельства его создания, автора, тематику, Метаразметка Национального корпуса Метаразметка - приписывание тексту атрибутов, характеризующих обстоятельства его создания, автора, тематику, жанровые особенности и др. Необходима для выборки текста. «Паспорт текста» : • Автор текста (имя, пол, дата рождения/примерный возраст) • Название текста • Время создания текста (точно/приблизительно) • Объем текста (количество слов/формат «<не> более такого-то объема» или «<не> менее» ). II. 1. Художественные тексты • Жанр текста (историко-приключенческая, криминальная, любовная литература) • Тип текста (анекдот, боевик, детектив, повесть, притча, рассказ) • Хронотоп текста (приблизительное указание на место и время событий). II. 2. Нехудожественные тексты • Сфера функционирования текста (бытовая, официально-деловая) • Тип текста (автобиография, акт, дневник, договор, документ, закон, заметка) • Тематика (бизнес, коммерция, экономика, финансы; война; дом)

График распределения по годам слова «лексикология» График распределения по годам слова «лексикология»