Демченко Илья ПП-1401 (С подгруппа).pptx
- Количество слайдов: 15
Доброго времени суток. В данной презентации я попытаюсь рассказать и указать все аспекты корпусной лингвистики.
Ко рпусная лингви стика Раздел языкознания, занимающийся разработкой, созданием и использованием текстовых корпусов. Термин введён в употребление в 1960 -ые, в связи с развитием практики создания корпусов текстов.
История Корпусной Лингвистики Первым большим компьютерным корпусом считается Брауновский корпус (БК, англ. Brown Corpus, BC), который был создан в 1960 -е годы в Университете Брауна и содержал 500 фрагментов текстов по 2 тысячи слов в каждом, которые были опубликованы на английском языке в США в 1961 году. В результате он задал стандарт в 1 млн. словоупотреблений для создания представительных корпусов на других языках. По модели близкой к БК в 1970 -е годы был создан частотный словарь русского языка Засориной, построенный на основе корпуса текстов объёмом также в 1 миллион слов и включавший примерно в равной пропорции общественно-политические тексты, художественную литературу, научные и научно-популярные тексты из разных областей и драматургию. По аналогичной модели был построен и русский корпус, созданный в 1980 -е годы в Университете Упсалы, Швеция.
Корпуса Текстов Прежде чем говорить про корпус текстов нужно понять, что такое корпус данных. Корпус данных представляет собой сформированную по определенным правилам выборку данных из области реализации языковой системы, которая содержит феномены, подлежащие лингвистическому описанию. Корпус данных имеет только одно измерение – речевое, поскольку сам по себе он не обладает потенцией производства своих составляющих. Последнее, однако, не означает, что корпус данных не может использоваться для реконструкции языка как системы. Наоборот, это одна из главных задач лингвистического исследования корпуса. Корпус текстов – это вид корпуса данных, единицами которого являются тексты или их достаточно значительные фрагменты, включающие, например, какие-то отрывки текстов данной проблемной области.
КОРПУСНАЯ ЛИНГВИСТИКА И ГРАММАТИКА Грамматические (синтаксические) исследования наряду с лексическими, являются самыми частыми типами исследования, для которых используют корпусы. Корпусы являют собой полезный инструмент для синтаксического исследования, благодаря: – потенциалу представительного описания всего разнообразия языка – их роли в качестве эмпирических данных для проверки гипотез, заимствованных из грамматической теории.
Сравнение корпусной и традиционной лингвистик № Корпусная лингвистика Традиционная лингвистика 1 Основное внимание – изучение речи Основное внимание – изучение языка 2 Цель – описание языка в том виде, Цель – описание и объяснение языка как он проявил себя в речи, представленной в виде специально подобранного корпуса текстов 3 В своих исследованиях опирается на данные корпуса текста В своих исследованиях идёт от теории к её объяснению и подтверждению в фактах речи 4 Предпочитает квантитативные методы Предпочитает квалитативные методы 5 Видит себя частью традиций, базирующихся на эмпирических методах Видит себя частью традиций, базирующихся на рационалистических методах 6 Текст рассматривается как некоторая физическая сущность Текст рассматривается как некоторая абстракция 7 Составление грамматики конкретных языков Изучает языковые универсалии
Применение Корпусов Первоначальные лингвистические исследования, проводившиеся с помощью корпусов, сводились к подсчету частот встречаемости различных языковых элементов. Чаще всего этими элементами были слова, в других случаях – графемы, морфемы, словосочетания. На материале корпуса статистическими методами можно определить, какие слова встречаются вместе регулярно и, таким образом, могут быть отнесены к устойчивым словосочетаниям. Корпус – это не просто инструмент, это больше, чем инструмент, потому что использование этого инструмента очень сильно меняет наше представление о языке. Прежде всего, помимо традиционных задач науки о языке, корпус дает возможность ставить и решать совершенно новые задачи, которые в докорпусную эпоху если и приходили в голову лингвистам, то просто отбрасывались за неисполнимостью. Это, прежде всего, задачи, связанные с обследованием больших массивов текста – всё, что раньше было сверхтрудоемко или зависело от случая, сейчас может быть свободно исследовано.
Понятие лингвистического корпуса Прежде, чем говорить о корпусной лингвистике, необходимо определить само понятие лингвистического корпуса. По-английски это будет linguistic corpus или text corpus, множественное число linguistic corpora (corpuses употребляется реже). Существует довольно много определений, которые сходятся в одном: корпус есть «некоторый филологический объект» . Вот несколько дефиниций: 1)корпус — это организованное определённым образом словесное единство, элементами которого являются тексты или специальным образом отобранные отрывки из текстов; 2)корпус – это набор лингвистических данных из определённого языка в форме записанных высказываний или письменных текстов, доступный для анализа; 3)корпус — это набор естественных текстов на любом языке, устных или письменных, который хранится в электронном виде и позволяет организовать компьютеризированный поиск; 4)пожалуй, наиболее полное определение: корпус есть собрание отрывков текстов в электронной форме, отобранных в соответствии с внешними критериями, чтобы наиболее полно представлять язык или вариацию языка. Функционирует как источник данных для лингвистических исследований. (John Sinclair) Вот примеры корпусов: A)тексты конкретного писателя или писателей; B)тексты за конкретное десятилетие или столетие; C)современные тексты определённой тематики; D)современные тексты, адекватно представляющие язык или общество.
Корпусная разметка и её типы Для выполнения многих перечисленных выше задач мало лишь наличие корпуса как такового. Требуется также, чтобы текст содержал в себе явным образом разного рода лингвистическую информацию. Так в корпусной лингвистике возникла идея размеченного корпуса. Действительно, уже на уровне статистических подсчетов можно получить более интересные результаты, если вместе с каждым словом хранится информация о его частеречной принадлежности: появляется возможность подсчитывать не просто частотность слов, а частотность представителей тех или иных частей речи. Лингвистическая разметка подразумевает присвоение словам особых кодов. Каждому коду соответствует определенный набор грамматических признаков, характеризующих данное слово. Коды также известны как тэги (от англ. tag – ярлык, метка), а сам процесс приписывания словам тэгов соответственно имеет название тэггинг (от англ. Tagging).
Проблемы Корпусной Лингвистики I) Проблема представительности: Корпус состоит из конечного числа текстов, но он призван адекватно отражать лексикограмматические феномены, типичные для всего объёма текстов в соответствующем языке (или подъязыке). Для представительности важен как размер, так и структура корпуса. Представительный размер зависит от задачи, поскольку он определяется тем, как много примеров может быть найдено для исследуемых феноменов. В связи с тем, что со статистической точки зрения язык содержит большое число относительно редких слов (Закон Ципфа), для исследования первых пяти тысяч наиболее частотных слов(например, убыток, извиняться) требуется корпус размером около 10 -20 миллионов словоупотреблений, в то время как для описания первых двадцати тысяч слов (незатейливый, сердцебиение, роиться) уже требуется корпус свыше ста миллионов словоупотреблений.
Проблемы Корпусной Лингвистики II) Проблема разметки • К первичной разметке текстов относятся этапы, обязательные для каждого корпуса: • токенизация (разбиение на орфографические слова) • лемматизация (приведение словоформ к словарной форме) • морфологический анализ
Проблемы Корпусной Лингвистики • III) Проблема представления результатов • В больших корпусах возникает проблема, которая ранее была неактуальной: поиск по запросу может выдавать сотни и даже тысячи результатов (контекстов употребления), которые просто физически невозможно просмотреть в ограниченное время. Для решения этой проблемы разрабатываются системы, позволяющие группировать результаты поиска и автоматически разбивать их на подмножества (кластеризация результатов поиска), либо выдающие наиболее устойчивые словосочетания (коллокации) со статистической оценкой их значимости.
Открытый корпус русского языка Интерес представляет проект открытого корпуса русского языка, который не только использует опубликованные под свободными лицензиями тексты, но и позволяет любому желающему принять участие в лингвистической разметке корпуса. Такая форма краудсорсинга стала возможной благодаря разбиению задачи разметки на небольшие задания, с большинством из которых может справиться человек без специальной лингвистической подготовки. Корпус постоянно пополняется.
Список используемой литературы. • Гальперин И. Р. “Текст как объект лингвистического исследования. ” Рыков В. В. “Курс лекций по корпусной лингвистике. ” Также информация взята с сайтов: 1) https: //ru. wikipedia. org/wiki/Корпусная_лингвистика 2) http: //corpora. iling. spb. ru/theory. htm 3) http: //tc. utmn. ru/files/corpus_1. pdf
Спасибо за внимание!
Демченко Илья ПП-1401 (С подгруппа).pptx