Герасева_Квантитативная лингвистика.pptx
- Количество слайдов: 26
КВАНТИТАТИВНАЯ ЛИНГВИСТИКА
СВЯЗЬ ЯЗЫКОЗНАНИЯ С МАТЕМАТИКОЙ Языкознание стало первой из гуманитарных наук, которая от установки на полное и исчерпывающее описание отдельных фактов перешла к установке на обобщение, на поиски единого законаобъясняющего , необозримое множество отдельных фактов. Эта познавательная установка и определила интерес к математическим методам.
КВАНТИТАТИВНАЯ ЛИНГВИСТИКА (АНГЛ. QUANTITATIVE LINGUISTICS) Ø Это раздел общей лингвистики в частности, математической и, лингвистики. Ø Квантитативная лингвистика исследует язык при помощи статистических методов; её цель — сформулировать законы, по которым функционирует язык и, в конечном счете, построить общую теорию языка в виде совокупности взаимосвязанных законов функционирования языков.
КВАНТИТАТИВНАЯ ЛИНГВИСТИКА КОМБИНАТОРНАЯ ЛИНГВИСТИКА q Иногда квантитативная лингвистика противопоставляется комбинаторной лингвистике. q В последней доминирующую роль занимает «неколичественный» математический аппарат – теория множеств, математическая логика, теория алгоритмов и т. д. q С теоретической точки зрения, использование статистических методов в языкознании позволяет дополнить структурную модель языка вероятностным компонентом, т. е. создать структурно вероятностную модель, обладающую значительным объяснительным потенциалом.
КВАНТИТАТИВНАЯ ЛИНГВИСТИКА (АНГЛ. QUANTITATIVE LINGUISTICS) Иными словами, задача построения структурно вероятностной модели функционирования языка относится к теоретическим проблемам лингвистики и входит в компетенцию теории языка. В прикладной же области квантитативная лингвистика представлена прежде всего фрагментами этой модели, используемыми для лингвистического мониторинга функционирования языка, дешифровки кодированного текста, авторизации/атрибуции текста и т. п.
КОЛИЧЕСТВЕННЫЕ МЕТОДЫ Как и все математические методы, количественные методы могут применять ся к объектам самой разной природы, поэтому в языкознании они используются для анализа единиц любого уровня. Во многих сферах. языкознания применение количественных методов ничем не отличается от применения их в других науках.
КОЛИЧЕСТВЕННЫЕ МЕТОДЫ Например, экспериментальная (инстру мен таль ная) фонети ка использует тот же математический аппарат, что и физика. Применение выборочных методов статистики в языкознании аналогично их применению в других естественных и социальных науках. В психолингвистике и социолингвистике, где обраба ты ва ют ся мнения информантов, применяются те же методы конструирования шкал, что и в психологии и социологии.
КОЛИЧЕСТВЕННЫЕ МЕТОДЫ Основным объектом применения количественных методов обычно является речь, точнее, текст Количе ствен ные показатели дают. опреде лён ную информацию о самих текстах. На том факте, что различия между языковыми стилями и жанрами носят преиму ще ствен но статистический характер, основа на так называ е мая статистическая стилистика.
КОЛИЧЕСТВЕННЫЕ МЕТОДЫ Возможность через лексику количе ствен но отражать тематическую отнесённость текстов языка важна для некоторых приложений лингви сти ки (например, в информа ти ке). Широкое применение количественных методов для описания и класси фи ка ции текстов (например, при атрибуции текстов, в частно сти при установлении авторства анонимных или псевдонимных текстов) связано с тем, что большин ство двусторонних единиц и конструкций языка могут служить основой для различения текстов или для их квалификации.
КОЛИЧЕСТВЕННЫЕ МЕТОДЫ С другой стороны, количественные методы, примененные к текстам, открывают путь к изучению самого языка, поскольку сегменты текстов, являющиеся объектами подсчётов, соотнесены с единицами языка. Количественные методы позволяют количественно описывать поведение различных языковых единиц (фонем, букв, морфем, слов) в тексте: частоту употреб ле ния единиц, их распределение в текстах разного ж сочетаемость с другими единицами и т. п.
КОЛИЧЕСТВЕННЫЕ МЕТОДЫ Одновременно накап ли ва ет ся обобщённая информация о классах едини о языковых конструкциях (например, данные о средней длине слова или предложения, о частоте употребления каких либо грамматических форм в тех или иных синтаксических функциях и т. п. ). Такая информация углубляет описание единиц языка.
ЧАСТОТНЫЙ СЛОВАРЬ Практическим результатом статистического изучения лексики являются частотные словари , отличающиеся от обычных лингвистических (толковых, орфографических и других) тем, что словарные единицы располагаются не только в алфавитном порядке, но и в порядке убывающей частотности.
ЧАСТОТНЫЙ СЛОВАРЬ В первом случае это будет алфавитный частотный словарь, а во втором – ранговый частотный словарь. Частотные словари характеризуются следующими параметрами: объёмом текста (число словоупотреблений), объёмом словаря словоформ, объёмом словаря лексем.
ЧАСТОТНЫЙ СЛОВАРЬ Частотный словарь содержит сведения о наиболее употребительных словах современного русского языка. Он создан на основе Национального корпуса русского языка, авторитетного и представительного электронного ресурса. Подкорпус 1950 2007 гг. объемом 92 млн. словоупотреблений включает тексты художественной литературы, средств массовой информации, технические, деловые документы и т. д. , а также записи разговорной речи. Словарь представляет разнообразную статистическую информацию для 50 тыс. слов общей лексики и 3 тыс. имен собственных и аббревиатур. Приводятся частотные списки лексики, характерной для публицистики, устной речи и других функциональных жанров, а также списки наиболее употребительных существительных, прилагательных, глаголов и слов других частей речи.
КОЛИЧЕСТВЕННЫЕ МЕТОДЫ Количественная методика стала более эффективной с появлением вычислительной техники. С помощью формально количественных методов изучается авторский идиостиль , под которым В. П. Григорьев понимает взаимосвязь между языковыми средствами и особенностями творческой позиции писателя, его взгляда на мир, на окружающую действительность.
КОЛИЧЕСТВЕННЫЕ МЕТОДЫ Определение авторства с помощью формально количественных и статистических методов стимулировало поиск и выявление характерных структур авторского языка.
КОЛИЧЕСТВЕННЫЕ МЕТОДЫ На этом строятся многообразные методики, представленные в книге «От Нестора до Фонвизина. Новые методы определения авторства» . Специалисты исследовали несколько простых параметров авторского стиля и на базе большого количества произведений писателей XVIII–XX вв. статистически доказали, что доля всех служебных слов в данном прозаическом произведении является авторским инвариантом.
КОЛИЧЕСТВЕННЫЕ МЕТОДЫ Один из авторов, опираясь на модель цепей А. А. Маркова, предложил методику определения авторства, основанную на том, что по произведениям автора, которые достоверно им созданы, вычисляется матрица переходных частот употреблений пар букв. Затем такие матрицы строятся для каждого из авторов, «подозреваемых» в написании анонимного текста, и для каждого автора оценивается вероятность того, что именно он написал анонимный фрагмент текста. В результате автором анонимного текста полагается тот, у которого вычисленная оценка вероятности больше.
КОЛИЧЕСТВЕННЫЕ МЕТОДЫ Знаменитый шедевр древнерусской словесности XII в. «Слово о полку Игореве» , уникальность которого вот уже более столетия ставится скептиками под сомнение, был подвергнут жёсткой формально количественной ревизии. Применение анализа частот парной встречаемости грамматических классов слов позволило наглядно доказать, что глубинная структура «Слова» – это структура языка XI столетия. Этот формально количественный анализ не отвергает гипотезы историка Б. А. Рыбакова о боярине Петре Бориславиче как авторе «Слова о полку Игореве» . Возможно, отчасти она и подтверждена. Однако, полагают исследователи, необходимо ещё более детальное исследование текстов.
КОЛИЧЕСТВЕННЫЕ МЕТОДЫ В Эдинбурге (Англия) разработан аналитический метод, основанный на учёте зависимости частоты употребляемого слова и длины предложения, в котором оно появляется. Этот метод получил название «диаграммы накапливающихся сумм» его помощью установлено, что каждому. С человеку свойствен прочно укоренившийся, неизменный стиль, который не поддаётся имитации.
КОЛИЧЕСТВЕННЫЕ МЕТОДЫ Анализ показал, что авторы приобретают и сохраняют постоянный стиль, как бы ни сложилась их жизнь. Например, стиль В. Скотта в «Антикварии» (1816) полностью совпадает с его стилем в «Замке опасностей» , написанном после того, как знаменитый английский писатель перенёс три инсульта, один из которых лишил его дара речи и нарушил двигательные способности.
КОЛИЧЕСТВЕННЫЕ МЕТОДЫ Метод выявляет в тексте инородные вставки, обнаруживает попытки подделать авторский стиль. Английская писательница Джейн Остин не окончила повесть «Сандиция» , которая обрывается на семьдесят третьем предложении одиннадцатой главы. Повесть была дописана другой писательницей. При чтении невозможно определить, где заканчивается текст Д. Остин, а метод позволяет точно найти инородную часть повести.
КОЛИЧЕСТВЕННЫЕ МЕТОДЫ ü Петербургский поэт и переводчик «Слова о полку Игореве» Андрей Чернов нашёл, что построение стихов загадочного древнерусского памятника подчиняется определенным математическим закономерностям, а именно – формуле «серебряного сечения» . ü А. Чернов сделал заключение о том, что «Слово о полку Игореве» имеет девять песен и что в основу текста легла круговая композиция. Если в композиции «Слова» лежит круг, то у него должен быть «диаметр» и некая математическая закономерность.
КОЛИЧЕСТВЕННЫЕ МЕТОДЫ ü Число стихов во всех трёх частях «Слова» (их 804) А. Чернов разделил на число стихов в первой (или последней) части (256), в итоге получил 3, 14, т. е. число «пи» с точностью до третьего знака. ü А. Чернов сделал вывод: математический модуль автор «Слова» использовал интуитивно, неся внутри себя образ древнерусских архитектурных памятников. В те времена храм являл собой всеобъемлющий художественный идеал, оказывающий влияние на композицию и ритмику стихосложения. Исследователь назвал обнаруженную им закономерность в построении древнерусского литературного памятника и древнерусских храмов принципом «серебряного сечения»
КОЛИЧЕСТВЕННЫЕ МЕТОДЫ ü Отдавая должное квантитативным методикам получения информации, не следует забывать и об ограниченности их. Известны три типа получения знаний: интуитивный, научный и религиозный. Наука (по Хайдеггеру) есть знание, проверяющее себя, экспериментирующее со своим объектом и переделывающее его. Полагают, что наука в состоянии познать только те явления, свойства которых можно оценить числом. Например, работу гипнотизера нельзя описать математическими формулами, и тем не менее результаты её несомненны и воспроизводимы. Достижения индийских йогов – экспериментальный факт, многократно проверенный. Однако эти феномены не могут стать объектами точной науки, поскольку они не поддаются количественному описанию с помощью чисел и формул. Ограниченность науки также и в невозможности понять секрет искусства. И даже сам метод открытия глубоких научных истин лишь отчасти принадлежит науке и в значительной мере лежит в сфере искусства.
СПАСИБО ЗА ВНИМАНИЕ!