ИТЛ2_обзор.ppt
- Количество слайдов: 89
Информационные технологии в лингвистике Обзор
Естественно-языковые системы В конце 60 -х годов в исследованиях по искусственному интеллекту сформировалось самостоятельное направление, получившее название «обработка естественного языка» (Natural Language Processing). Задача данного направления: исследование методов и разработка систем, обеспечивающих реализацию процесса общения с компьютерными системами на естественном языке (систем ЕЯ-общения или ЕЯсистем).
Обработка естественного языка 1. Автоматический перевод текстов (PROMT, Google Translate) 2. Создание вопросно-ответных систем (англ. question answering systems). 3. Построение систем управления знаниями (онтологии). 4. Автореферирование (automatic text summarization). 5. Автоматическое извлечение фактов из текста (англ. fact extraction, text mining) 6. Корпусная лингвистика, создание и использование электронных корпусов текстов. 7. Создание электронных словарей, тезаурусов, онтологий. (Lingvo).
Исходные понятия Общение - коммуникативное взаимодействие. Диалог - процесс достижения его участниками определенных согласованных целей путем обмена связанными высказываниями, выраженными в языке, о некотором реальном или гипотетическом мире (проблемной области). Применительно к диалогу между пользователем и компьютером: Общение - процесс обмена взаимосвязанными высказываниями, выраженными в языке, направленный на достижение целей пользователя, т. е. на удовлетворение информационных потребностей пользователя (ИПП).
Задача поддержки диалога предполагает: • Анализ и понимание реплик партнера; • Синтез правильного ответа. Высказывания участников общения образуют связный текст - дискурс. Связность дискурса обеспечивается: • лингвистическими средствами (родовидовыми, анафорическими, модальными, стилистическими согласованиями, согласованиями пресуппозиций и т. п. ), • экстралингвистическими средствами (ситуативными), т. е. с помощью временных, причинно-следственных и других связей, существующих в проблемной области.
Особенности процесса общения 1. Изменяемость информационной потребности пользователя. ИПП не может быть заранее четко определена в при разработке системы общения, она изменяется в ходе разработки и эксплуатации системы. 2. Несовпадение представлений, имеющихся у пользователя и системы о языке общения и проблемной области, относительно которой ведется общение. 3. Связность общения. В большинстве реальных случаев ИПП не может быть выражена в виде одного вопроса (предложения). Требуется определить контекст, в котором необходимо решать определенную задачу. Процесс общения должен иметь сложную, разветвленную структуру и состоять из обмена связанными высказываниями. 4. «Неправильность» высказываний пользователя. -пользователь обычно не в состоянии учесть все ограничения системы общения в части ее возможностей и знаний -использованием умолчаний, характерных для естественного общения и допускающих неоднозначное толкование высказываний,
Вопросы теста При моделировании процесса общения определение контекста, в котором необходимо решать определенную задачу, обеспечивает: а. Изменяемость информационной потребности пользователя б. Учет несовпадения представлений пользователя и системы в. Связность общения г. Учет «неправильности» высказываний пользователя
Вопросы теста При моделировании процесса общения определение контекста, в котором необходимо решать определенную задачу, обеспечивает: а. Изменяемость информационной потребности пользователя б. Учет несовпадения представлений пользователя и системы в. Связность общения г. Учет «неправильности» высказываний пользователя
Функции ЕЯ-системы 1. Ведение диалога - определение его структуры и роли, которую система и пользователь выполняют на каждом шаге диалога; 2. Понимание - преобразование поступающих от пользователя высказываний на естественном языке в высказывания на языке внутреннего представления (формализованном языке); 3. Обработка высказываний - формирование или определение заданий на решение задач или подзадач на данном шаге диалога; 4. Генерация - формирование выходных высказываний на ЕЯ.
Обобщенная схема ЕЯ-системы
Недостатки вопросно-ответных систем 1. Возможность получения ответов на ЕЯ-вопросы, относящиеся к ограниченным проблемным областям. Система ПОЭТ могла отвечать па вопросы о перевозках различных народнохозяйственных грузов. ДИСПУТ - об обслуживании контейнерных перевозок к морскому порту, LUNAR - о свойствах образцов лунных пород, LIFER - о дислокации и характеристиках судов военно-морских сил. 2. Жесткая структура диалога, при которой каждое высказывание пользователя воспринимается как очередной запрос, система играет пассивную роль. Следствие: задача – повышение гибкости общения.
Подходы к анализу ЕЯ-запросов 1. Использование синтаксических конструкций. Синтаксическое представление запроса строится на основе подлежащего, сказуемого, прямого дополнения и т. п. , которые определяются с помощью морфологических характеристик (часть речи, род, падеж, лицо и т. д. ). В результате анализа запроса дерево синтаксического разбора непосредственно отображается в выражение на формализованном языке или языке запросов к базе данных. Синтаксически-ориентированные системы используют грамматику, описывающую возможные синтаксические структуры пользовательских запросов. Типичная система, основанная на синтаксическом анализе LUNAR.
Подходы к анализу ЕЯ-запросов 2. Семантически-ориентированный метод - предложен А. С. Нариньяни. - используется синтаксическая информация из предыдущего подхода, а также информация из семантических словарей. Каждое слово в словаре имеет характеристики, позволяющие определять смысловые отношения между ним и другими словами, точнее, их значениями. Полное описание связей между смыслами слов образует тезаурус, представляющий собой большую сеть со словами и их смыслами в качестве узлов. ЕЯ-запрос сначала обрабатывается синтаксическим анализатором с использованием набора синтаксических правил для построения дерева синтаксического разбора. Семантический интерпретатор последовательно трансформирует дерево синтаксического разбора в язык промежуточного представления, используя семантические правила.
Подходы к анализу ЕЯ-запросов 3. Метод шаблонов Пример: система English Query от Microsoft основана на синтаксически-ориентированных шаблонах, связываемых с моделью предметной области, и через нее - со схемой базы данных. При настройке необходимо задать модель базы данных и предметной области, а затем для каждого отношения в базе данных (например, между товаром и его ценой) задать синтаксический шаблон английской грамматики, выбираемый из списка.
Пример преобразования запросов Какие студенты учатся в группе 630?
Машинный перевод (МП) - это автоматический перевод текстов с одного языка на другой (например, пословный перевод научно-технической информации, патентов, документов, инструкций, перевод программ ЭВМ с алгоритмического языка на машинный язык) - научное направление, охватывающее круг проблем, которые возникают при автоматизации перевода. Система МП - обычно содержит лингвистические описания входного и выходного языков, т. е. языков исходного текста и текста, полученного в результате перевода, и алгоритм, на основе которого выполняется данный перевод. - ориентированы преимущественно на работу с письменными текстами.
Проблемы машинного перевода: 1. Выбор структуры автоматического словаря 2. Формализация грамматик естественных языков 3. Решение задачи снятия омонимии слов и синтаксических конструкций 4. Обработка машинных оборотов
Структура автоматического словаря определяется: 1. типологическими характеристиками сопоставляемых языков; 2. выбором процедуры морфологического анализа; 3. подходом к хранению информации; 4. выбором структуры словарной статьи.
Формализация грамматик естественных языков определяется: 1. Типологическими характеристиками сопоставляемых языков 2. Общим подходом к организации синтаксического анализа (анализ с трансфером, анализ с языкомпосредником) 3. Выбором конкретного грамматического формализма (грамматики зависимостей, грамматики составляющих).
Снятие омонимии слов и синтаксических конструкций определяется 1. Типологическими характеристиками сопоставляемых языков 2. Способом описания морфологических, лексических, семантических характеристик слова 3. Способом согласования сем в высказывании 4. Процедурой контекстного анализа. Пример конверсионной омонимии: В управляющем операторе отсутствует слово, которое должно появиться… управляющем – существительное, ед. числа, предл. падеж, мужск. род, manager. управляющем – действительное причастие наст. времени, ед. числа, предл. падеж, мужск. /средн. род, managing, controlling, manipulated.
Вопросы теста При автоматическом переводе для словоформы «вести» система выдала две вероятных части речи: существительное (N) либо глагол (V). В результате контекстного анализа были получены следующие частоты биграмм (жирным шрифтом выделена разметка исследуемого слова): VP 0. 0007, VV 0. 0008, NV 0. 0008, AN 0. 0009 Какова наиболее вероятная часть речи для данного слова? а. Прилагательное б. Существительное в. Глагол г. Предлог
Вопросы теста При автоматическом переводе для словоформы «вести» система выдала две вероятных части речи: существительное (N) либо глагол (V). В результате контекстного анализа были получены следующие частоты биграмм (жирным шрифтом выделена разметка исследуемого слова): VP 0. 0007, VV 0. 0008, NV 0. 0008, AN 0. 0009 Какова наиболее вероятная часть речи для данного слова? а. Прилагательное б. Существительное в. Глагол г. Предлог
Обработка машинных оборотов определяется 1. Типологическими характеристиками сопоставляемых языков 2. Способом задания единиц словаря и указания на машинные обороты 3. Организацией автоматического словаря как комплекса 4. Процедурой лексико-морфологического анализа предложения.
Методы статистического анализа используются при решении следующих задач: 1. при определении структуры и состава АС и их словарных статей на основе анализа распределений слов в конкретной ПО; 2. при выборе основной терминологии, включаемой в АС, на основе изучения распределений в представительной совокупности текстов; 3. при исследовании синтаксических моделей предложений для ограничения применяемых процедур парсинга (автоматического синтаксического анализа); 4. при изучении структуры текстов для установления их особенностей.
При создании системы МП выделяются иерархически соподчиненные уровни реализации: 1. 2. 3. 4. 5. 6. 7. автоматического предредактирования текста; лексико-морфологического анализа; контекстного анализа и анализа групп; анализа функциональных сегментов; анализа предложений; синтеза выходного текста; автоматического постредактирования.
Вопросы теста При создании системы машинного перевода соблюдается следующий порядок уровней реализации: а. анализ предложений, лексико-морфологический анализ, автоматическое предредактирование текста. б. автоматическое предредактирование текста, анализ предложений, лексико-морфологический анализ. в. автоматическое предредактирование текста, лексикоморфологический анализ, анализ предложений. г. лексико-морфологический анализ, автоматическое предредактирование текста, анализ предложений, синтез выходного текста.
Вопросы теста При создании системы машинного перевода соблюдается следующий порядок уровней реализации: а. анализ предложений, лексико-морфологический анализ, автоматическое предредактирование текста. б. автоматическое предредактирование текста, анализ предложений, лексико-морфологический анализ. в. автоматическое предредактирование текста, лексикоморфологический анализ, анализ предложений. г. лексико-морфологический анализ, автоматическое предредактирование текста, анализ предложений, синтез выходного текста.
Уровень автоматического предредактирования текста Цель: предварительная разметка текста с целью определения границ его разделов. • Определение границ частей, глав, параграфов, абзацев, перечислений. • Приписывание особых помет заголовкам, элементам оглавления и перечислений. • Запоминание графической структуры текста для ее восстановления при синтезе перевода. • Выделение таблиц. • Разбивка текста на предложения.
Уровень лексико-морфологического анализа Цель: получение лексико-грамматической информации о лексических единицах текста. • Преобразование исходной цепочки символов в цепочку отдельных словоформ. • Сравнение каждой словоформы с единицей автоматического словаря и установление границ словоформы или оборота. • Установление лексико-грамматических характеристик лексической единицы. • Определение информации о переводе. • Модификация в соответствии с морфологией лексической единицы.
Уровень лексико-морфологического анализа Результат: формирование специальной структуры текста, в которой вместо каждой словоформы или сочетания словоформ (оборота) дается соответствующее ей (им) лексико-грамматическое описание с точностью до конверсионной омонимии и морфологических характеристик, а также соответствующее этим характеристикам описание перевода. Процедура лексико-морфологического анализа основана на структуре автоматического словаря. Методика сравнения текстовой словоформы со словарем определяется структурой словарной статьи.
Структура автоматического словаря (АС) Выбор заглавной единицы в словарной статье АС определяется типом языка. Каждая лексическая единица, входящая в автоматический словарь, получает описание на морфологическом, синтаксическом, семантическом и функциональном уровнях в виде соответствующего набора характеристик. При выборе структуры АС должны быть выполнены задачи: • Определение формы заглавной единицы в словарной статье; • Определение комплекса информации, составляющей описание ЛЕ; • Выбор оптимального способа организации словарной статьи в базе.
Структура автоматического словаря (АС) Заглавие словарной статьи определяется типом языка. Форма заглавного слова: • Словоформа • Основа Тип языка 1. Аналитические 2. Синтетические: • Агглютинативные языки • Флективные языки • Инкорпорирующие языки Для отождествления необходимо полное совпадение словоформы в тексте и словарной единицы => процедура морфологического анализа.
Структура автоматического словаря (АС) Для агглютинативных языков: - выделение словаря основ и словаря аффиксов; - выбор принципа организации словаря аффиксов; - установление связи между словарями. Сравнение текстовой словоформы с АС для агглютинативных языков требует: • Разработки алгоритма последовательного отождествления аффиксов и основы (от начала словоформы или от конца). • Определения структуры словаря аффиксов (алфавитная, по последовательности агглютинации, по частям речи).
Пример анализа словоформ для создания словаря для агглютинативных языков: Словоформы и их переводы sultan султан sultanlar султаны sultanlarimiz наши султаны sultanlarimizdan от наших султанов Основа и ее характеристики sultan сущ. , муж. род Аффиксы и их значения lar – множ. число imiz – принадлежность dan – родит. падеж
Словарь основ для флективного языка Для флективных языков характерны сложные чередования на стыках морф, беглая гласная, переразложение и опрощение традиционных основ. При создании словаря основ производится: • Определение принципов выделения основы и окончаний; • Выбор принципа организации словаря окончаний; • Установление связи между словарями.
Принципы выделения основы и окончаний Инженерно-лингвистический подход к определению основы предполагает использование агглютинативной машинной морфологии для описания флективного языка, формальное выделение в каждой словоформе двух частей: машинной основы и машинного окончания, т. е. машинной флексии. Машинная основа (МО) – последовательность букв от начала словоформы, общая для всех словоформ, входящих в формообразовательную парадигму данного слова.
Машинные окончания • Набор машинных окончаний, описывающих формоизменение конкретной лексемы, рассматривается как машинная (типовая) парадигм этой лексемы. • Все возможные в конкретном языке наборы машинных окончаний составляют систему типовых парадигм, в которой каждый набор зафиксирован один раз. • Одной и той же типовой парадигме могут соответствовать несколько разных машинных окончаний с одними и теми же лексико-грамматическими характеристиками, а каждой машинной основе может соответствовать столько типовых парадигм, скольким словам соответствует основа.
Машинные окончания Словам отвага, фонетика, лексика соответствует одна основа, в которой нет форм множественного числа; Основе лож соответствуют типовые парадигмы для описания слов ложь, ложиться.
Вопросы теста Машинной основой слова эталонный является: а. эталон б. эталонны в. эталонн г. эталонный
Вопросы теста Машинной основой слова эталонный является: а. эталон б. эталонны в. эталонн г. эталонный
Описание лексемы: • Нулевая парадигма – приписывается наречиям, несклоняемым существительным, союзам и частицам. Машинная основа равна самому слову. • Нулевая основа – используется для слов с супплетивным формообразованием (он, его, ему, им, …, идти, иду, шел, …), если выходным языком является русский. Если русский язык входной, такого рода слова вносятся в словарь как самостоятельные словоформы.
Парадигма в морфологии — 1)система словоформ, образующих одну лексему; 2)образец, схема словоизменения. Состав парадигмы конкретной лексемы определяется её принадлежностью к части речи и к определённому лексикограмматическому классу внутри неё (например, относительные прилагательные не имеют кратких форм и степени сравнения). Исходная форма представляет лексему в описаниях и словарях. В существительном и глаголе избирается форма, используемая в функции называния: им. п. ед. ч. для существительного и инфинитив для глагола, в прилагательном это форма муж. рода ед. ч. им. п.
Типовая парадигма В каждом поле типовой парадигмы может храниться информация трех видов: • буквенная последовательность, соответствующая конкретному окончанию; • пробел, соответствующий нулевому окончанию; • знак &, который ставится на месте первого символа поля в том случае, когда образование конкретной формы согласно норме литературного языка невозможно.
Типовая парадигма
Вопросы теста В системе машинного перевода имеется описание парадигмы словоизменения: Ед. число: И: я Р: ю Д: и В: ю Т: ей П: и Мн. число: И: & Р: & Д: & В: & Т: & П: & Данную парадигму имеет слово: а. Время б. Информация в. Плашмя г. Концепция
Вопросы теста В системе машинного перевода имеется описание парадигмы словоизменения: Ед. число: И: я Р: ю Д: и В: ю Т: ей П: и Мн. число: И: & Р: & Д: & В: & Т: & П: & Данную парадигму имеет слово: а. Время б. Информация в. Плашмя г. Концепция
Схема работы системы МП 1. Этапы анализа: - ввод фразы в ЭВМ; - лексический анализ (на уровне слов и частей речи); - поверхностный синтаксический анализ (на уровне членов предложения); - глубинный синтаксический анализ (учитывающий смысловые связи между словами). - внутреннее представление фразы, отражающее ее смысл.
Схема работы системы 2. Этапы синтеза: - оснащение внутреннего представления фразы словами выходного языка - расстановка слов в нужном порядке (с последующим извлечением из словаря их внешней лексической формы) -формирование окончательного вида переведенной фразы. Последовательность преобразований предложения: АНАЛИЗ – ТРАНСФЕР (межъязыковые операции)- СИНТЕЗ
Технология TM (translation memory) - работает по принципу накопления: 1. В процессе перевода сохраняется исходный сегмент (предложение) и его перевод, в результате чего образуется лингвистическая база данных. 2. Если идентичный или подобный исходному сегмент обнаруживается во вновь переводимом тексте, он отображается вместе с переводом и указанием совпадения в процентах. 3. Затем переводчик принимает решение (редактировать, отклонить или принять перевод), результат которого сохраняется системой. Пример - система TRADOS (основана в 1984 г. ).
Лингвистическое обеспечение систем МП 1. Словари 2. Грамматики 3. Формализованные промежуточные представления единиц анализа Математико-алгоритмическое обеспечение: - Механизмы (алгоритмы, процедуры) оперирования с имеющимися словарями, грамматиками и структурными представлениями.
Аннотирование (реферирование) – компрессия информации текста с сохранением основного содержания. Аннотация, резюме, реферат – семантический образ текста. Рефераты и аннотации представляют собой вторичные документы. Первичные, или исходные, документы — это книги, статьи, патенты и т. п.
Требования к системе аннотирования · формируемая аннотация должна содержать сигнальную информацию о тексте, необходимую для понимания текста в целом; · коэффициент компрессии (степень сжатия текста) должен быть параметром системы, т. е. задаваться пользователем; · система должна быть открытой и перенастраиваемой для обработки текстов различными алгоритмами аннотирования; · система должна быть универсальной и обеспечивать возможность перенастройки для обработки текстов на разных языках.
Вопросы теста Одним из требований к системе аннотирования является задание коэффициента компрессии, что обеспечивает возможность: а. Понимания текста в целом б. Задания пользователем меры подробности передачи смысла в. Применения разных алгоритмов аннотирования г. Обработки текста на разных языках
Вопросы теста Одним из требований к системе аннотирования является задание коэффициента компрессии, что обеспечивает возможность: а. Понимания текста в целом б. Задания пользователем меры подробности передачи смысла в. Применения разных алгоритмов аннотирования г. Обработки текста на разных языках
Аннотация - краткое изложение содержания документа, дающее общее представление о его теме. Аннотация выполняет сигнальную функцию, сообщая о том, что опубликована статья или книга на определенную тему.
Реферат - связный текст, который кратко выражает не только центральную тему или предмет какого-либо документа, но и цель, применяемые методы, основные результаты описанного исследования или разработки. - обычно составляется к научно-техническим документам: научным книгам, статьям, патентам на изобретение и т. п. - акцентирует внимание читателя на новых сведениях и определяет целесообразность его обращения к исходному документу. - помогает человеку ориентироваться в информационных потоках, оперативно отбирать для себя наиболее ценную и полезную информацию.
Подходы к реферированию 1. Создание реферата за счет формирования нового текста (как правило, текста жесткой структуры, создаваемого на языке объектнопризнакового типа). 2. Создание реферата на основе компрессии информации текста за счет выбора самых информативно нагруженных (важных) предложений текста.
Виды реферата Связный текст, порождаемый на основе логикосмыслового анализа. Реферат-клише, составляемый из заранее заданных фреймов с пустыми местами, заполняемыми в результате анализа текста. Квазиреферат, составляемый из наиболее информативных предложений текста.
Создание квазиреферата 1. Компрессия информации текста основана на выборе самых важных предложений из текста. 2. Степень компрессии задается пользователем. 3. Используются формальные и лексикостатистические методы.
Формальная компрессия текста 1. удаление из текста предложений, в которых есть формальные признаки «вторичности» : (а) предложения с прямой или косвенной речью; признаки: кавычки, he said, it said that…; (б) вопросительные или восклицательные предложения; признаки: вопросительный или восклицательный знаки; (в) несамостоятельные предложения с коннекторами или реляторами; признаки: соединительные конструкции типа в соответствии с этим, как указано выше … 2. Сохранение в тексте семантически нагруженных предложений, выбираемых по формальным признакам позиции в тексте (первый информационный фрагмент).
Формальная компрессия текста 3. Ранжирование предложений текста по информативной важности: • Получение частотного словаря по тексту. • Сравнение со словарем антипризнаков (включающего слова и словосочетания, не имеющие отношения к конкретной тематике; ) и формирование образа документа.
Индекс релевантности i-го предложения определяется по комбинации значений параметров: L – число слов из образа документа в i-м предложении. N – длина i-го предложения в словоформах. R – коэффициент релевантности i-го предложения R = L/N P – позиция предложения в структуре текста (близость к начальному или заключительному фрагменту).
Словарь опорных словоформ текста Основным критерием для создания словаря является коэффициент важности слова: K=F. m /(N. n) где F - частота употребления лексемы в тексте, m - число абзацев, где встретилась лексема, N – общее число словоупотреблений в тексте, n – общее число абзацев текста.
Главные опорные слова (ГОС) - являются особенно важными для текста. -встречаются с наибольшей частотой в большом числе абзацев. Критерий: 9/(N. n) ≤ Kгос <1
Второстепенные опорные слова (ВОС) Критерий: (1+n/4)2/(N. n) ≤ Kвос < 9/(N. n) N – общее число словоупотреблений в тексте, n – общее число абзацев текста. Пример: текст содержит 5 абзацев и 285 словоупотреблений, Kгос – в пределах от 0, 0063 до 1, Kвос – в пределах от 0, 0039 до 0, 0063.
Сказка как наиболее устойчивая форма культурной трансляции требует тщательного изучения еще и потому, что представляет собой пласт национальных символов, которые требуют несколько уровней прочтения и чье декодирование неоднозначно. Толкование сказки без учета этой ее особенности невозможно, а толкование в иносреде, причем даже тогда, когда речь идет о славянском окружении, создает значительные сложности в восприятии сказки. И в данном случае проблемой будут даже не лингвокультурологические лакуны, которые в настоящее время активно изучаются и для преодоления которых созданы методики и собраны рекомендации, а сама суть сказки, ее посыл, потому что сказки, как подлинные народные произведения, вобрали в себя представления, связанные с национальным мировоззрением. И сложности, когда идет речь о восприятии сказок, связаны именно с мировоззренческой составляющей сказки. С другой стороны, и об этом необходимо помнить, жанр сказки обладает собственной спецификой, которая делает упомянутую проблему менее острой. Дело в том, что сказка для интерактов коммуникации, с одной стороны, хороша тем, что ее структура проста. А если структура проста и универсальна, то и текст становится знакомым и, следовательно, узнаваемым. Символы, закодированные в структуре сказки, легко воспринимаются (и принимаются), так как они накладываются на готовые (общие, универсальные) структуры сформированные в детстве, и по своей сути являются общими для подавляющего количества людей различных наций.
сказка F= 10 m=3 N=176 слов n=3 абзаца K=Fm/Nn=3*10/(176*3)=0, 056818182 структура 4 толкование 2 универсальна 2 символ 2 проблема 2 национальный 2 восприятии 2
Вопросы теста Для текста объемом 500 слов, состоящего из 8 -ми абзацев были определены коэффициенты важности для каждого слова. Слово определяется встретилось в тексте 8 раз в 5 ти абзацах. Коэффициент важности слова равен: а. 39, 1 б. 0, 0324 в. 0, 01 г. 100
Вопросы теста Для текста объемом 500 слов, состоящего из 8 -ми абзацев были определены коэффициенты важности для каждого слова. Слово определяется встретилось в тексте 8 раз в 5 ти абзацах. Коэффициент важности слова равен: а. 39, 1 б. 0, 0324 в. 0, 01 г. 100
Статистика наука, изучающая массовые явления для выявления закономерностей и получения некоторых обобщенных показателей, кратко характеризующих полученные данные.
Статистика имеет дело с числовыми значениями, которые определяются влиянием множества различных причин, одни из которых — существенные, а другие — случайные. Основная задача статистики состоит в абстрагировании от случайного и выявлении типичного, характерного и закономерного. Для этого обычно необходимо обнаружить зависимость между статистическим законом и вероятностью.
Основные понятия Частота события – число его появлений в наблюдаемом отрезке действительности. Пример В тексте длиной 500 слов насчитали 100 глаголов. Частота глагола=100
Генеральная совокупность и выборка Генеральная совокупность – все возможные объекты, явления или события, рассматриваемые в исследовании. Выборка – некоторое количество объектов, над которыми проводится опыт. Пример: Изучаются тексты Л. Н. Толстого. Генеральная совокупность – ВСЕ тексты Толстого. (сложно либо невозможно изучить!) Выбираем несколько текстов (к примеру 500) – это выборка. Частота существительного 100 – это выборочная частота.
Средняя выборочная частота где xi – частота i-той выборки, N – число выборок. Пример: средняя частота существительных в текстах Толстого: Истинная средняя величина нам неизвестна!
Оценка отклонений от «истинного среднего» 1. Какова величина разброса значений частот выборки? а) отклонения выборочных частот от средней частоты б) среднее квадратичное отклонение Ϭ в) несмещенная оценка среднего.
Оценка отклонений от «истинного среднего» 2) Вероятная ошибка определения «истинного среднего» : где Ϭ – среднее квадратичное отклонение s – несмещенная оценка среднего k – число выборок. t – коэффициент Стьюдента, t-критерий определяется по специальной таблице в зависимости от числа выборок (опытов) k от заданной надежности (доверительной вероятности) p
Доверительная вероятность - задается заранее. Пример: текст А Пусть обработано 10 выборок, найдена средняя частота =120 величина ошибки=10 при доверительной вероятности 0, 95 (95%) Это означает, что при проведении 100 опытов над текстом А в 95 опытах средняя частота будет равна величине их интервала от 110 до 130; в 5 опытах средняя частота окажется либо меньше 110, либо больше 130.
Алгоритм оценки ошибки эксперимента 1. Из большого текста выбрали k фрагментов одинакового объема (по числу слов). 2. Провели опыты (подсчитали частоты интересующих объектов xi) 3. Нашли среднюю выборочную частоту xсред. 4. Подсчитали отклонения каждой частоты от средней (xi - xсред) 5. Возвели каждое отклонение в квадрат и просуммировали. 6. Рассчитали Ϭ или s. 7. Задали доверительный интервал p. 8. Нашли в таблице значение t-критерия Стьюдента. 9. Рассчитали величину ошибки L. 10. Рассчитали интервал частот.
Сопоставление результатов для двух групп выборок Пример задачи: Из текстов писателя А было взято 10 выборок по 500 слов. Из текстов писателя Б было взято 10 выборок по 500 слов. Выборки были оценены как однородные. Определялась частота употребления прилагательных и вычислена средняя частота для произведения каждого писателя. Вопрос: какой характер носит расхождение частот: случайный или закономерный?
Критерий «хи-квадрат» где x – средняя частота выборки. «хи-квадрат» часто называют «критерием согласия» опытной величины с теоретической, вычисленной для доверительной вероятности (надежности), равной 95% - берем из таблицы.
Коэффициент вариации где x – средняя частота выборки, - среднеквадратичное отклонение. Допустимый коэффициент вариации не превышает 40%. Пример: найдена средняя частота 100, среднеквадратичное отклонение 12, 7. Тогда коэффициент вариации v=12, 7*100/100=12, 7% - отклонение частот от среднего допустимо, результатам можно доверять.
Критерий Стьюдента где x. А , x. Б – средние частот выборок А и Б, k. А , k. Б – числа выборок А и Б. s. А, Б - несмещенная оценка ср. квадр. отклонения:
Применение критерия Стьюдента Решение: Сравним с табличным значением: Значение 2, 1 соответствует надежности 0, 95 для k=18. Характер расхождений – случайный.
Корреляция - это связь, функциональная зависимость, существующая между двумя рядами явлений, которая устанавливается при помощи определенной статистической процедуры. Пример: Гипотеза: частоты употребления местоимений и существительных связаны между собой. Чем больше частота местоимений, тем больше частота существительных. либо Чем больше частота местоимений, тем меньше частота существительных. Как проверить?
Корреляция - это связь, функциональная зависимость, существующая между двумя рядами явлений, которая устанавливается при помощи определенной статистической процедуры. Пример: Гипотеза: частоты употребления местоимений и существительных связаны между собой. Чем больше частота местоимений, тем больше частота существительных. либо Чем больше частота местоимений, тем меньше частота существительных. Как проверить?
Корреляция Эксперимент: 10 выборок по 100 слов научного текста Выборки x y 1 Коэффициент корреляции: 49 14 2 53 10 3 58 6 4 39 19 5 37 16 6 48 12 7 43 12 8 56 7 9 38 17 10 37 17
Вопросы теста По формуле вычисляется: а. коэффициент корреляции б. коэффициент вариации в. критерий «хи-квадрат» г. критерий Стьюдента
Вопросы теста По формуле вычисляется: а. коэффициент корреляции б. коэффициент вариации в. критерий «хи-квадрат» г. критерий Стьюдента
Результаты проверки контрольной работы № 2
ИТЛ2_обзор.ppt