Скачать презентацию РЕФЕРЕНЦИАЛЬНЫЙ ВЫБОР ЛИНГВИСТИЧЕСКИЕ ПСИХОЛОГИЧЕСКИЕ И ВЫЧИСЛИТЕЛЬНЫЕ АСПЕКТЫ А Скачать презентацию РЕФЕРЕНЦИАЛЬНЫЙ ВЫБОР ЛИНГВИСТИЧЕСКИЕ ПСИХОЛОГИЧЕСКИЕ И ВЫЧИСЛИТЕЛЬНЫЕ АСПЕКТЫ А

95c5a951615552b7ab21bd0839531603.ppt

  • Количество слайдов: 36

РЕФЕРЕНЦИАЛЬНЫЙ ВЫБОР: ЛИНГВИСТИЧЕСКИЕ, ПСИХОЛОГИЧЕСКИЕ И ВЫЧИСЛИТЕЛЬНЫЕ АСПЕКТЫ А. А. Кибрик (Институт языкознания РАН и РЕФЕРЕНЦИАЛЬНЫЙ ВЫБОР: ЛИНГВИСТИЧЕСКИЕ, ПСИХОЛОГИЧЕСКИЕ И ВЫЧИСЛИТЕЛЬНЫЕ АСПЕКТЫ А. А. Кибрик (Институт языкознания РАН и МГУ) [email protected] ru

Референциальный выбор в дискурсе (тексте) § Когда говорящему нужно упомянуть некоторый референт, он делает Референциальный выбор в дискурсе (тексте) § Когда говорящему нужно упомянуть некоторый референт, он делает выбор из нескольких возможностей, в том числе: § полной именной группы (ИГ) § редуцированной ИГ, напр. местоимения 3 лица или нулевого выражения § Как осуществляется этот выбор? 2

Пример (фрагмент из рассказа Ф. Искандера “Сталин и Вучетич”) Полная ИГ антецедент кореферентность Сталин Пример (фрагмент из рассказа Ф. Искандера “Сталин и Вучетич”) Полная ИГ антецедент кореферентность Сталин мирно беседовал с Вучетичем. "Товарищ Сталин, что такое старость? " спросил Вучетич, разумеется, имея в виду Местофилософский смысл проблемы. имение И вдруг лицо Сталина мгновенно исказилось гневом и ненавистью. Он стал страшен. Вучетич помертвел, не в силах осознать, чем разгневал Сталина. нуль 3

План доклада § I. Референциальный выбор как многофакторный процесс § II. Количественная и нейросетевая План доклада § I. Референциальный выбор как многофакторный процесс § II. Количественная и нейросетевая модели референциального выбора § III. Корпусное исследование: состояние и перспективы 4

I. Референциальный выбор как многофакторный процесс В различных исследованиях на первый план выдвигаются разные I. Референциальный выбор как многофакторный процесс В различных исследованиях на первый план выдвигаются разные характеристики контекста в качестве основных факторов 5

Пример (Ф. Искандер) В то раннее утро дядя Сандро ехал верхом из Гудаут в Пример (Ф. Искандер) В то раннее утро дядя Сандро ехал верхом из Гудаут в он село Ачандары, где ______ собирался погостить несколько дней у своего родственника в ожидании поминального пиршества, которое должно было состояться в соседнем доме. В наших краях сорокадневье устраивается не очень точно – то к погоде прилаживаются, то еще какиедядя Сандро нибудь хозяйственные расчеты, - так что ______ решил, что лучше не рисковать и подождать на месте, чем пропустить хорошие поминки. он И вот едет ______ по приморской дороге и вдруг видит, что недалеко от берега на воде сидит невиданная в наших краях черная птица с длинной шеей. (Ф. Искандер, «Сандро из Чегема» ) 6

Существительное при близком расстоянии Почувствовав под ногами дно, конь припустил, а птица, говаривал дядя Существительное при близком расстоянии Почувствовав под ногами дно, конь припустил, а птица, говаривал дядя Сандро, припустить не могла, потому что хоть шея у нее была длинной, с его руку, ноги все же у нее были короткие, особенно против лошадиных. В последнее мгновенье она попыталась нырнуть, но дядя Сандро успел ухватить ее <. . . > и приподнять над водой. Дядя Сандро страшно замерз и разозлился на эту странную птицу <. . . > Хотел он ей тут же размозжить голову, но вспомнил. . . 7

Местоимение при далеком расстоянии After juice-and-cookie time, she gave James his countin lesson, and Местоимение при далеком расстоянии After juice-and-cookie time, she gave James his countin lesson, and this is how she did it. One, two, three, four, five, once I caught a fish alive, six, seven, eight, nine, ten, but I let him go again. Why did you let him go? Because he bit my finger so. Which finger did he bite? This little one upon the right. And she gave James' little finger a nibble, 8

Разный РВ при близком расстоянии (В. Шукшин) § 4. 4. . Степан раскачнулся § Разный РВ при близком расстоянии (В. Шукшин) § 4. 4. . Степан раскачнулся § 4. 5. и ø боднул Ивана головой. § 4. 6. Иван отпустил его § 4. 7. и ø ударил ø. § 4. 8. Степан отлетел к двери, § 4. 9. ø открыл ее затылком, § 4. 10. ø упал в сенцы. § 4. 11. Ø Вскочил, § 4. 12. ø схватил что попалось под руку 9

В разных исследованиях – разные факторы РВ § Расстояние до антецедента § Линейное vs. В разных исследованиях – разные факторы РВ § Расстояние до антецедента § Линейное vs. иерархическое расстояние § Граница фрагментов дискурса – абзацев и т. п. § § частей Роль антецедента Одушевленность Значимость референта в дискурсе. . . 10

Проблема § Многие из этих факторов очень важны; например, фактор А централен в случае Проблема § Многие из этих факторов очень важны; например, фактор А централен в случае Х, фактор Б централен в случае Y § Обычно остается неясным, как эти факторы взаимодействуют, например, какова роль фактора А в случае Y § Решение: необходима модель, описывающая совместную работу и взаимодействие факторов 11

Когнитивные предпосылки § Когнитивный компонент, отвечающий за § § референциальный выбор, - это то, Когнитивные предпосылки § Когнитивный компонент, отвечающий за § § референциальный выбор, - это то, что известно как «кратковременная память» или «рабочая память» (РП) Степень активации (коэффициент активации) референта в РП непосредственно предсказывать реф. выбор Коэффициент активации в свою очередь зависит от множества факторов – факторов активации 12

Когнитивная многофакторная модель референциального выбора Дискурсивный контекст Свойства референта Коэфф. активации референта (КА) Фильтры Когнитивная многофакторная модель референциального выбора Дискурсивный контекст Свойства референта Коэфф. активации референта (КА) Фильтры Реф. выбор Факторы активации 13

II. Количественная модель § Степень активации референта может быть количественно оценена § Эту величину II. Количественная модель § Степень активации референта может быть количественно оценена § Эту величину будем называть коэффициентом активации (КА) § КА образуется как сумма количественных вкладов каждого из факторов активации 14

Подробнее Каждый фактор – это переменная, имеющая набор возможных значений § Например, расстояние до Подробнее Каждый фактор – это переменная, имеющая набор возможных значений § Например, расстояние до антецедента: 1, 2, 3+ § Каждому из значений переменной соответствует числовой вес § Например: 1 – 0. 7 2 – 0. 4 3 – 0 § В каждой точке дискурса для каждого референта могут быть идентифицированы значения всех факторов и, соответственно, все их количественные вклады 15

Продолжение § Таким образом, в каждой точке дискурса для § § § каждого референта Продолжение § Таким образом, в каждой точке дискурса для § § § каждого референта может быть высчитан КА КА выше порогового уровня редуцированное средство КА ниже порогового уровня полная ИГ Реализации количественной модели § Для русского языка – Kibrik 1996 § Для английского языка – Kibrik 1999 16

Пример работы количественной модели Референциальная стратегия 17 Пример работы количественной модели Референциальная стратегия 17

Общекогнитивные следствия количественной модели § Некоторые центральные проблемы в исследованиях рабочей памяти (РП) § Общекогнитивные следствия количественной модели § Некоторые центральные проблемы в исследованиях рабочей памяти (РП) § (1) Объем РП: Сколько единиц информации РП может вмещать одновременно? § (2) Контроль над РП: в силу чего информация попадает в РП? § (3) Забывание: в силу чего информация уходит из РП? 18

Проблемные точки количественной модели § Значимость факторов определяется на индивидуальной основе § Числовые веса Проблемные точки количественной модели § Значимость факторов определяется на индивидуальной основе § Числовые веса подбираются вручную § Взаимодействие между факторами моделируется как простое сложение, игнорируются возможные нелинейные эффекты § Нежелательные числовые эффекты: КА меньше 0, больше 1 19

Решение: более адекватная математическая модель § Значимость факторов определяется в их совокупности § Числовые Решение: более адекватная математическая модель § Значимость факторов определяется в их совокупности § Числовые веса подбираются автоматически § Взаимодействие между факторами может быть математически сложным § Значения выходной переменной может быть закреплено в интервале от 0 до некоторого верхнего предела 20

Модель нейронных сетей (Gruening and Kibrik 2005) § Основана на нейробиологической аналогии § Не Модель нейронных сетей (Gruening and Kibrik 2005) § Основана на нейробиологической аналогии § Не требует предварительных гипотез о структуре данных § Самообучается на основе имеющихся данных § Автоматически приписывает веса входным факторам § Может редуцировать число факторов 21

Структура модели НС § Состоит из узлов (нейронов) § Узлы связаны весами (синапсами) § Структура модели НС § Состоит из узлов (нейронов) § Узлы связаны весами (синапсами) § уровни: § входной § выходной § скрытый § нелинейное взаимодействие между входными узлами на скрытом уровне 22

Характеристики НС с прямой связью § Данные поступают во входной уровень § Далее активация Характеристики НС с прямой связью § Данные поступают во входной уровень § Далее активация распространяется в скрытый § § уровень И затем в выходной уровень Где и считываются результаты вычислений Могут быть непосредственные связи между входным и выходным уровнями – элементы линейности Алгоритм обучения НС – обратное распространение (back propagation) 23

Структура модели НС с прямой связью (feed-forward) 24 Структура модели НС с прямой связью (feed-forward) 24

Задача модели НС § Взять исходные факторы, выявленные в количественной модели § Попробовать предсказать Задача модели НС § Взять исходные факторы, выявленные в количественной модели § Попробовать предсказать фактический референциальный выбор § Сравнить результат с количественным подходом § 11 факторов дали 24 входных узла нейронной сети 25

Симуляция 1: полный набор данных § Несколько повторных проб § В каждом случае тренировка Симуляция 1: полный набор данных § Несколько повторных проб § В каждом случае тренировка сети в течение 1000 “эпох” § НС научилась предсказывать референциальный выбор с довольно высокой точностью (не более 6% исключений) 26

Симуляция 2: “обрезка” § Полная сеть - 649 весов § Какие входные узлы можно Симуляция 2: “обрезка” § Полная сеть - 649 весов § Какие входные узлы можно сократить без существенного ухудшения результатов? § После “обрезки” остается около 30 узлов § Многие входные узлы оказываются избыточными (не имеют никаких связей), то есть или не оказывают влияния, или учитываются посредством других параметров 27

Факторы, не подверженные “обрезке” § Иерархическое расстояние § Значимость в дискурсе § Синт. роль Факторы, не подверженные “обрезке” § Иерархическое расстояние § Значимость в дискурсе § Синт. роль антецедента è Некоторые факторы, которые были неважны в количественной модели, оказались существенными 28

Выводы § Нейросети эффективны в моделировании § § § референциального выбора Набор входных факторов Выводы § Нейросети эффективны в моделировании § § § референциального выбора Набор входных факторов может быть урезан Веса факторов приписываются автоматически Данный опыт применения НС является тестовым, т. к. объем данных слишком мал для статистического моделирования 29

III. Дальнейшее развитие исследований § Большой корпус § Нейросетевое моделирование § Построение статистической модели III. Дальнейшее развитие исследований § Большой корпус § Нейросетевое моделирование § Построение статистической модели реф. § § выбора Ввести вероятностную шкалу: выход НС - вероятность появления местоимения Определение оптимального набора факторов, объясняющего референциальный выбор для данного корпуса 30

Характеристики корпуса § Английский язык § Корпус, размеченный по иерархической структуре дискурса § RST-WSJ Характеристики корпуса § Английский язык § Корпус, размеченный по иерархической структуре дискурса § RST-WSJ corpus § Аннотирован по иер. структуре § 385 газетных статей § Около 30 000 референциальных выражений 31

Пример иерархического графа 32 Пример иерархического графа 32

Схема разметки референциальных явлений § Программа ММАХ 2 § Размечены все референциальные выражения § Схема разметки референциальных явлений § Программа ММАХ 2 § Размечены все референциальные выражения § Размечены их антецеденты § Размечены важнейшие характеристики § § референтов, реф. выражений, антецедентов и контекста, которые могут быть факторами активации Пример – окно программы ММАХ 2 Схема ММАХ 2 была написана немецким компьютерным лингвистом Кристианом Чиаркосом 33

34 34

Текущие задачи 1. Проверка уже сделанной аннотации 2. Расширение аннотационной схемы 3. Извлечение данных Текущие задачи 1. Проверка уже сделанной аннотации 2. Расширение аннотационной схемы 3. Извлечение данных из корпуса в базу данных 4. Построение статистической модели § Для пунктов (1), (2) и (3) необходима программистская поддержка 35

Пожелания к программисту § § § Script maintenance good knowledge of UNIX, Linux, or Пожелания к программисту § § § Script maintenance good knowledge of UNIX, Linux, or Cygwin (shell programming [bash], knowledge of most elementary command line tools, and make) good knowledge and practical experience with JAVA and XSL/T [saxon/xerces] and how to call them from the command line (no Eclipse, no XMLSpy) fair knowledge of English § Maintenance of an online file exchange utility § 36