машинная_обработка_языка_для лингвистов.ppt
- Количество слайдов: 26
ОБРАБОТКА ЕСТЕСТВЕННОГО ЯЗЫКА, ИЛИ ЧТО МОЖЕТ КОМПЬЮТЕРНЫЙ ЛИНГВИСТ ВЫБОРНОВА АННА
КУБИКУ ГОДИК, НО ОН УЖЕ ОЧЕНЬПОСМОТРЕТЬ РОЛИК, НУЖНО НАЖАТЬ НА ЧЕРНЫЙ ЧТОБЫ УМНЫЙ! КВАДРАТ! И ЕЩЕ РОЛИКИ ПРО КУБИК: HTTPS: //WWW. YOUTUBE. COM/CUBICROBOTICS
ЗНАТЬ: • A language of Russian Federation (Europe) Population 137, 000 in RF (2010 census). Language Status in RF: 1 (National), Expanded Graded Intergeneratonal Disruption Scale. Statutory national language. • Population total all countries: 161, 727, 650 (Armenia, Azerbaijan, Belarus, Bulgaria, Canada, China, Croatia, Czech Republic, Estonia, Finland, Georgia, Germany, Greece, Israel, Kazakhstan, Kyrgyzstan, Latvia, Lithuania, Moldova, Mongolia, Mozambique, Norway, Paraguay, Poland, Romania, Serbia, Slovakia, Sweden, Tajikistan, Turkmenistan, Ukraine, United States, Uruguay, Uzbekistan ). • Language use National language. 110, 000 L 2 speakers. • Dialects North Russian, South Russian. http: //www. ethnologue. com
ПОНИМАТЬ: • Classification Indo-European, Slavic, East • Language development Fully developed • Writing system Cyrillic script. • Comments Synthetic-inflectional structure; SVO; a highly fusional morphology; prepositions; genitives after noun heads; articles, adjectives, numerals before noun heads; question word initial; 1 prefix on a word; recursive addition of suffixes allowed; nontonal. http: //www. ethnologue. com
СЛЫШАТЬ СУМАСШЕДСШАЯ, ОНА РАЗГОВАРИВАЕТ СО СВОЕЙ СТИРАЛКОЙ Распознавание речи Nuance Vo. Con Hybrid C, Python (инструменты) Speereo русский ЦРТ русский Speech. Drive русский Media. Insight русский Сакрамент
РАСЧЛЕНЯТЬ MERCY ON US. WE SPLIT, WE SPLIT. (W. SHAKESPEARE) При ТОКЕНИЗАЦИИ (графематический анализ) нужно правильно разбить все знаки текста: • Точка – символ конца предложения? А заглавная буква – начала предложения? • Пробел – показатель конца одного слова и начала другого? • Тире или дефис? • &, смайлики, @, … • Цифры • Аббревиатуры • какжехочетсяспать • ( «’<» {/(…)/} «>’» ) • …
ИДЕНТИФИЦИРОВАТЬ СНИМУ ПОРЧУ И ОМОНИМИЮ СТЕММАТИЗАЦИЯ И ЛЕММАТИЗАЦИЯ Падеж Ед. ч. Мн. ч. Именительный левы Родительный лева левов Дательный леву левам Винительный левы Творительный левом левами Предложный леве левах Морфологическая омонимия: Чудеса лемматизации: И? Дел? Полезное? словарный русский, английский Lemmatizer словарный русский, английский АОТ MYSTEM (Yandex) нее - нея горах - гор герой - гера буду - буда нас - наса какая – гипотеза 1?
ВЫЯСНЯТЬ ПРИ ЛЕММАТИЗАЦИИ РУССКОЙ БЛОГОСФЕРЫ
РАЗБИРАТЬ НА ЗАПЧАСТИ СИНТАКСИЧЕСКИЙ АНАЛИЗ
ЗНАТЬ, ЧТОБЫ РАЗБИРАТЬ Свободный порядок слов создает сложности для синтаксического анализа предложения: • Сегодня на фестивале языков мы поговорим о некоторых чертах русского языка, приводящих в недоумение математиков и программистов. • Мы поговорим о некоторых чертах русского языка, приводящих в недоумение математиков и программистов, сегодня на фестивале языков. • О некоторых чертах русского языка, приводящих в недоумение математиков и программистов, мы поговорим сегодня на фестивале языков. • О некоторых приводящих в недоумение математиков и программистов чертах русского языка мы поговорим на фестивале языков сегодня. • О приводящих недоумение некоторых в и чертах русского мы русского поговорим языка сегодня математиков фестивале программистов языков на. • Сегодня на фестивале языков мы поговорим приводящих в недоумение математиков и программистов русского языка о некоторых чертах. ПОРЯДОК СЛОВ УСЛОВНО СВОБОДНЫЙ! -> ОЧЕНЬ СЛОЖНО СОЗДАТЬ АДЕКВАТНЫЕ СИНТАКСИЧЕСКИЕ ПАРСЕРЫ.
РАЗБИРАТЬ НА ЗАПЧАСТИ СИНТАКСИЧЕСКИЙ АНАЛИЗ
РАЗБИРАТЬ НА ЗАПЧАСТИ СИНТАКСИЧЕСКИЙ АНАЛИЗ http: //nlpub. ru
ПОЛЬЗОВАТЬ: СИНТАГРУС TOMITA parser Tree. Bank и др.
ПРОВЕРЯТЬ ЧЕМ ОН БОЛЕН? GNU Aspell ОРФОГРАФИЧЕСКИЙ АНАЛИЗ более 70 языков, в том числе LGPL русский и английский более 100 языков, в том числе GPL, LGPL, MPL русский и английский, испанский, немецкий, BSD французский, итальянский, нидерландский н/д Hunspell н/д Pattern правила, регулярные выражения GNU/Linux, Microsoft Windows, Mac OS X Python ГРАММАТИЧЕСКИЙ АНАЛИЗ Language. Tool правила английский, русский LGPL Java РАССТАНОВКА ПЕРЕНОСОВ Text: : Hyphen шаблоны переносов Te. X более 30 языков, в том числе MIT русский и английский ОРФО н/д русский Коммерческая Ruby Microsoft Windows
МЕНЯТЬ БАЗЫ ДАННЫХ НА БАЗЫ ЗНАНИЙ - ИЗВЛЕЧЕНИЕ КЛЮЧЕВЫХ СЛОВ - АВТОМАТИЧЕСКОЕ РЕФЕРИРОВАНИЕ - ТЕМАТИЧЕСКАЯ КЛАССИФИКАЦИЯ - ИЗВЛЕЧЕНИЕ ИМЕНОВАННЫХ СУЩНОСТЕЙ - ИЗВЛЕЧЕНИЕ ОТНОШЕНИЙ
ВИДЕТЬ: СОЦСЕТИ ПУШКИНА И ТОЛСТОГО Python вам в помощь!
НАБЛЮДАТЬ БИТВА ТИТАНОВ: GOOGLE VS YANDEX, СТЕММИНГ VS ЛЕММАТИЗАЦИИ ПОБЕДИТЕЛЯ ВЫБИРЕТ ПОЛЬЗОВАТЕЛЬ И ЯЗЫК MYSTEM PYMORPHY AOT И ДР.
Сила в объединении rule-basic, statistic и данных Золотого стандарта
ИСТОРИЯ БУХАНКИ ИЛИ ПОДРОБНЕЕ О ТОМ, КАК РЕШАТЬ ВОПРОСЫ ОМОНИМИИ В КНИГАХ DANIEL JURAFSKY AND JAMES H. MARTIN SPEECH AND LANGUAGE PROCESSING И КРИСТОФЕР Д. МАННИНГ, ПРАБХАКАР РАГХАВАН, ХАЙНРИХ ШЮТЦЕ ВВЕДЕНИЕ В ИНФОРМАЦИОННЫЙ ПОИСК − расширение запросов − http: //webmaster. ya. ru/replies. xml? item_no=1030 − http: //company. yandex. ru/technologies/query/index. xml − http: //company. yandex. ru/technologies/spectrum/index. xml ЧБСХ, КМР, ЧЯЗЕП, ВШЭ, ПФУ, ВСЕГЕИ, и такое родное русское YANde
СТРАДАНИЯ ЮНОГО ЯНДЕКСА: − Омонимия, или история с буханкой http: //images. yandex. ru/yandsearch? text=%D 0%B 1%D 1%83%D 1%85%D 0%B 0%D 0%BD%D 0%BA%D 0%B 0 − Опечатка или орфографический вариант? ! В т. Е|Эгах Е|Э(-)м. Э|Ейла В|Уильяма В|Уорфа прочла про фл. Е|Эшку, пу. С|ССе. Т|ТТ(У) и сну. Д|Т. Хотя, конечно, это не 9000 способов написать «Муаммар Каддафи» по-английски
БОРЬБА НЕ НА ЖИЗНЬ, А ЗА. . . И вот если всё это побороть, то получается сначала http: //opencorpora. org или даже сразу НКРЯ www. ruscorpora. ru, с помощью которых можно сделать много других словарей вроде http: //dict. ruslang. ru/freq. php или словаря неологизмов, который мог бы начинаться со слов абсурдизировать аниме апдейт аутентификация аватар антиспам асексуал аутсорсинг аккаунт апгрейд аудиокнига баг… *Здесь придется решить ещё несколько вопросов, например, что должно войти в словарь, а что нет… или мощный тезаурус, только русский http: //wordnetweb. princeton. edu/perl/webwn или анализатор тональности http: //twitrratr. com/ или анализатор связей в словосочетании http: //corpus. leeds. ac. uk/ruscorpora. html или… в общем, еще много чего!
ШАБЛОННЫЙ РАЗГОВОР
ЕВГЕНИЙ ГУСТМАН, ОДЕССИТ 13 -ТИ ЛЕТ, ПРОЖИВАЮЩИЙ В ПРИНСТОНЕ
NAO – AI? НАЖМИ НА ЧЕРНЫЙ КВАДРАТ, ЧТОБЫ ПОСМОТРЕТЬ ВИДЕО!
ВАВИЛОНСКАЯ РЫБКА СКОРО ПОЯВИТСЯ А это то самое «облако» , с которого начиналась презентация: <a href="http: //www. wordle. net/show/wrdl/6028770/Russian" title="Wordle: Russian"><img src="http: //www. wordle. net/thumb/wrdl/6028770/Russian" alt="Wordle: Russian" style="padding: 4 px; border: 1 px solid #ddd"></a> ПРОДОЛЖЕНИЕ СЛЕДУЕТ… МОЙ E-MAIL: ANNA@179. RU
машинная_обработка_языка_для лингвистов.ppt