Лингвистические компьютерные программы.pptx
- Количество слайдов: 38
«Заблуждаются те, кто утверждают, что математика ничего не говорит о прекрасном или благом. На самом же деле она говорит прежде всего о нём и выявляет его. Ведь если она не называет его по имени, а выявляет его свойства и соотношения, то это не значит, что она не говорит о нём. А важнейшие виды прекрасного – это слаженность, соразмерность и определённость, математика больше всего и выявляет именно их. » Аристотель, Метафизика, кн. 13, гл. 3 Тимофеева М. К. СУНЦ НГУ Курсы повышения квалификации 2013 1
Лингвистические компьютерные программы: 1) компьютерные средства для лингвистических исследований; 2) компьютерные модели различных аспектов языка. Тимофеева М. К. СУНЦ НГУ Курсы повышения квалификации 2013 2
Компьютерные средства для лингвистических исследований • Компьютерная лексикография • Языковые корпусы, сравнение текстов • Автоматический анализ стиля • Визуализация текста Тимофеева М. К. СУНЦ НГУ Курсы повышения квалификации 2013 3
Компьютерная лексикография • Электронные версии словарей • Автоматизация процессов построения словарей • Исследование теоретических и прикладных аспектов построения словарей для систем автоматической обработки текстов • Электронные тезаурусы (Word. Net, Euro. Word. Net, Russian Word. Net и др. ) Тимофеева М. К. СУНЦ НГУ Курсы повышения квалификации 2013 4
Разработка Word. Net началась в 1984 г. , под руководством известного американского психолингвиста Джорджа Миллера. В Интернете Word. Net доступен с 1985 г. Первоначально создавался как модель человеческой памяти. Однако впоследствии проект вызвал значительно больший интерес у компьютерных лингвистов, чем у психолингвистов. Тимофеева М. К. СУНЦ НГУ Курсы повышения квалификации 2013 5
Word. Net – тезаурус для английского языка Word. Net (Принстонский университет) http: //wordnet. princeton. edu/ http: //www. wordnet-online. com/ Euro. Word. Net – многоязыковая Euro. Word. Net лексическая база http: //www. illc. uva. nl/Euro. Word. Net/ Тимофеева М. К. СУНЦ НГУ Курсы повышения квалификации 2013 6
Разрабатываются ворднеты для голландского, испанского, итальянского, французского, чешского, немецкого, русского, эстонского и др. языков. Все разработчики wordnet-словарей объединены в ассоциацию Global Word. Net Association (http: //www. globalwordnet. org/) Тимофеева М. К. СУНЦ НГУ Курсы повышения квалификации 2013 7
Организация данных в Euro. Word. Net Тимофеева М. К. СУНЦ НГУ Курсы повышения квалификации 2013 8
Синонимический ряд (синсет) – базовая единица электронных тезаурусов На множестве синсетов определены отношения: гипонимии / гиперонимии антонимии конверсии меронимии / холонимии следования и др. Тимофеева М. К. СУНЦ НГУ Курсы повышения квалификации 2013 9
Отношение гипонимии / гиперонимии (is. A-отношение, родовидовое отношение) Центральное отношение для существительных. Тимофеева М. К. СУНЦ НГУ Курсы повышения квалификации 2013 10
Entity ↓ Physical entity ↓ Object ↓ Whole ↓ Living thing ↓ Organism ↓ Person ↓ Communicator ↓ Writer Последовательность гиперонимов для лексемы writer Тимофеева М. К. СУНЦ НГУ Курсы повышения квалификации 2013 11
Отношение меронимии/ холонимии (часть - целое) Подвиды этого отношения: «быть элементом» «быть сделанным из» Тимофеева М. К. СУНЦ НГУ Курсы повышения квалификации 2013 12
Поиск лексемы writer в электронном тезаурусе Word. Net Тимофеева М. К. СУНЦ НГУ Курсы повышения квалификации 2013 13
Электронный тезаурус Russ. Net Разрабатывается с 1999 г. группой под руководством И. В. Азаровой (кафедра математической лингвистики филологического факультета СПб. ГУ). Сайт проекта: http: //project. phil. pu. ru/Russ. Net/index_ru. shtml ~15 тыс. лексико-семантических вариантов (ЛСВ), организованных в ~5500 синсетов, из них 1300 существительных, 1900 глаголов, 1100 прилагательных, 200 наречий. Тимофеева М. К. СУНЦ НГУ Курсы повышения квалификации 2013 14
Проект Russian Word. Net Петербургский университет путей сообщения http: //www. pgups. ru/abitur/inostrancam/inter/ruw ordnet/ (Сухоногов А. М. , Яблонский С. А. ) 55397 существительных, образующих 71729 синсетов; 34400 глаголов, образующих 44998 синсетов; 25315 прилагательных, образующих 33571 синсет; 10071 наречие, образующее 9716 синсетов. Тимофеева М. К. СУНЦ НГУ Курсы повышения квалификации 2013 15
Тезаурус Ру. Тез § 53 тыс. понятий, 156 тыс. текстовых выражений, 210 тыс. отношений (более 2 млн. с иерархией) § Переведен на английский язык: 130 тысяч слов и выражений Тимофеева М. К. СУНЦ НГУ Курсы повышения квалификации 2013 16
В настоящее время тезаурус Russ. Net включает ~15 тыс. лексико-семантических вариантов (ЛСВ), организованных в ~5500 синсетов, из них 1300 существительных, 1900 глаголов, 1100 прилагательных, 200 наречий. Кроме того, для окончательного редактирования подготовлено еще 10 -12 тыс. синсетов. Тимофеева М. К. СУНЦ НГУ Курсы повышения квалификации 2013 17
Языковые корпусы Брауновский корпус (1963 г. , США, Университет Брауна, 1 миллион словоупотреблений) – первый корпус Национальный корпус русского языка (НКРЯ), сайт: http: //ruscorpora. ru/ Тексты от начала XVIII в. до наших дней. Более 350 миллионов словоупотреблений Тимофеева М. К. СУНЦ НГУ Курсы повышения квалификации 2013 18
Национальный корпус русского языка http: //ruscorpora. ru/ Основные возможности: § проверка лингвистических гипотез, § поиск точных форм, лексем, конструкций, § поиск по грамматическим и семантическим параметрам, § подбор контекстов встречаемости, § создание подкорпусов, § получение статистических данных Тимофеева М. К. СУНЦ НГУ Курсы повышения квалификации 2013 19
Тимофеева М. К. СУНЦ НГУ Курсы повышения квалификации 2013 20
Подкорпусы Тимофеева М. К. СУНЦ НГУ Курсы повышения квалификации 2013 21
Результат поиска Расширение контекста Тимофеева М. К. СУНЦ НГУ Курсы повышения квалификации 2013 22
Представление результата поиска в формате KWIC (Key Word In Context) , длину контекста можно регулировать Результат поиска в формате KWIC Тимофеева М. К. СУНЦ НГУ Курсы повышения квалификации 2013 23
Наречие, обозначающее качество человека (ADV, dera@ dthume), глагол ментальной сферы (V, tment). Тимофеева М. К. СУНЦ НГУ Курсы повышения квалификации 2013 24
В ответ на приведённый выше запрос будут найдены, в частности словосочетания: • серьёзно намеревался • разумно рассчитывала • злобно подумали • строго напомнил • мудро рассуждающих • наивно полагаете • жадно познавал • наивно верили Тимофеева М. К. СУНЦ НГУ Курсы повышения квалификации 2013 25
№ Искомая конструкция 1. лексема власть + лексема субъект в род. падеже лексема власть + фамилия в род. падеже лексема власть + сущ. в р. п. с сем. признаком «восприятие» , «ментальная сфера» , «психическая сфера» лексема власть + лексема государство или закон в р. п. лексема власть + одна из лексем большевик, левый, социалист, лейборист в род. падеже лексема власть + лексема доллар, деньги, золото в р. п. (конструкция власть рубля в Корпусе не встретилась) лексема власть + лексема с семантическим признаком «сверхъестественное существо» в род. падеже лексема власть + одна из лексем год, время, век в р. п. лексема власть + лексема слово в род. падеже лексема власть + лексема чиновник или бюрократ в р. п. лексема власть + лексема музыка, поэзия, литература в р. п. лексема власть + лексема вор, разбойник, криминал, улица в р. п. лексема власть + лексема мечта в род. падеже лексема власть + лексема совесть в род. падеже 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. 14. Тимофеева М. К. СУНЦ НГУ Курсы повышения квалификации 2013 Кол-во вхождений 639 547 342 105 86 80 42 20 17 12 11 9 3 2 26
Word. Tabulator для Windows 95/98/NT Русская виртуальная библиотека, раздел «Программное обеспечение» : http: //www. rvb. ru/soft/index. html Тимофеева М. К. СУНЦ НГУ Курсы повышения квалификации 2013 27
По умолчанию элементы множества исключений "вычитаются" из множества обрабатываемых элементов В режиме "пересечение" учитываются только элементы, встречающиеся в обеих совокупностях В режиме "объединение" исключения добавляются к множеству входных текстов Тимофеева М. К. СУНЦ НГУ Курсы повышения квалификации 2013 28
Автоматический анализ авторства Август де Морган, 1851: впервые предложил использовать математику для проверки авторства Н. А. Морозов, 1915: первое отечественное исследование, использовавшее статистические методы для анализа авторского стиля Тимофеева М. К. СУНЦ НГУ Курсы повышения квалификации 2013 29
Области применения количественных методов для атрибуции текстов • • литературоведение, искусствоведение, история, криминалистика, юриспруденция психология, психопаталогия и т. п. Тимофеева М. К. СУНЦ НГУ Курсы повышения квалификации 2013 30
Основные методы • Индексы для оценки лексической структуры текста: оригинальность, насыщенность и т. д. • Синтаксические меры сложности • Методы распознавания образов ( «межтекстовое расстояние» ) Тимофеева М. К. СУНЦ НГУ Курсы повышения квалификации 2013 31
Ширина дерева равна 7 В (1) этом (2) случае (3) они (4) после (5) продажи (6) партии (7) товара (8), полученного (9) по (10) данной (11) накладной (12), полностью (13) сдают (14) выручку (15) по (16) приходящему (17) ордеру (18) в (19) кассу (20) предприятия (21) Тимофеева М. К. СУНЦ НГУ Курсы повышения квалификации 2013 32
Информационная система «Статистические методы анализа литературного текста» (ИС "СМАЛТ"): http: //smalt. karelia. ru/ (имеется корпус, поиск по морфологическим и синтаксическим признакам) Тимофеева М. К. СУНЦ НГУ Курсы повышения квалификации 2013 33
Визуализация текста Цели: представление лингвистической информации «Семантическое картирование» Анализ содержания Анализ частотных характеристик слов Анализ контекстной сочетаемости Представление конкордансов • программа Text. Arc (http: //www. textarc. org/) • Визуальная аналитика текстовой информации (Visual Text Analytics) Тимофеева М. К. СУНЦ НГУ Курсы повышения квалификации 2013 34
Text. Arc: альтернативный способ видения текста Тимофеева М. К. СУНЦ НГУ Курсы повышения квалификации 2013 35
Тимофеева М. К. СУНЦ НГУ Курсы повышения квалификации 2013 36
Word Spectrum: визуализация по данным биграмм на основе Google Тимофеева М. К. СУНЦ НГУ Курсы повышения квалификации 2013 37
Тимофеева М. К. СУНЦ НГУ Курсы повышения квалификации 2013 38
Лингвистические компьютерные программы.pptx