cac1baf318514873f6b1936cece9d92b.ppt
- Количество слайдов: 23
Некоторые особенности формирования электронного корпуса текстов с синтаксической разметкой Рогов А. А. , Гурин Г. Б. , Котов А. А. , Сидоров Ю. В. , Седов А. В. , Некрасов М. Ю. Презентация
Упрощенная структура словаря Система грамматической атрибуции Часть речи Глагол Время Существительное Форма Падеж Настоящее Прошедшее Род Мужской Прилагательное Именительный Женский Число
Сложности, возникающие при создании грамматического словаря XIX века Написание XIX-го века Современное написание Мужчина Мужщина Музжчина Мужчина
Сложности, возникающие при создании грамматического словаря Кофе Печь ? Мужской род ? Средний род Существительное Глагол
БД морфологии Система грамматической атрибуции ENTRIES WORD TEXT ID: integer Word: Varchar(200); Initial. Form: Varchar(200); Word: Varchar(200); Text. Id: integer; Chapter. Index: integer; Title: Varchar(200) Author_ID: integer Magazine_ID: integer Modern: Varchar(200); Paragraph. Index: integer; Param_i: integer; Sentence. Index: integer; Magazine_No: integer Word. Index: integer; Publication_date: timestamp Dictword_id: integer; Comment: Blob Url: Varchar(255) MENU_ITEMS MENU_PARAMS ID: integer Item. Caption: Varchar(200); Params. Count: integer; Items. Count: integer; Param 01: integer; Item 01: integer; … … Param 30: integer; Item 30: integer;
Программа для морфологии Система грамматической атрибуции
Выбор синтаксического аннотирования Существующие корпусы со встроенной синтаксической разметкой опираются либо на общепринятые классификации традиционной ( «школьной» ) грамматики (Хельсинкский аннотированный корпус русских текстов ХАНКО; http: //www. slav. helsinki. fi/hanco/index. html), либо на доступные узкому кругу специалистов и требующие детального предварительного знакомства классификации, например разметка в терминах деревьев зависимостей и синтаксических отношений, принятых в теории «Смысл-Текст» , как в Национальном корпусе русского языка (http: //www. ruscorpora. ru). В создаваемом корпусе в основу синтаксической разметки положена идея структурной схемы в понимании Н. Ю. Шведовой и ее последователей, наиболее полно отраженная и развитая в «Русской грамматике» . Создание полного списка структурных схем простого предложения (в корпусе размечаются предикативные клаузы) – отдельная научная проблема, не имеющая пока своего окончательного решения. На данный момент в научном обороте существуют как минимум три списка структурных схем – различные как количественно, так и качественно: 1) список схем «Русской грамматики» (1980); 2) список «минимальных схем» В. А. Белошапковой; 3) список схем О. А. Крыловой и Е. Н. Ширяева.
Последняя классификация с небольшими изменениями и дополнениями была взята за основу разметки настоящего корпуса. Этот выбор объясняется двумя причинами: во-первых, использование структурных схем для синтаксической разметки в корпусе имеет свою специфику, во-вторых, ситуация изучения вопроса такова, что ни один из существующих списков структурных схем нельзя признать окончательно полным. На выходе мы получили наиболее полный и сбалансированный список структурных схем простого предложения, который был использован для синтаксической разметки текстов.
СВОБОДНЫЕ СТРУКТУРНЫЕ ДВУХКОМПОНЕНТНЫЕ СХЕМЫ А. Раздельнопредикативные схемы: 1. Подлежащно-сказуемостные схемы 1 а. С координируемыми главными членами N 1+Vf: Иван читает газету; Пиши письмо; Ты бы подумал. N 1+(сор)+N 1: Бог есть любовь. N 1+Adj: День сегодня холодный; Старики ворчливы. N 1+Part: Брак расторгнут. 1 б. С некоординируемыми главными членами. N 1+ N 2…(Adv): Отец в саду; Сад недалеко. N 1+Inf: Мой долг – воспрепятствовать вам; Какая мука — воспитывать! N 1+(сор)+Praed: Шахматы — это здорово. Inf+Praed(part): Читать неохота, Курить вредно. Inf+(сор)+N 1: Помогать ему – моя обязанность. Inf+Vf 3 s: Рассчитывать на большее не приходится. Inf+Pronneg: Спорить тут не о чем. Inf+Inf: Курить — здоровью вредить.
2. Неподлежащно-сказуемостные схемы. N 2+(не) Vf 3 s: Беды не случится. N 2/N 4+(не) Praed(part): Следов не видно, Нарушений не обнаружено, Людей жаль. N 4+Vf 3 s: Ивана укачивает. N 2+N 1 quant (Adv quant): Народу толпа, Ягод полно. N 2+нет: Замечаний нет. N 3+ Vf 3 s: Ей не спится. N 3+Praed: Мне лень. N 2+никого/ничего: Народу никого.
Синтаксическая атрибуция Система синтаксической атрибуции 4 клаузы: • Вася пошел в бассейн • Вася плавал там до вечера • Тот самый отличник и староста • Который открылся на днях
Программа синтаксиса Система синтаксической атрибуции
БД синтаксической атрибуции Система синтаксической атрибуции PARTS CLOUSES ID: integer Clouse. Index: integer; Part. ID: integer; Scheme: integer; Clouse. ID: integer; TEXTS ID: integer Text. Id: integer; Title: Varchar; Chapter. Index: integer; Author: Varchar; PARTCLOUSES Start. Part: integer; Paragraph. Index: integer; Sentence. Index: integer; Part: Varchar(1000);
Система синтаксической атрибуции Анализ использования структурных схем Схема Количество Частота N 1 + V f 21195 58, 5 % N 1 + Adj 3021 8, 3 % N 1 + (cop) + N 1 2344 6, 5 % N 1 + Part 1474 4% Praed(part) Inf 1160 3, 2 % N 1 1087 3% N 1 + N 2 …(Adv) 1038 2, 9 %
Смешанная БД грамматической и синтаксической атрибуции PARTS CLOUSES ID: integer Clouse. Index: integer; Part. ID: integer; Scheme: integer; Clouse. ID: integer; TEXTS ID: integer Text. Id: integer; Title: Varchar; Chapter. Index: integer; Author: Varchar; PARTCLOUSES Start. Part: integer; Paragraph. Index: integer; Sentence. Index: integer; Part. Index: integer; ENTRIES WORD ID: integer Word: Varchar(200); Initial. Form: Varchar(200); Modern: Varchar(200); Param_i: integer; Word: Varchar(200); Part. Id: integer; Word. Index: integer; Dictword_id: integer; Part: Varchar(1000);
Оптимизация данных под поиск • Оптимизация по скорости получения информации • Оптимизация по объёму хранимой информации • Оптимизация количества информации единовременно предоставляемой пользователю
Временные характеристики Вид поиска Время поиска 1 БД Время поиска 2 БД Время поиска 3 БД 0. 602 2. 032 0. 591 0. 816 4. 55 0. 814 16. 19 22. 09 22. 11 50. 76 60. 23 60. 63 17. 02 23. 09 24. 11 50. 97 61. 23 61. 62 Поиск по синтаксису 11. 26 17. 89 17. 87 Смешанный поиск 20. 84 30. 23 30. 37 Слово (написание, нач. форма) Выбор слова и параметоров Поиск по грамм. Параметрам Поиск по грамм. + вывод контекста Поиск по слову + грамм. признаки Поиск слова + по грамм. + вывод контекста
Результаты оптимизации • Хранение всех признаков в одной записи • Хранение пар: слово – его параметры • Количество строк: 10
Реализованные типы поиска • • • Поиск по словоформе Поиск по грамматическим признакам Поиск по синтаксическим признакам Поиск контекста Алфавитный и частотный словари
Представление информации на сайте
Полученные результаты
Статистика БД Количество текстов 80 Количество слов в текстах 135867 Количество слов в словаре 37670 Количество разобранных клауз 36224 Размер на диске 130 Мб
Благодарю за внимание http: //smalt. karelia. ru
cac1baf318514873f6b1936cece9d92b.ppt