Скачать презентацию Электронная Казань 27 -28 апреля 2009 года Информационный Скачать презентацию Электронная Казань 27 -28 апреля 2009 года Информационный

a555480c4c8ef5d284457628dd9f138d.ppt

  • Количество слайдов: 18

Электронная Казань, 27 -28 апреля 2009 года Информационный поиск с использованием татарской морфологии Сулейманов Электронная Казань, 27 -28 апреля 2009 года Информационный поиск с использованием татарской морфологии Сулейманов Д. Ш. , Невзорова О. А. , Гатиатуллин А. Р. , Гильмуллин Р. А.

Электронная Казань Университетская информационная система РОССИЯ (УИС РОССИЯ) создана как ресурсная база Российского университетского Электронная Казань Университетская информационная система РОССИЯ (УИС РОССИЯ) создана как ресурсная база Российского университетского информационноисследовательского консорциума по социальным и гуманитарным наукам (Russian inter-University Social Sciences Information and Analytical consortium - RUSSIA Consortium). Предназначена для проведения исследований по социальным наукам и открыта для коллективного доступа ученым и исследователям из университетов РФ http: //www. cir. ru

Электронная Казань Проект направлен на разработку прикладной двухуровневой компьютерной модели татарского языка и применение Электронная Казань Проект направлен на разработку прикладной двухуровневой компьютерной модели татарского языка и применение ее в интеллектуальных технологиях информационного поиска в корпусах многоязыковых текстов. Решение задачи интеллектуального информационного поиска требует создания: -полной морфологической модели татарского языка, -прагматически-ориентированной синтаксической модели татарского языка. Эти модели будут использованы для адаптации механизмов информационного поиска Университетской информационной системы РОССИЯ, базирующихся на терминологическом и лексическом поисковых индексах.

Электронная Казань Источник Ретроспектива Количество Правовые акты НТЦ Система 1990 -. . . 80, Электронная Казань Источник Ретроспектива Количество Правовые акты НТЦ Система 1990 -. . . 80, 000 Стенограммы заседаний Государственной Думы Аппарат ГД ФС РФ 1994 -. . . 150, 000 Статистические материалы Госкомстат РФ; Межгос. Стат. Комитет СНГ 1998 -. . . 25, 000 Материалы СМИ "Эксперт", "Независимая газета", "Известия", "Комсомольская правда", "Аргументы и факты", "Слово", . . . 1997 -. . . 280, 000 Аналитические материалы министерств и ведомств РФ, Счетная палата РФ, ЦБ РФ, РЕЦЭП 1996 -. . . 15, 000 Научные издания Вестник МГУ, "Соц. исследования" 1998 -. . . 600 Библиографические описания материалов по экономике, социологии, . . . СОЦИОНЕТ / Re. PEc . . . 300, 000

Электронная Казань Решаются следующие задачи интеграции разнородных информационных ресурсов: - обеспечение единообразного формата хранения Электронная Казань Решаются следующие задачи интеграции разнородных информационных ресурсов: - обеспечение единообразного формата хранения документов разных источников; - единообразные способы доступа ко всей коллекции документов; - использование специфических поисковых атрибутов для каждой коллекции; - тематическая систематизация /классификация документов по тезаурусу, рубрикаторам; - аннотирование полнотекстовых документов; -создание предметно-ориентированных баз данных, интегрированных в общую систему.

Электронная Казань Электронная Казань

Электронная Казань Этапы автоматизированной лингвистической обработки текстов (АЛОТ): - Морфологический анализ; - Терминологический анализ; Электронная Казань Этапы автоматизированной лингвистической обработки текстов (АЛОТ): - Морфологический анализ; - Терминологический анализ; - Рубрицирование; - Аннотирование. В ходе морфологического анализа русскоязычного текста всем словам анализируемого текста сопоставляются леммы с соответствующей грамматической информацией (род, число, падеж, категория одушевленности и т. п. ). Размер используемого морфологического словаря - 130 тысяч лемм. В сочетании с простыми словарями, описывающими словообразование, это обеспечивает более чем 99. 6% покрытие текстов российских правовых актов и материалов СМИ.

Электронная Казань Подготовка больших электронных корпусов текстов по социально-экономической тематике (более 70 Мб). Разработка Электронная Казань Подготовка больших электронных корпусов текстов по социально-экономической тематике (более 70 Мб). Разработка специализированных лингвистических ресурсов на татарском языке: - морфологический словарь татарского языка (объем 50000 словарных статей)

Электронная Казань Статистические данные электронной коллекции текстов на русском и татарском языках по рубрикам Электронная Казань Статистические данные электронной коллекции текстов на русском и татарском языках по рубрикам Количество файлов Количество слов в файлах 1. Воспитание и образование Русские тексты 13 197857 Татарские тексты 4 50095 Русские тексты 2 66263 Татарские тексты 1 2794 Русские тексты 2 14026 Татарские тексты 24 394239 Русские тексты 1 6686 Татарские тексты 21 644819 Русские тексты 145 284832 Татарские тексты 481 2289761 2. Экономика 3. Политика 4. Фольклор и обычаи … Общее количество

Электронная Казань Модуль графематического анализа татарских текстов 1. Фрагментация исходного текстового файла на предложения Электронная Казань Модуль графематического анализа татарских текстов 1. Фрагментация исходного текстового файла на предложения 2. Разбиение каждого предложения на слова, числа, знаки пунктуации, формулы и другие базовые текстовые единицы и представление выходной информации в следующем формате: лексема тип лексемы (число) № номер в предложении Выделяемые типы лексем: 1 – слово; 2 – аббревиатура; 3 – метка; 4 – формула; 5 – знак пунктуации; 6 – число; 7 – ФИО; 8 – имя собственное; 9 – комментарий; 10 – сокращение; 11 – стандартное сокращение; 12 – дата; 13 – email; 14 – http(www) гиперссылка № предложения

Электронная Казань Морфологический анализатор татарского языка Информационная база двухуровневого морфологического анализатора: 1. Файл правил Электронная Казань Морфологический анализатор татарского языка Информационная база двухуровневого морфологического анализатора: 1. Файл правил - алфавит и фонологические правила (правила преобразования лексических символов в поверхностные символы в различных контекстных окружениях). 2. Лексикон - словарь лексических единиц (корневых и аффиксальных морфем) и их толкования, а также описания морфотактических правил.

Электронная Казань Файл морфотактических правил Файл фонологических правил урман+ДА лес+Локатив ГЕНЕРАТОР урманда в лесу Электронная Казань Файл морфотактических правил Файл фонологических правил урман+ДА лес+Локатив ГЕНЕРАТОР урманда в лесу РАСПОЗНАВАТЕЛЬ урман+ДА лес+Локатив Структурно-функциональная схема ДМА татарского языка

Электронная Казань Диаграмма для номинативных парадигм Электронная Казань Диаграмма для номинативных парадигм

Электронная Казань Описание фрагмента значений словоизменительных и словообразовательных морфем Аффиксальный класс Лексическая запись морфемы Электронная Казань Описание фрагмента значений словоизменительных и словообразовательных морфем Аффиксальный класс Лексическая запись морфемы Код Глоссарий Примеры N_Plural +LEr NNI_PLU Множественность атлар, өйләр N_Poss +Hm NNI_1 s. POSS притяжательность в форме 1 л. ед. числа атым, өем +Hb. Hz NNI_1 p. POSS притяжательность в форме 1 л. мн. числа атыбыз, өебез +Hg. Hz NNI_2 p. POSS притяжательность в форме 2 л. мн. числа. атыгыз, өегез +HN NNI_2 s. POSS притяжательность в форме 2 л. ед. числа. атың, өең +ZH NNI_3 s. POSS притяжательность в форме 3 л. ед. числа. аты, өе

Электронная Казань Электронная Казань

Электронная Казань Электронная Казань

Электронная Казань Таблица перевода интерфейса Атрибуты коллекции Электронная Казань Таблица перевода интерфейса Атрибуты коллекции "Татарский язык" "Татар теле" коллекциясенең атрибутлары бизнес Бюджет РФ РФ бюджеты В случае повторения ошибки свяжитесь со службой поддержки. Хата кабатланса ярдәм күрсәтү хезмәте белән элемтәгә керегез. Введите ваш email: Электрон адресыгызны кертегез: Восстановление забытого пароля Онытылган серсүзне төргезү Все коллекции Барлык коллекцияләр Все слова Барлык сүзләр дә Выберите коллекции документов, по которым будет производиться поиск. Эзләү алып барыласы документлар коллекцияләрен сайлагыз. Выборы РФ РФ сайлаулары Выбрать открытые коллекции Ачык коллекцияләрне сайлау Главная Төп Гостевая книга Кунак китабы Грантлар Дайджест Добавить Өстәү

Электронная Казань Спасибо за внимание Электронная Казань Спасибо за внимание