aad6d9b06d1ed5a610ad1c2745f12a90.ppt
- Количество слайдов: 25
Комп’ютерно-лінгвістичні технології смислової інтерпретації текстової інформації
Розроблена технологія комп’ютерно-лінгвістичної обробки текстів на природній мові, яка базується на створених потужних лінгвістичних базах даних та евристичних алгоритмах смислової обробки текстів Об'єкти взаємодії властивості Онтологія
Система моніторингу активності користувачів в соціальних мережах Для мережі Twitter (На прикладі передвиборчої активності)
Функціональність системи • Призначена для збору інформації про хід соціальних процесів та явищ через їх відображення в соціальній мережі Twitter. • Система здатна представляти зібрані дані з різним ступенем деталізації. • Зібрані системою статистичні дані призначені для подальшої обробки експертами
Продуктивність системи • В поточній конфігурації система здатна обробляти близько 30 тисяч повідомлень на годину (за виникнення необхідності роботу системи можна додатково оптимізувати). • Наразі обсяг повідомлень на добу складає 5 -8 тисяч, тому даної пропускної здатності вистачає на будь-які пікові ситуації
Робота системи Система призначена для роботи в режимі 24/7, що дозволяє їй отримувати нові повідомлення користувачів за вказаними тематиками практично одночасно з їх появою в самі соціальній мережі (в більшості випадків затримка становить декілька секунд)
Деталізована статистика за добу Зведена статистика за добу
Активність за добу (або за інший період)
Функціональність системи в подробицях • Збір інформації в системі відбувається за допомогою ключових слів та фраз. • Наразі система містить близько 300 ключів за тематикою української політики. • Набір ключів створено та сконфігуровано для отримання найбільш релевантних результатів з російськомовних та україномовних повідомлень, для деяких об’єктів система також містить англомовні ключі (у випадках коли об’єкт часто згадується в англомовних повідомленнях)
Процес роботи системи в подробицях • Раз на годину (частота запуску конфігурується) в системі стартує процес розбору та аналізу нових даних. Даний процес визначає ступінь релевантності отриманої інформації заданим ключам, та співставляє з кожним повідомленням список ключових слів в нормальній формі. • Отримані дані аналізуються за допомогою sql-запитів та періодично викладаються на сторінку системи в Google Docs. Періодичність та детальність викладу даних можна змінювати. • В системі наявний модуль кластеризації, що застосовується для збору тематично схожих текстів в окремі групи та визначення найбільш актуальних тем за певний проміжок часу
Терміни впровадження Час розгортання системи на інфраструктурі замовника близько одного тижня, за умов: • Система влаштовує замовника в тому вигляді як є. • Інфраструктура вже готова. • Налаштування системи резервного копіювання при встановленні системи не проводиться. Якщо необхідно буде щось реалізувати додатково, то термін зележатиме від складности та об'єму додаткових робіт
На прохання замовника, можна реалізувати: • Роботу системи з іншими соціальними мережами. • Аналіз емоційного (позитивного /негативного/ нейтрального) забарвлення повідомлень. • Аналіз зв’язків між користувачами соціальної мережі з виявленням сталих груп і аналізом типу/ кількості /направленості/ ступеню поширення матеріалів, що вони продукують. • Інтелектуалізація, наприклад, в напрямку збору інформації про «фокусний об’єкт» . • Час реалізації залежатиме від кількості та складності замовлених робіт
Як результат застосування даної технології пропонуються такі системи: Cистема “Referator” Система “Vitamin. Е” Система смислового пошуку Semantic. Search Система визначення “запозичених” фрагментів тексту Antiplagiat
т Система реферування та індексації Referator Ре фе ра Реферат тексту Засоби автоматичного реферування дозволяють розбити текст на множину семантично цілісних фрагментів, які відображають основні теми документу, і виділити найінформативніші. Функція реферування може використовуватися для: n побудови тематичних рефератів за темами документу; n побудови загального реферату за ключовими темами; n побудови рефератів за темою, заданою еталонними текстами; n тематичного аналізу текстових потоків.
Система реферування та індексації Referator Опрацювання системою блок теми№ 1 блокте ми№ 2 е окт бл 3 и№ м и Обрання тем та стиснення блоку, що її стосується рефе р за те ат мою № 2
Видалення надлишкових текстів або надлишкових фрагментів системою мультиреферування сільське господарство 3 матеріали 0, 5 повторів футбол 3 матеріали 2 повтори інше 3 матеріали 0 повторів
Огляд, створений системою мультиреферування Синопсис: Всього 9 новин (з них 7 унікальних) сільське господарство 3 матеріали 0, 5 повторів футбол 3 матеріали 2 повтори інше 3 матеріали 0 повторів
Система мультиреферування На основі раніше згенерованого огляду футбол сільське господарство інше Новини Київщини стиснення
Система покращення якості машинного перекладу Vitamin. E Машинний переклад Вхідний текст Несмотря на жестокие возражения России, Соединенные Штаты оказывают давление на НАТО, чтобы начать переговоры о членстве с Украиной и Грузией на саммите альянса в Бухаресте в апреле Despite cruel(fierce) oppositions (objections) from Russia, the United States is pushing NATO to start(begin) retention(membership) negotiations with Ukraine and Georgia at an alliance summit meeting in Bucharest in April Despite fierce objections from Russia, the United States is pushing NATO to start membership negotiations with Ukraine and Georgia at an alliance summit meeting in Bucharest in April Система аналізу білінгвістичних текстів Система “Vitamin. E” за допомогою семантичного аналізу смислового контексту речення вибирає з можливих альтернатив коректний варіант перекладу, чим значно покращує якість тексту машинного перекладу. В процесі створення системи “Vitamin. E” був розроблений ряд ефективних алгоритмів білінгвістичного асоціативно-семантичного аналізу, що знаходять міру семантичної близькості між словами - семантичними об’єктами. Обробляючи текст процедури семантичного аналізу, взаємодіють з розробленою білінгвістичною семантичною базою знань Ukr. Word. Net. Семантичні алгоритми аналізу вирішують смислові неоднозначності перекладу і вирішують задачу вибору вірної альтернативи перекладу.
Система покращення якості машинного перекладу Vitamin. E Зонд NASA нашел рядом с Меркурием загадочный объект Час ручного редагування після застосування Один из телескопов космического проекта SECCHI американского космического агентства NASA заснял космического(пространственного) проекта SECCHI американского космического автоперекладача для невеликого тексту видео, на NASA заснял видео, на котором объект рядом с Меркурием, сообщает Меркурием(ртутью), агентства котором изображен загадочный объект рядом с. The Daily Mail Для того, Дневная Почта(The Daily Mail) сообщает чтобы картинка не засорялась множеством объектов, запечатленных на каждом снимке, лишнее стирают. Специалисты удаляют не засорялась множеством(установкой) объектов, Для того, чтобы картинка(изображение)изображения стационарных объектов - далеких звезд - на всех кадрах, кроме на каждом снимке, лишнее стирают. Специалисты из-за движущихся объектов, но это не запечатленныходного. Также стираются артефакты, возникающие удаляют изображения опрацювання всегда удается из-за несовершенства компьютерной программы. "Инопланетный кроме - как раз такое стационарных(неподвижных) объектов - далеких звезд - на всех кадрах (рамках), корабльодного. Также остаточное явление. По завершении из-за движущихся темные артефакты всегда удается из-за стираются артефакты, возникающие процесса остаютсяобъектов, но это не на том месте, где планета системою была днем ранее. При дальнейшей обработке эти темные области могут стать гораздо ярче", - явление. несовершенства компьютерной программы. "Инопланетный корабль - как раз такое остаточноеобъяснил инженер Нэтан процесса (удаления лишнего) остаются темные артефакты на том месте, где планета По завершении Рич. Vitamin E Без Vitamine З Vitamine была днем ранее. При дальнейшей обработке эти темные области могут стать гораздо ярче", - объяснил Граматика 10 хв инженер Нэтан Рич. Маємо деякий текст з неточностями Підбір слів 10 хв 1 хв. Всього 20 хв 11 хв.
Система смислового пошуку текстів Semantic. Search n n n В ході виконання досліджень розроблено систему семантичного пошуку в інтернет. Система реалізована у вигляді метапошукової машини, що здатна працювати з результатами популярних інтернет-машин. Поточна версія виконана у якості надбудови над пошуковою машиною Google. Система призначена для надання користувачу можливості семантизації пошукових запитів, що дозволяє значно збільшити точність пошуку в інтернет. Створена реалізація надає користувачу простий інтерфейс для уточнення пошукового запиту виконує керування пошуковою машиною Google для визначення найбільш релевантних запиту користувача документів.
Покращення пошуку в незнайомій предметній області за допомогою системи “Semantic Search” користувач G 7 meeting result запит G 7 meeting result значення 1 Semantic значення 1 складний запит Semantic 2 search 2 значення Search значення оптимізовані результати запиту значення 3 G 7 meeting result значення 2 значення 1 значення 2 Результати запиту Сервери Google
Antiplagiat - Система виявлення запозичених фрагментів тексту з пошуком першоджерела знайдених фрагментів в базі даних порівняння 80% 20% з тексту“ 2” 10% з тексту “ 1”“ 3” з тексту 3 1 2% з тексту“ 1” 1% з тексту “ 3” 2 3 1 2 Система визначення запозичених фрагментів тексту дає змогу встановити фактичних авторів тексту, не звертаючись до експертів.
Наш сайт http: //lingvoworks. org. ua
Дякуємо за увагу
aad6d9b06d1ed5a610ad1c2745f12a90.ppt