Скачать презентацию Система Onto Grid для построения онтологий Онтология — Скачать презентацию Система Onto Grid для построения онтологий Онтология —

0a47389c2afe449e9ec2d8bc4ae6cf22.ppt

  • Количество слайдов: 52

Система «Onto. Grid» для построения онтологий Онтология - формальное явное описание терминов предметной области Система «Onto. Grid» для построения онтологий Онтология - формальное явное описание терминов предметной области (Пр. О) и отношений между ними (Gruber 1993) O=

Назначение онтологии 1. Системы обучения: полезно иметь в качестве «опорного сигнала» легко воспринимаемую структуру Назначение онтологии 1. Системы обучения: полезно иметь в качестве «опорного сигнала» легко воспринимаемую структуру этой области, быстро находить ссылки на источники. 2. Поисковые системы: поиск по семантически значимым фрагментам текстов с опорой на онтологию Пр. О. 3. Научные исследования: унификация терминологии Пр. О, автоматическое отслеживание данных и знаний в потоке информации. 4. Интегрирование баз данных и знаний: установление семантической эквивалентности фактов и понятий, сформулированных в разных терминах.

Автоматизация разработки и сопровождения онтологии (проект Onto. GRID) 1. Инструмент для эксперта Пр. О, Автоматизация разработки и сопровождения онтологии (проект Onto. GRID) 1. Инструмент для эксперта Пр. О, строящего онтологию. Средства распределенной разработки 2. 2. Лингвистический процессор 3. Лингвистическая база 4. Интерфейс «семантика – онтология» 5. 3. Методика использования онтологий

1 Инструмент для эксперта Пр. О, строящего онтологию Protege (http: //protege. stanford. edu/) Mark 1 Инструмент для эксперта Пр. О, строящего онтологию Protege (http: //protege. stanford. edu/) Mark Musen, Stanford Medical Informatics 1992 Разработка онтологий 101: руководство по созданию Вашей первой онтологии Natalya F. Noy Deborah L. Mc. Guinness Ontolingua Chimaera

Структура онтологии Класс А Отношение Класс К Слот X 1…x. N Фасет X 1=0 Структура онтологии Класс А Отношение Класс К Слот X 1…x. N Фасет X 1=0 -1 X 5=Да, Нет x. N-источн. Класс a 1 Класс a 2 Объект Oi Класс ki

Средства распределенной разработки Integrated Development Enviroment (IDE) Protégé (OWL) Иван ASCONT O 1 O Средства распределенной разработки Integrated Development Enviroment (IDE) Protégé (OWL) Иван ASCONT O 1 O 2 Djohn Onto-DM Лаб№ 13 Admin Двуязычный форум ОНТОЛОГИЯ Automated System for Construction of Ontologies

Лингвистический процессор 1. Блок морфологического анализа. Блок статистического анализа текстов Гусев В. Д. , Лингвистический процессор 1. Блок морфологического анализа. Блок статистического анализа текстов Гусев В. Д. , Саломатина Н. В. 2. Система семантического анализа текста. «Визуализатор отношений» (Виз. От) Налетов А. М. , Чурикова В. А. , Соколова А. Н.

Блок статистического анализа • Назначение: Ø выявление общенаучной, предметно-ориентированной и узкоспецифичной лексики; Ø формирование Блок статистического анализа • Назначение: Ø выявление общенаучной, предметно-ориентированной и узкоспецифичной лексики; Ø формирование индикаторных словарей, отражающих аспекты документа (целевая установка, метод решения, полученный результат и т. п. ); Ø формирование системы признаков для тематической классификации документов. • Процедуры: v вычисления L-граммных спектров; v выделения устойчивых словосочетаний с учетом морфологической и комбинаторной изменчивости; v выявления аномалий в позиционном распределении лексических единиц в тексте.

L-граммное представление текстов ― L-грамма анализируемая группа текстов; ― цепочка из L подряд следующих L-граммное представление текстов ― L-грамма анализируемая группа текстов; ― цепочка из L подряд следующих нормализованных слов. Частотная характеристика L-го порядка группы текстов есть совокупность представленных в Т Т L-грамм с указанием частот встречаемости и распределения по отдельным текстам: , где ; ― размер словаря L-грамм; Совместный частотный спектр группы текстов Т есть совокупность частотных характеристик: , где ― длина максимальной цепочки слов, общей хотя бы для пары текстов.

Фрагмент словаря аспектной лексики (по материалам конференции «Диалог’ 2002» ; 146 докладов) • Аспект: Фрагмент словаря аспектной лексики (по материалам конференции «Диалог’ 2002» ; 146 докладов) • Аспект: целевая установка; • Биграммы: (Fтекст. , Fабс. ) L = 2, 3 в/работа (60, 110); в/статья (31, 45); в/доклад (31, 39); постановка/задача (14, 16); наш/исследование (10, 15); • Триграммы: (Fтекст. , Fабс. ) в/данный/работа(16, 19); в/статья/рассматриваться(10, 11); в/настоящий/работа (10, 10); в/рамка/проект (8, 12); в/работа/рассматриваться (7, 7); в/данный/доклад (5, 6); настоящий/работа/посвящать (5, 6); (5, 5); в/доклад/рассматриваться (5, 5); данный/работа/посвящать

Выделение «устойчивых» цепочек слов «Устойчивая цепочка» ― L-грамма (L ≥ 2), встречающаяся в большом Выделение «устойчивых» цепочек слов «Устойчивая цепочка» ― L-грамма (L ≥ 2), встречающаяся в большом числе разнообразных контекстов. Неустойчивой считается цепочка, которая может быть продолжена как вправо, так и влево ограниченным числом способов. Примеры § устойчивых цепочек: порядок слов; русский язык; как уже отмечалось, таким образом; в настоящее время; один и тот же; нетрудно видеть, что; предложение со скремблингом; § неустойчивых цепочек: в русском; предложение со; посторонним вход; быть или не…

Выявление позиционных аномалий • Гипотеза: лексические единицы, демонстрирующие неравномерное распределение в тексте, обычно более Выявление позиционных аномалий • Гипотеза: лексические единицы, демонстрирующие неравномерное распределение в тексте, обычно более значимы, чем распределенные равномерно. • Сканирующие статистики ― эффективный аппарат для выявления позиционных аномалий: d(n) ― длина минимального интервала, содержащего ровно n вхождений лексической единицы λ (2 ≤ λ ≤F(λ), где F(λ) ― частота встречаемости λ в тексте). Распределение d(n) при гипотезе H 0 (равномерность) известно. • Применение: • оценка информативности лексических единиц; • построение квазирефератов текста.

Анализ текста в системе Onto. Grid • Формализм для представления смысла текста + алгоритмы Анализ текста в системе Onto. Grid • Формализм для представления смысла текста + алгоритмы анализа • База лингвистических знаний предметной области • Алгоритм построения семантического представления текста • Интерфейс эксперта

Задачи анализа текста • Классификация текстов • Реферирование • Поиск по заданным концептам ………. Задачи анализа текста • Классификация текстов • Реферирование • Поиск по заданным концептам ………. • Определение реализаций элементов онтологии в текстах • Наполнение элементов онтологии ссылками на тексты • Выявление «недогруженных» и «перегруженных элементов онтологии» ……….

Анализ текста с опорой на онтологию Пр. О Система анализа текста (САТ) Проекция онтологии Анализ текста с опорой на онтологию Пр. О Система анализа текста (САТ) Проекция онтологии на ЕЯ тексты ОНТОЛОГИЯ

Анализ текста в системе Onto. Grid ОНТОЛОГИЯ БЛЗ Пр. О Виз. От ЭКСПЕРТ Текст Анализ текста в системе Onto. Grid ОНТОЛОГИЯ БЛЗ Пр. О Виз. От ЭКСПЕРТ Текст ЕЯ САТ

Иерархия реализаций смыслов в тексте Наборы неэлементарных (в общем случае) словосочетаний: понятия, отношения между Иерархия реализаций смыслов в тексте Наборы неэлементарных (в общем случае) словосочетаний: понятия, отношения между понятиями Неэлементарные словосочетания – комбинации элементарных словосочетаний Элементарные словосочетания – реализации смысловых отношений: агент, объект, признак, значение, локализация, …. Слова, термины

Лингвистическая база знаний предметной области • База реализаций отношений (БРО) -термины -реализации смысловых отношений Лингвистическая база знаний предметной области • База реализаций отношений (БРО) -термины -реализации смысловых отношений • Набор критичных фрагментов (НКФ) наборы неэлементарных словосочетаний, соответствующих существенным элементам Пр. О

Представление реализаций смысловых отношений в БРО Представление реализаций смысловых отношений в БРО

Формирование БРО • В ходе интерактивного анализа текста • На основе предварительной статистической обработки Формирование БРО • В ходе интерактивного анализа текста • На основе предварительной статистической обработки текстов Пр. О • Использование обобщенных определений отношений (правил выделения в тексте)

Интерактивный анализ текста Интерактивный анализ текста

Редактирование БРО с помощью интерфейса Виз. От Редактирование БРО с помощью интерфейса Виз. От

Пирамидальные сети Гладун В. П. * Пирамидальная сеть ― ациклический ориентированный граф, в котором Пирамидальные сети Гладун В. П. * Пирамидальная сеть ― ациклический ориентированный граф, в котором нет вершин с одной заходящей дугой. Рецепторы ― соответствуют символам входного алфавита (объекты, признаки, слова, …). Концепторы ― остальные вершины; соответствуют отдельным объектам или общим частям нескольких объектов.

Q-сети • Однородность • Иерархичность • Функциональность Текст рассматривается как иерархическая структура фрагментов, каждый Q-сети • Однородность • Иерархичность • Функциональность Текст рассматривается как иерархическая структура фрагментов, каждый из которых представляет некоторую семантическую цельность

 «анализ данных» а=анализ, b=данные r=процесс-объект (r, a, b) (s, A, b) hjhj «интеллектуальный «анализ данных» а=анализ, b=данные r=процесс-объект (r, a, b) (s, A, b) hjhj «интеллектуальный (анализ данных)» А=анализ данных, b=интеллектуальный r=процесс-свойство s=интеллектуальный анализ jhjhjjh (s, A, B) «((процесс таксономии) начинается) с (нормировки признаков)» А=(процесс таксономии) начинается, B=нормировка признаков а=начинается, b=нормировка, s=начинается с нормировки jhjhjhjj

Построение семантического представления (Сем. П) текста * • Выделение в предложении связных цепочек зависимостей Построение семантического представления (Сем. П) текста * • Выделение в предложении связных цепочек зависимостей (реализаций отношений) из БРО 1 2 3 4 5 6 7 8 9 • Взвешивание реализаций смыслового отношения функцией f ( s , r), где s – значимость реализации, r – расстояние между его аргументами в предложении 3 9 • Построение для каждой цепочки 1 2 4 зависимостей связывающей сети 8 максимального веса * 5 6

 • Выбираем реализации отношений веса большего чем g_1. Строим по ним непересекающиеся 8 • Выбираем реализации отношений веса большего чем g_1. Строим по ним непересекающиеся 8 фрагменты первого C типа, начиная с самых «тяжелых» 3 A 2 1 9 5 D 2 4 1 8 9 C 4 6 B A 3 * 6 5 B • Расширяем построенные фрагменты, используя оставшиеся реализации веса большего чем g_2.

 • Объединяем фрагменты, используя реализации отношений веса не меньшего чем gamma_3 E D • Объединяем фрагменты, используя реализации отношений веса не меньшего чем gamma_3 E D A 3 1 * 2 B 4 6 5 8 9 C

Пример работы компоненты анализа текста Пример работы компоненты анализа текста

Формирование понятий Понятие — фрагмент знаний, представляющий собой обобщенную модель класса элементов мира, в Формирование понятий Понятие — фрагмент знаний, представляющий собой обобщенную модель класса элементов мира, в котором оперирует система, достаточную для выполнения на ее основе операций распознавания и генерации моделей конкретных элементов мира. Объемы понятий Пр. О Фрагменты Тексты Понятия {T} {P} {F} {f_1, . . . , f_n} t_1 p_1 {g_1, . . . , g_m} t_2 p_2 {r_1, . . . , r_k} t_3 p_3 {q_1, . . . q_s} t_4 p_4 . . . . {P(t_1)}

* Доля j-го фрагмента в i-м понятии a_ij = Число текстов, затрагивающих i-е понятие, * Доля j-го фрагмента в i-м понятии a_ij = Число текстов, затрагивающих i-е понятие, Сем. П которых содержит j-й фрагмент Общее число текстов, затрагивающих i-е понятие Понятия p_i Тексты Фрагменты f_j

* Шум j-го фрагмента для i-го понятия b_ij = Число текстов, не затрагивающих i-е * Шум j-го фрагмента для i-го понятия b_ij = Число текстов, не затрагивающих i-е понятие, Сем. П которых содержит j-й фрагмент Общее число текстов, содержащих j-й фрагмент Понятия p_i Тексты Фрагменты f_j

Объединяющие признаки Среди всех фрагментов текста t, для каждого понятия p_i из {P_t}, находим Объединяющие признаки Среди всех фрагментов текста t, для каждого понятия p_i из {P_t}, находим критичный фрагмент r c максимальным значением a_ir при b_ir < b. p_i Понятия Тексты t r Фрагменты g f *

Разделяющие признаки * Пусть в тексте t затрагивается понятие p_j и не затрагивается понятие Разделяющие признаки * Пусть в тексте t затрагивается понятие p_j и не затрагивается понятие p_i. Пусть существует фрагмент f текста t, являющийся критичным фрагментом понятия p_i такой что в тексте t нет критичным фрагмента r понятия p_j, включающего в себя фрагмент f. p_j p_i Понятия Тогда выберем такой фрагмент r с максимальным Тексты значением b_ir и t a_jr > a. r Фрагменты f

ASCONT Инструментальная система для коллективной разработки онтологии Редактор ASCONT Инструментальная система для коллективной разработки онтологии Редактор

Представление онтологии + Соответствие современным стандартам + Наличие аппарата формального вывода + Открытость + Представление онтологии + Соответствие современным стандартам + Наличие аппарата формального вывода + Открытость + Графическое редактирование + Эффективность машинной обработки OWL (Ontology Web Language) *

Технологические требования + Совместимость с концепцией e-Science + Масштабность + Распределённость + Динамичность + Технологические требования + Совместимость с концепцией e-Science + Масштабность + Распределённость + Динамичность + Неоднородность GRID *

Архитектура Архив Центральный репозиторий <OWL> Пользователи Архитектура Архив Центральный репозиторий Пользователи

Разработка Онтологии Онтология Эксперт Редактор Разработка Онтологии Онтология Эксперт Редактор

Разработка Онтологий * Репозиторий Эксперт Онтология A B Онтология C Эксперт Разработка Онтологий * Репозиторий Эксперт Онтология A B Онтология C Эксперт

Окно диалога с системой Окно диалога с системой

Зародыш онтологии DM Зародыш онтологии DM

Онтология предметной области Data Mining (Onto-DM) Онтология предметной области Data Mining (Onto-DM)

Какую область будет охватывать онтология Onto- DM? Для чего мы будем использовать онтологию Onto Какую область будет охватывать онтология Onto- DM? Для чего мы будем использовать онтологию Onto -DM? На какие вопросы должна давать ответы онтология Onto-DM? Кто будет разрабатывать, использовать и поддерживать онтологию Onto-DM?

(Онтология Onto-DM) “класс” Данные “класс” Задача “класс” Метод “класс” Приме р ограничения использование реализация (Онтология Onto-DM) “класс” Данные “класс” Задача “класс” Метод “класс” Приме р ограничения использование реализация

“класс” Данные “класс” Таблица. ОСВ “класс” ? Матрица. ООВ “объект” Строка Столбец Серия Подтабли “класс” Данные “класс” Таблица. ОСВ “класс” ? Матрица. ООВ “объект” Строка Столбец Серия Подтабли ца

“класс” Данные “свойство” Размерность Тип. Шкалы Пробел Достоверность “значение” 1 -M, 1 -N, 1 “класс” Данные “свойство” Размерность Тип. Шкалы Пробел Достоверность “значение” 1 -M, 1 -N, 1 -T A, R, I, O, N, C Да, Нет 0 -1 Slot Facet

* “класс” Задача “класс” “класс” “Понятие” Таксоном ия. S Выбор. Пр изнаков. X Распозна * “класс” Задача “класс” “класс” “Понятие” Таксоном ия. S Выбор. Пр изнаков. X Распозна вание. D Пробел Z Прогноз P Комби. Тип

* Стрелки указывают на отношение: Метод Х применяется для решения задачи Y S X * Стрелки указывают на отношение: Метод Х применяется для решения задачи Y S X D “класс” Метод Z P … “объект” “объект” FOREL KRAB Nat. Class K-means SPA Ad. Del NTPP LRP SDF LDR TDF k-NNR Cru. St FB Lokator ZET WANGA LGAP ZET WANGA SX SD DX DSX Полигоны

* Стрелки указывают на отношение: Случай Z является примером решения задачи Y методом X. * Стрелки указывают на отношение: Случай Z является примером решения задачи Y методом X. S X D “объект” Геология Экономи ка Генетика медицина “класс” Пример Z P … “объект” Речь Изображ ения Экологи я Геология Генетика Финансы Экономи ка Цифры Генетика Демоверсии программ

Определения терминов и отношений Data Mining – область деятельности, связанной с обнаружением причинно-следственных зависимостей Определения терминов и отношений Data Mining – область деятельности, связанной с обнаружением причинно-следственных зависимостей (закономерностей, знаний ) в массивах экспериментальных или статистических данных. Синонимы: Интеллектуальный анализ данных, Подъем данных, … Данные – множество отдельных фактов, значений признаков, … Синонимы: протокол наблюдений, data table Знание – утверждение об общих свойствах множества фактов, о зависимости между значениями признаков. Синонимы: закономерность, зависимость, regularity, … Объект – выделенный элемент изучаемого мира Синонимы: реализация, вектор, точка, entity, … Свойство – характеристика объекта Синонимы: признак, атрибут, параметр, feature, … …….

СПАСИБО ЗА ВНИМАНИЕ СПАСИБО ЗА ВНИМАНИЕ