04__структурирование знаний .ppt
- Количество слайдов: 102
СПб. ГУТ им. проф. М. А. Бонч Бруевича Технологии обработки информации 230400 Информационные системы и технологии ЛЕКЦИИ, ЛАБОРАТОРНЫЕ РАБОТЫ, ПРАКТИЧЕСКИЕ ЗАНЯТИЯ, ЭКЗАМЕН К. т. н. , доцент кафедры ИУС Феликс Васильевич Филиппов 9000096@mail. ru
Тема 5 Cтруктурирование знаний
Факты и структуры данных Мальчик и его собака играют с мячом на пляже. Объект: {boy: ”Том”, dog: ”Спот”, ball: ”теннис”, beach: ”Озерки”} Массив: [”Том”, ”Спот”, ”теннис”, ”Озерки”] Список: (”Том”, ”Спот”, ”теннис”, ”Озерки”) Кортеж: < Том, Спот, теннис, Озерки > Термы Том, Спот, теннис и Озерки – связаны друг с другом
Моделирование фактов Модель в виде объектов на Java. Script var boy = { Pid: 1, name: "Том", Did: null, Bid: null }; var dog = { Did: 2, name: "Спот", Pid: null, Bid: null }; var ball = { Bid: 5, type: "теннис", color: "зеленый" }; // связать объекты друг с другом boy. Did = dog; dog. Pid = boy; boy. Bid = ball; dog. Bid = ball; Модель с объектами Модель с кортежами Pid: Объект для Тома 1: Кортеж для Тома Did: Объект для Спота 2: Кортеж для Спота Bid: Объект для зеленого 5: Кортеж для теннисного мяча Том связан со Спотом Том, 2 и 5 связаны между собой Спот связан с Томом Спот, 1 и 5 связаны между собой Том связан с зеленым Зеленый теннисным мячом мяч и 5 связаны между собой Спот связан с зеленым теннисным мячом Person id (Pid), Dog id (Did), Ball id (Bid) – обеспечивают уникальность объектов Модель в виде кортежей < 1, Том, 2, 5 > < 2, Спот, 1, 5 > < 5, теннис, зеленый >
Кортежи с предикатами < 1, Том, хозяин, 2, играет с, 5 > < 2, Спот, принадлежит, 1, играет с, 5 > < 5, теннис, зеленый > < 1, Том, хозяин, 2 > < 1, Том, играет с, 5 > < 2, Спот, принадлежит, 1 > < 2, Спот, играет с, 5 > < 5, теннис, зеленый > < 1, имя, Том > < 1, хозяин, 2 > < 1, играет с, 5 > < 2, имя, Спот > < 2, принадлежит 1 > < 2, играет с, 5 > < 5, тип, теннис > < 5, цвет, зеленый > Несколько термов предикатов Есть кортежи с N > 3 Триплеты – 1 -й способ хранения фактов XML <Description about="субъект" предикат="объект"/> <Description about="1" играет с="5"/>
Граф связей между кортежами 1 играет с 5 5 тип теннис 1 имя Том 1 хозяин 2 2 принадлежит 1 2 имя Спот 5 цвет зеленый 2 играет с 5
Упрощение графовой модели
Граф связей между кортежами Графы – 2 -й способ хранения фактов Идентификаторы (сущности, субъекты) Предикаты (отношения, свойства) Литералы (объекты, значения)
Использование контейнеров Контейнеры – 3 -й способ хранения фактов
Семантическая графовая модель образовательной деятельности ИУС Филиппов Феликс Васильевич Петров Георгий Семенович Аудитория 500 90 мин ИСТ 13 с Графовые модели RDF
Тема 6 Семантический веб Стек стандартов Иерархия компонентов
Semantic Web 17 мая 2001 года журнал Scientific American Тим Бернерс-Ли, Джеймс Хэндлер, Ора Лассила “The Semantic Web” http: //ezolin. pisem. net/logic/semantic_web_rus. html http: //www. youtube. com/watch? v=He. Ur. Eh nqt. U&feature=player_detailpage Tim Berners-Lee изобретатель WWW, URI, URL, HTTP, HTML, глава W 3 C
Semantic Web Стек стандартов Оригинальная модель Semantic Web (2001 год) Стек стандартов Semantic Web (в редакции 2005 года)
Semantic Web Иерархия компонентов Ф. Филиппов, доцент СПб. ГУТ им. проф. М. А. Бонч Бруевича http: //www. inteltec. ru/publish/articles/textan/rimar_RCDL 2006. shtml
Тема 7 XML Schema Микроформаты Микроданные
Semantic Web Микроформаты — позволяют сделать контент доступным не только человеку, но и понятным для машин (что является базовой идеей Semantic Web) Microformats, μF – направление в разметке, которое позволяет отразить семантику, т. е. сведения о разнообразных сущностях на веб страницах, используя стандартные элементы языка HTML (XHTML). Внешние программы (например, поисковые агенты) могут понимать смысл, переданный посредством микроформатов. 16
Semantic Web Микроформаты Яндекс поддерживает следующие микроформаты: h. Card — формат разметки контактной информации (адресов, телефонов, …); h. Recipe — формат для описания кулинарных рецептов; h. Review — формат разметки отзывов; h. Product — формат разметки товаров; Google + h. Calendar – формат для разметки календарной информации о событиях. http: //www. youtube. com/watch? feature=player _embedded&v=G 2 QZ 0 Nrq. Iu 0 Проверить разметку можно с помощью валидатора микроразметки: http: //webmaster. yandex. ru/microtest. xml
Semantic Web Пример микроформата Кафе Ромашка г. Солнечный, просп. Романтиков, д. 21 Телефон: +7 (890) 123 45 67 Мы работаем ежедневно с 11: 00 до 24: 00 <div class="vcard"> <div> <span class="category">Кафе</span> <span class="fn org">Ромашка</span> </div> <div class="adr"> <span class="locality">г. Солнечный</span>, <span class="street address">просп. Романтиков, д. 21</span> </div> <div>Телефон: <span class="tel">+7 (890) 123 45 67</span></div> <div>Мы работаем <span class="workhours">ежедневно с 11: 00 до 24: 00</span> <span class="url"> <span class="value title" title="http: //www. romashka cafe. ru"> </span> </div>
Semantic Web Микроформаты h. Atom — ленты новостей (как аналог RSS и Atom) в обычном HTML или XHTML; XFN — социальные взаимоотношения; rel tag — метки (теги) и образование фолксономии; x. Folk — помеченные ссылки; adr — почтовые адреса; geo — географические координаты (широта и долгота); nofollow — для предотвращения индексации поисковыми системами определённых документов;
Semantic Web Микроданные сущности, типы и свойства <div> <h 1>Аватар</h 1> <span>Режиссер: Джеймс Кэмерон (род. 16 августа 1954 г. )</span> <span>Фантастика</span> <a href="/. . /movies/avatar-theatrical-trailer. html">Трейлер</a> </div> Сущность Тип <div itemscope itemtype="http: //schema. org/Movie"> <h 1 itemprop="name">Аватар</h 1> <span>Режиссер: <span itemprop="director">Джеймс Кэмерон</span> (род. 16 августа 1954 г. )</span> <span itemprop="genre">Фантастика</span> <a href="/. . /movies/avatar theatrical trailer. html « itemprop="trailer">Трейлер</a> </div> Свойства http: //schema. org/Movie Источник: http: //ruschema. org/docs/gs
Semantic Web Микроданные вложенные сущности <span>Режиссер: <span itemprop="director">Джеймс Кэмерон</span> (род. 16 августа 1954 г. )</span> Вложенная сущность Тип <div itemprop="director" itemscope itemtype="http: //schema. org/Person"> Режиссер: <span itemprop="name">Джеймс Кэмерон</span> (род. <span itemprop="birth. Date">16 августа 1954 г. </span>) Свойства http: //schema. org/Person
Creative. Work about Thing Semantic Web accountable. Person aggregate. Rating Aggregate. Rating alternative. Headline Text associated. Media. Object audience Audience audio Audio. Object Organization or Person author award Text Movie awards Text comment User. Comments Тип Свойства content. Location Place Person actor content. Rating Text Person actors contributor Organization or Person copyright. Holder Organization or Person director copyright. Year Number Duration creatorduration Organization or Person date. Created Date Music. Group music. By date. Modified Date or Person date. Published Date Person producer discussion. Url URL editor Person production. Company Organization educational. Alignment. Object Video. Object trailer educational. Use Text encoding Media. Object encodings Media. Object genre Text headline Text Микроданные свойства in. Language interaction. Count interactivity. Type is. Based. On. Url is. Family. Friendly keywords learning. Resource. Type mentions offers provider publishing. Principles reviews source. Organization text thumbnail. Url time. Required typical. Age. Range version video Text URL Boolean Text Thing Offer Organization or Person Organization URL Review Organization Text URL Duration Text Number Video. Object
Semantic Web Словарь schema. org Список типов сущностей Свойства типов Thing (нечто) Творческие произведения: Creative. Work (творческое произведение), Book (книга), Movie (фильм), Music. Recording (музыкальная запись), Recipe (рецепт), TVSeries (телесериал). . . Встроенные нетекстовые объекты: Audio. Object (аудио), Image. Object (изображение), Video. Object (видео) Event (событие) Organization (организация) Person (человек) Place (место), Local. Business (местная фирма), Restaurant (ресторан). . . Product (продукт), Offer (предложение), Aggregate. Offer (сводное предложение) Review (отзыв), Aggregate. Rating (сводный рейтинг)
Тема 8 RDF и RDF Schema Ресурсы Графы Бернерса-Ли Идентификаторы
Semantic Web Что такое RDF? RDF Resource Description Framework Модель данных: subject – predicat - object subject (resource identifier) predicate (property name) object (property value) richard home. Tel (229) 276 -5135 cindy email cindym@gmail. com субъект – глагол – объект Ф. Филиппов, доцент СПб. ГУТ им. проф. М. А. Бонч Бруевича
Semantic Web Что такое RDF? RDF www. w 3. org/RDF triple включает три компоненты: • subject • predicate • object - RDF URI reference or a blank node - RDF URI reference, a literal or a blank node http: //www. w 3. org/TR/rdf-concepts/ Ф. Филиппов, доцент СПб. ГУТ им. проф. М. А. Бонч Бруевича
Semantic Web URI и URLs URI Uniform Resource Identifier универсальный идентификатор ресурса URL Uniform Resource Locator универсальный локатор ресурса, разновидность URI Префикс Пространство имен URI Описание rdf http: //www. w 3. org/1999/02/22 -rdf-syntax-ns# Термины справочника RDF dc http: //purl. org/dc/elements/1. 1/ Элементы Дублинского ядра dcterms http: //purl. org/dc/terms/ Термины Дублинского ядра eprint http: //purl. org/eprint/terms/ Термины Eprints foaf http: //xmlns. com/foaf/0. 1/ Термины справочника FOAF Ф. Филиппов, доцент СПб. ГУТ им. проф. М. А. Бонч Бруевича
Описание журнальной статьи на RDF F. Chang, J. Dean, and R. Gruber, "Bigtable: A Distributed Storage System for Structured Data, ACM Trans. Comput. Syst. 26 (2), June 2008. Журнальная статья о Bigtable имеет заголовок «Bigtable: распределенная система хранения структурированных данных» . Журнальная статья о Bigtable написана Fay Chang. Digital Object Identifier (DOI) http: //doi. acm. org/10. 1145/1365815. 1365816 <rdf: RDF xmlns: rdf="http: //www. w 3. org/1999/02/22 -rdf-syntax-ns#" xmlns: dc="http: //purl. org/dc/elements/1. 1/" > <rdf: Description rdf: about="http: //doi. acm. org/10. 1145/1365815. 1365816"> <dc: title>Bigtable: A Distributed Storage System for Structured Data</title> <dc: creator rdf: resource="http: //purl. org/sweb/Authors/google/research/Fay_Chang"/> </rdf: Description> </rdf: RDF>
Извлечение информации об авторах из foaf $ cat rdf/Jeffrey. xml <? xml version="1. 0" encoding="UTF-8" ? > <rdf: RDF xmlns: rdf="http: //www. w 3. org/1999/02/22 -rdf-syntax-ns#" xmlns: dc="http: //purl. org/dc/elements/1. 1/" xmlns: foaf="http: //xmlns. com/foaf/0. 1/" xmlns: eprint="http: //purl. org/eprint/terms/" > <rdf: Description rdf: about="http: //purl. org/sweb/Authors/google/research/Jeffrey_Dean"> <foaf: Person> <foaf: givenname>Jeffrey</foaf: givenname> <foaf: family_name>Dean</foaf: family_name> <foaf: homepage rdf: resource="http: //research. google. com/people/jeff/" /> </foaf: Person> <eprint: affiliated. Institution>Google, Inc. </eprint: affiliated. Institution> </rdf: Description> </rdf: RDF>
Тема 9 Онтологии и OWL Назначение Место Создание http: //www. youtube. com/watch? v=Oz. W 3 Gc_y. A 9 A Ontology http: //www. youtube. com/watch? v=0 cj 8 sh. BSx_k Semantic technology
Semantic Web Что такое онтология? Онтология — формальная спецификация разделяемой концептуальной модели, где §под «концептуальной» моделью подразумевается абстрактная модель предметной области, описывающая систему понятий предметной области, §под «разделяемой» подразумевается согласованное понимание концептуальной модели определенным сообществом (группой людей), § «спецификация» подразумевает описание системы понятий в явном виде, § «формальная» подразумевает, что концептуальная модель является машиночитаемой. Онтология состоит из классов сущностей предметной области, свойств этих классов, связей между этими классами и утверждений, построенных из этих классов, их свойств и связей между ними.
Semantic Web Назначение и типы онтологий
Semantic Web Место онтологий
Semantic Web Этапы создания онтологии
Semantic Web Protege 3. 2 Вопросы, которые вводят в заблуждение: В: Что позволяет делать технология X, чего не позволяет делать связанная с ней технология Y? О: (Обычно) Ничего! В: Что мы можем делать с помощью Protege, чего невозможно с помощью баз данных? О: Ничего! В: Что мы можем делать с помощью баз данных, чего невозможно с помощью файлов? О: Ничего! В: Что мы можем делать с помощью Java, чего невозможно с помощью языка ассемблера? О: Ничего!
Semantic Web Protege 3. 2
Семантический портал на основе онтологии http: //bigc. ru/theory/km/onto_technologies. php
Тема 10 Поиск информации SPARQL Агенты Рейтинг
Semantic Web SPARQL - Protocol and RDF Query Language Описывается множеством спецификаций комитета W 3 C. Аналогично HTML, XML и CSS. Язык запросов SPARQL для RDF Рекомендация W 3 C, 15 января 2008 Текущая версия: http: //www. w 3. org/TR/2008/REC-rdf-sparql-query-20080115/ Последняя версия: http: //www. w 3. org/TR/rdf-sparql-query/ SPARQL - язык запросов к данным представленным по модели RDF, а также протокол для передачи этих запросов и ответов на них. Ф. Филиппов, доцент СПб. ГУТ им. проф. М. А. Бонч Бруевича
Semantic Web SPARQL запросы PREFIX ab: http: //learningsparql. com/ns/addressbook# SELECT ? craig. Email WHERE { ab: craig ab: email ? craig. Email. } -----------------------| craig. Email | ============== | "c. ellis@usairwaysgroup. com" | | "craigellis@yahoo. com" | ------------------------ SELECT ? craig. Email WHERE { <http: //learningsparql. com/ns/addressbook#craig> <http: //learningsparql. com/ns/addressbook#email> ? craig. Email. } Ф. Филиппов, доцент СПб. ГУТ им. проф. М. А. Бонч Бруевича
Semantic Web Поиск в интернете Поисковые системы состоят из трех компонент: – агент (паук или кроулер), который перемещается по Сети и собирает информацию – база данных, которая содержит всю информацию, собираемую пауками – поисковый механизм, который люди используют как интерфейс для взаимодействия с базой данных
Semantic Web Характеристики поиска Полнота охвата ресурсов Полнота отклика системы
Semantic Web Характеристики поиска Перитентность Отношение объема полезной для пользователя информации к общему объему полученной информации, найденной поисковой системой. Релевантность Соответствие полученной информации информационной потребности пользователя.
Semantic Web Рейтинг поисковых систем АНГЛИЯ http: //www. msn. com/ — 41. 9% http: //www. google. com/ — 32. 3% http: //www. yahoo. com/ — 26. 0% http: //www. ifind. freeserve. com/ — 17. 0% http: //www. ask. com/ — 13. 8% ИТАЛИЯ http: //www. virgilio. it/ — 28. 8% http: //www. msn. com/ — 28. 3% http: //www. libero. it/ — 26. 0% http: //www. google. com/ — 22. 8% http: //www. yahoo. com/ — 17. 1% ФРАНЦИЯ http: //www. wanadoo. fr/ — 37. 7% http: //www. msn. com/ — 33. 9% http: //www. free. fr/ — 33. 1% http: //www. google. com/ — 32. 3% http: //www. yahoo. com/ — 23. 4% ГЕРМАНИЯ http: //www. t-online. de/ — 34. 2% http: //www. google. com/ — 34. 1% http: //www. msn. com/ — 29. 5% http: //web. de/ — 19. 7% http: //www. yahoo. com/ — 15. 0 НИДЕРЛАНДЫ http: //www. msn. com/ — 42. 3% http: //www. startpagina. nl/ — 29. 3% http: //www. google. com/ — 27. 3% http: //www. planet. nl/ — 15. 1% http: //www. ilse. nl/ — 14. 5% ШВЕЙЦАРИЯ http: //www. msn. com/ — 33. 6% http: //www. google. com/ — 32. 0% http: //www. bluewin. ch/ — 28. 2% http: //www. yahoo. com/ — 14. 8% http: //www. search. ch — 11. 9% ИСПАНИЯ http: //www. msn. com/ — 35. 6% http: //www. google. com/ — 30. 2% http: //www. terra. es/ — 20. 7% http: //www. yahoo. com/ — 20. 5% http: //www. wanadoo. es/ — 17. 9% РОССИЯ http: //www. yandex. ru/ — 54. 8267% http: //www. rambler. ru/ — 21. 7645% http: //www. google. com/ — 15. 6207% http: //www. mail. ru/ — 4. 5466% http: //www. aport. ru/ — 1. 5788% ШВЕЦИЯ http: //www. msn. com/ — 42. 7% http: //www. google. com/ — 16. 0% http: //www. passagen. se/ — 15. 5% http: //www. spray. se/ — 14. 5% http: //www. eniro. se/ — 21. 1% WWW http: //www. google. com/ — 46. 2% - 9 http: //www. yahoo. com/ — 22. 5% - 6 http: //www. msn. com/ — 12. 6% - 8
Semantic Web Глоссарий HTML — Hypertext Markup Language (Язык Разметки Гипертекста). Язык, предназначенный для описания форматирования текста, задания ссылок и других элементов веб страниц. XML — e. Xtensible Markup Language (Расширяемый Язык Разметки). Язык разметки, похожий на HTML, но поз во ляю щий каждому за да вать и ис поль зо вать свои соб ст вен ные тэги Ресурс — термин из Сетевого лексикона для обозначения объектов (сущностей). Ими могут быть веб страницы, части веб страниц, устройства, люди и другое. URL — Uniform Resource Locator (Единообразный Локатор Ресурсов). Знакомые каждому из нас адреса (например, http: //www. scientificamerican. com/), используемые в гиперссылках. URI — Universal Resource Identifier (Универсальный Идентификатор Ресурса). Типичными примерами URI идентификаторов являются URL адреса. URI иден ти фи ка тор определяет или ссылается на некую сущность, не обязательно при этом указывая на её местонахождение в Сети. RDF — Resource Description Framework (Система Описания Ресурсов). Схема для задания информации в Сети. RDF представляет собой технологию для выражения смысла терминов и понятий в виде, легко обрабатываемом компьютером. RDF использует синтаксис языка XML и URI идентификаторы для указания объектов, понятий, свойств и отношений. Онтология (OWL - Ontology Web Language) Совокупность утверждений, записанных в языке наподобие RDF, задающих отношения между понятиями и определяющих логические правила для рассуждений о них. Компьютеры могут «понимать» смысл семантических данных на веб страницах, следуя по ссылкам, ведущим на онтологии. Агент Программа, работающая без непосредственного управления со стороны человека или другого постоянного контроля достижения целей, поставленных перед ней пользователем. Обычно агенты собирают, фильтруют и обрабатывают информацию, найденную в Сети, иногда с дополнительной помощью со стороны других агентов. Обнаружение сервисов (service discovery) Процесс отыскания в Сети агента или автоматизированного веб сервиса, который может выполнить требуемую функцию. Семантика позволит агенту описывать (для других агентов), какие именно функции он может выполнять и какие входные данные ему требуются.
Электронная (цифровая) подпись Использование ЭП позволяет: • значительно сократить время, затрачиваемое на оформление сделки и обмен документацией; • усовершенствовать и удешевить процедуру подготовки, доставки, учета и хранения документов; • гарантировать достоверность документации; • минимизировать риск финансовых потерь за счет повышения конфиденциальности информационного обмена; • построить корпоративную систему обмена документами.
http: //www. youtube. com/watch? v=rhg. UDGt. T 2 EM
http: //www. w 3. org/2002/03/semweb/ http: //www. xml. com/pub/a/2000/11/01/semanticweb/ http: //rdfweb. org/2002/01/photo/index. html
http: //www. youtube. com/watch? NR=1&v=2 bl_bs. Ybiu. Q&feature=endscreen
http: //www. youtube. com/watch? feature=endscreen&v=jf. UPLu. PL 3 Ho&NR=1
04__структурирование знаний .ppt