b2ca12397c62e998938d19ccb8067052.ppt
- Количество слайдов: 78
Ontológie v kontextu sémantického webu Július Štuller, Martin Řimnáč, Radim Nedbal ÚI AV ČR 10. januára 2005 Seminár projektu Sémantický web
Obsah • Tim Berners-Lee a jeho vízia – Vrstvy sémantického webu • XML • RDF • Ontológie v. Protegé 2000 v. Tutorial • Logika • Agenti 10. januára 2005 Seminár projektu Sémantický web 2
Sémantický web • Tim Berners-Lee, James Hendler & Ora Lassila (Scientific American 284(5), 2001) – Väčšina dnešného Webu • navrhnutá, aby ju mohol čítať človek (v prirodzenom jazyku) • nie je zmysluplne spracovateľná počítačom (~ počítačovým programom). ( ~ efektívne ) – médium • dokumentov (a služieb) určených ľuďom skôr ako • údajov a informácií, ktoré môžu byť spracované automaticky (počítačom). – Počítačový program môže síce úspešne prechádzať webové stránky s cieľom rozpoznania ich štruktúry („header“, odkaz), a za účelom ich následného rutinného spracovania – Počítače však nemajú spoľahlivý spôsob ako spracovať sémantiku (na rozdieľ od človeka) webových stránok (toto je domovská stránka ÚI AV ČR, tento odkaz je na CV Romana Nerudy. ) 10. januára 2005 Seminár projektu Sémantický web 3
Sémantický web • … rozšírením súčasného webu, • • v ktorom • je informáciám daný presne definovaný význam, • bude umožnené počítačom a ľuďom lepšie spolupracovať. Prvé kroky na vnorenie sémantického webu do štruktúry existujúceho webu sa už podnikajú … Swoogle V blízkej budúcnosti očakávaný rozvoj by mal vyústiť do • významných nových funkčností tým, že • počítače budú podstatne výkonnejšie pri • spracovaní a porozumení údajov (ktoré v súčasnosti iba zobrazujú). ~ machine understandable: (Software) Intelligent agents need not to understand information but to process it effectively … ISWC 2004: Awards Winners 10. januára 2005 Seminár projektu Sémantický web 4
Obsah • Tim Berners-Lee a jeho vízia – Vrstvy sémantického webu • XML • RDF • Ontológie • Logika • Agenti 10. januára 2005 Seminár projektu Sémantický web 5
Vrstvy sémantického webu Verohodnosť Logika a Ontologie RDF XML Infraštruktúra (URI, Unicode) 10. januára 2005 Seminár projektu Sémantický web 6
Vrstvy sémantického webu 10. januára 2005 Seminár projektu Sémantický web 7
Unicode • Standard – universal character encoding scheme – for written characters and text • consistent way of encoding • multilingual text • exchange of text data internationally (foundation for global software. ) 10. januára 2005 Seminár projektu Sémantický web 8
Unicode • Default encoding of HTML (and XML) – required in new Internet protocols and – implemented in all modern • operating systems and • computer languages (such as Java) basis of software that must function all around the world. 10. januára 2005 Seminár projektu Sémantický web 9
Unicode • IT industry – gains data stability • instead of proliferating character sets – greater • global interoperability • data interchange – simplified software – reduced development costs. 10. januára 2005 Seminár projektu Sémantický web 10
Unicode • Modeled on the ASCII character set – far beyond ASCII's limited ability to encode only the upper- and lowercase letters A through Z. – capacity to encode all characters used for the written languages of the world ( > 1 million characters can be encoded) 10. januára 2005 Seminár projektu Sémantický web 11
Unicode • (No escape sequence or control code is required to specify any character in any language …) • alphabetic characters and symbols are treated equivalently, which means they can be used in any mixture and with equal facility … 10. januára 2005 Seminár projektu Sémantický web 12
Unicode • Wide ASCII 10. januára 2005 Seminár projektu Sémantický web 13
Unicode • 2 encoding forms: – a default 16 -bit form and – a byte-oriented form called UTF-8 (for ease of use with existing ASCII-based systems) • The Unicode Standard, Version 3. 0, is code -for-code identical with International Standard ISO/IEC 10646. 10. januára 2005 Seminár projektu Sémantický web 14
Unicode • Using a 16 -bit encoding: >65, 000 characters. – Sufficient for characters used in the major languages of the world • Unicode Standard and ISO/IEC 10646 provide the UTF-16 extension mechanism (“surrogates” in the Unicode Standard) 10. januára 2005 Seminár projektu Sémantický web 15
Unicode • ~ 1 million additional characters – Sufficient for • all known character encoding requirements, – including full coverage of all historic scripts of the world. 10. januára 2005 Seminár projektu Sémantický web 16
Vrstvy sémantického webu 10. januára 2005 Seminár projektu Sémantický web 17
Tim Berners-Lee • Tvorca – WWW – HTML – HTTP – URI 10. januára 2005 (World Wide Web) (Hyper. Text Markup Language) (Hyper. Text Transfer Protocol) (Uniform Resource Identifier) Seminár projektu Sémantický web 18
Uniform Resource Identifier URI: identifikátor zdroja, objektu (na Webu), najbežnejší je tzv. • URL (Universal Resource Locator) • http: //www. cs. cas. cz URN (Universal Resource Name) ( ~ http: //147. 231. 6. 1) • (Syntax je striktne regulovaná medzinárodnou organizáciou Internet Engineering Task Force - IETF, smernica RFC 2396 obecná špecifikácia URI identifikátorov) • WWW Konzorcium – WWW Consortium – W 3 Consortium - W 3 C (viac ako 360 organizácíí) udržuje zoznam tzv. URI schém 10. januára 2005 Seminár projektu Sémantický web 19
Vrstvy sémantického webu 10. januára 2005 Seminár projektu Sémantický web 20
Vrstvy sémantického webu Verohodnosť Logika a Ontologie RDF XML Infraštruktúra (URI, Unicode) 10. januára 2005 Seminár projektu Sémantický web 21
Sémantický web Prinesie • štruktúru zmysluplnému obsahu webových stránok • vytvorí prostredie, v ktorom softwaroví agenti • putujúci zo stránky na stránku budú naozaj schopní vykonávať sofistikované úlohy pre užívateľov. 10. januára 2005 Seminár projektu Sémantický web 22
Súčasný web 10. januára 2005 Seminár projektu Sémantický web 23
Sémantický web 10. januára 2005 Seminár projektu Sémantický web 24
Sémantický web Podmienka • aby počítače mali prístup k – štruktúrovaným kolekciám informácií a – súborom inferenčných (odvodzovacích) pravidiel umožňujúcim im prevádzať automatizované usudzovanie. • Pridanie logiky do webu (nástrojov na – využívanie pravidiel umožňujúcim prevádzať usudzovanie – výber chodu činností a – dávanie odpovedí na otázky) je úlohou, ktorá stojí v súčasnosti pred komunitou sémantického webu. (~ Reprezentácia znalostí, Umelá inteligencia) 10. januára 2005 Seminár projektu Sémantický web 25
Vrstvy sémantického webu 10. januára 2005 Seminár projektu Sémantický web 26
Sémantický web • 2 dôležité technológie pre rozvoj sémantického webu existujú už dnes: – e. Xtensible Markup Language (XML) – Resource Description Framework (RDF) 10. januára 2005 Seminár projektu Sémantický web 27
Vrstvy sémantického webu 10. januára 2005 Seminár projektu Sémantický web 28
Tim Berners-Lee • Tvorca – WWW – HTML – HTTP – URI 10. januára 2005 (World Wide Web) (Hyper. Text Markup Language) (Hyper. Text Transfer Protocol) (Uniform Resource Identifier) Seminár projektu Sémantický web 29
Hyper. Text Markup Language HTML: (MS IE: zobraziť -> zdrojový kód …) <HTML> <HEAD> <TITLE> Hájkův logický seminář – 5. januára 2005 </TITLE> </HEAD> <BODY BGCOLOR=“WHITE”> <H 2> <CENTER> Sémantický web, ontológie a logika </CENTER> </H 2> </BODY> </HTML> 10. januára 2005 Seminár projektu Sémantický web 30
HTLM: Príklad 1 10. januára 2005 Seminár projektu Sémantický web 31
HTLM: Príklad 1 <HTML> <HEAD> <TITLE> Hájkův logický seminář – 5. januára 2005 </TITLE> </HEAD> <BODY BGCOLOR=“WHITE”> <H 2> <CENTER> Sémantický web, ontológie a logika </CENTER> </H 2> </BODY> </HTML> 10. januára 2005 Seminár projektu Sémantický web 32
HTLM: Príklad 2 10. januára 2005 Seminár projektu Sémantický web 33
HTLM: Príklad 2 10. januára 2005 Seminár projektu Sémantický web 34
HTML „Značkovací” jazyk • • • (značka ~ tag) pre tvorbu webových stránok výhoda: jednoduchosť nevýhoda: množina (použiteľných) tagov je pevne daná • SGML (Standard Generalized Markup Language, ISO 8879 Standard) for the definiton of – device- & system-independent methods of representing information, • both human- & machine-readable 10. januára 2005 Seminár projektu Sémantický web 35
e. Xtensible Markup Language (XML) • SGML application (similarly as HTML) • Dovoľuje každému vytvoriť jeho vlastné značky (tags) – skryté označenia, ktoré popisujú (anotujú) webové stránky (alebo časti textu na stránke, dokumentu …) Kutuzovova 23 Bratislava 831 03 <adresa> <ulica> Kutuzovova 23 </ulica> <mesto> Bratislava </mesto> <psč> 831 03 </psč> </adresa> 10. januára 2005 Seminár projektu Sémantický web 36
XML • Programy (tzv. scripty) môžu využívať tieto • značky sofistikovaným spôsobom (Človek, ktorý píše konkrétny script, musí však vedieť akým spôsobom tvorca danej stránky využíva každú z použitých značiek) V krátkosti, XML dovoľuje – dodávať ľubovolnú štruktúru dokumentom – avšak nevypovedá nič o tom, čo daná štruktúra znamená. 10. januára 2005 Seminár projektu Sémantický web 37
XML • Metalanguage for markup – XML applications • (extensions -> extensible) – Math. ML – BSML (bioinformatics) – AML (astronomy) – News. ML – HRML (human resources) … 10. januára 2005 Seminár projektu Sémantický web 38
XML Document • Prolog <? xml version=“ 1. 0” encoding=“UTF-16”? > • standalone=“no” <!DOCTYPE book SYSTEM “book. dtd”> • V súbore book. dtd sa potom nachádza informácia o štruktúre XML dokumentu • Miesto súboru može byť URL • Ak majú byť obaja, miesto SYSTEM bude PUBLIC 10. januára 2005 Seminár projektu Sémantický web 39
XML Document • Element(s) • Attribute(s): name-value pair • Comment(s) • Processing Instructions (PI) • Well-Formed XML Document(s): – Syntactically correct • Tree Model of XML Document 10. januára 2005 Seminár projektu Sémantický web 40
XML Document Structure • Document Type Definition (DTD) – Internal DTD – External DTD • XML Schema • Namespaces: – disambiguation in name’ clashes 10. januára 2005 Seminár projektu Sémantický web 41
XML - Summary • Metalanguage allowing definition of markup for documents (using tags) • Nesting of tags introduces structure – Can be enforced using schemas or DTD • Separate content & structure from formatting • De facto standard for the representation of structured information on the web 10. januára 2005 Seminár projektu Sémantický web 42
XML - Summary • Support exchange of structured information across different applications trough – – – markup structure and transformations • Querry languages • Semantics of XML documents is not accessible to machines, only to people … 10. januára 2005 Seminár projektu Sémantický web 43
XML - Summary • Hints on – meaning and – relation of data: • possibly meaningful names for tags • nesting of tags (tags inside tags) 10. januára 2005 Seminár projektu Sémantický web 44
Shortcomings of XML • Requires pre-arranged agreement on – Domain specific vocabulary – Modelling primitives • Only feasible for closed collaboration – agents in a small & stable community – pages on a small & stable intranet – not for sharable web-resources … 10. januára 2005 Seminár projektu Sémantický web 45
Vrstvy sémantického webu 10. januára 2005 Seminár projektu Sémantický web 46
Resource Description Framework • Štandard konzorcia W 3 C • Model pre reprezentáciu dát • Základ pre spracovanie metadát • Vyjadruje význam (sémantiku), ktorý reprezentuje súborom trojíc, každá trojica pripomínajúca skôr podmet, prísudok a predmet tzv. elementárnej vety. 10. januára 2005 Seminár projektu Sémantický web 47
RDF • Trojice je možné zapísať pomocou značiek XML. Podmet Prísudok Predmet <vystúpenie> </vystúpenie> Mária Bieliková prednášať Agilné metódy vývoja softvéru <účastník> <konať> <prednáška> (zdroj) (vlastnosť) (hodnota) Mária Bieliková prednášať Agilné metódy vývoja softvéru objekt atribút hodnota </účastník> </konať> </prednáška> • Dokument v RDF tvrdí, že • dané objekty (ľudia, webové stránky alebo čokoľvek iného) • majú vlastnosti (ako napr. „byť účastníkom, " „prednášať") • s určitými hodnotami (konferencie, prezentáciu). 10. januára 2005 Seminár projektu Sémantický web 48
RDF – Uvádzaná štruktúra (trojíc: podmet – prísudok – predmet) prirodzeným spôsobom popisuje prevážnu väčšinu údajov spracovávaných počítačmi. • Podmet i predmet je možné jednoznačne identifikovať pomocou URI / URL. • Prísudky je možné tiež identifikovať pomocou URI, čo umožňuje každému definovať • nový koncept, nové sloveso, definovaním určitého URI pre neho niekde na webu. 10. januára 2005 Seminár projektu Sémantický web 49
RDF: Príklad <rdf: RDF> <rdf: Description rdf: about=“http: //www. dcs. elf. stuba. sk/~bielik“ <p: prednáška> Agilné metódy vývoja softvéru </p: prednáška> </rdf: Description> </rdf: RDF> 10. januára 2005 Seminár projektu Sémantický web 50
RDF Trojica (x, P, y) • može byť chápaná ako logická formula • P(x, y) – kde predikát P „spája“ objekt x a objekt y v RDF má iba binárne predikáty … • Grafová reprezentácia (AI: sémantická sieť) 10. januára 2005 Seminár projektu Sémantický web 51
RDF - Summary • XML-based syntax – not a language (like XML - although it has an XML syntax, but also other syntaxes) • Data model: – describes how data should be interpreted and used • Graph-based model: v Resource v Property v Statement 10. januára 2005 Seminár projektu Sémantický web 52
RDF - Summary • Adds commitment to the meaning of XML tags: – Description describes a resource – Every element nested in a Description is a property of that resource … 10. januára 2005 Seminár projektu Sémantický web 53
RDF - Summary • Foundation for – representing & – processing metadata • Incremental building of knowledge, its sharing & reuse • Domain-independent 10. januára 2005 Seminár projektu Sémantický web 54
RDF Schema • RDFS define vocabulary / taxonomy – Classes & properties • Class Hierarchies (& Inheritance) – Class, sub. Class. Of, type • Property Hierarchies – Property, sub. Property. Of – domain, range 10. januára 2005 Seminár projektu Sémantický web 55
RDFS Terminology and Semantics • Classes and a class hierarchy – All classes are instances of rdfs: Class – A class hierarchy is defined by rdfs: sub. Class. Of • Instances of a class – Defined by rdf: type • Properties – Properties are global: A property name in one place is the same as the property name in another (assuming the same namespace) – Properties form a hierarchy, too (rdfs: sub. Property. Of) 10. januára 2005 Seminár projektu Sémantický web 56
Property Constraints in RDFS • Cardinality constraints – No explicit cardinality constraints – Any property can have multiple values • Range of a property – a property can have only one range • Domain of a property – a property can have more than one domain (can be attached to more than one class) • No default values 10. januára 2005 Seminár projektu Sémantický web 57
What is this? <rdf: Description ID="Truck"> <rdf: type resource="http: //www. w 3. org/2000/01/rdf-schema#Class"/> <rdfs: sub. Class. Of resource="#Motor. Vehicle"/> </rdf: Description> • RDF: triples – data model – meaning of Description, ID and resource is interpreted Subject 1. 2. Predicate Object ‘Truck’ rdf: type rdfs: sub. Class. Of #Class #Motor. Vehicle Seminár projektu Sémantický web 58 10. januára 2005
And what is this? <rdf: Description ID="Truck"> <rdf: type resource="http: //www. w 3. org/2000/01/rdf-schema#Class"/> <rdfs: sub. Class. Of resource="#Motor. Vehicle"/> </rdf: Description> • RDF Schema: class hierarchy – different data model – meaning of type and sub. Class. Of is interpreted • Truck v is-a • Motor. Vehicle 10. januára 2005 Seminár projektu Sémantický web 59
RDF Schema - Summary • RDF Schemma allows description of specific domains 10. januára 2005 Seminár projektu Sémantický web 60
Retrospection • Different animals: – XML: meta-language – RDF: data model • Languages build on each other: – XML: define tags for specific purposes – RDF: agreement on meaning of some tags • Examples: <Description>, type, ID • Semantics: datamodel - subject, predicate, object – RDF Schema: agreement on meaning of some more tags • Examples: <Class> <Property> sub. Class. Of • Semantics : extension of DM: class- and property hierarchy 10. januára 2005 Seminár projektu Sémantický web 61
Axiomatic Semantics for RDF • Constants: Resource, Class, Property, … • Auxiliary theory of lists: nil, cons(x, l), … (used to represent constraints like “cardinality constraints”, …) • Axioms provide typing information: Type (sub. Class. Of, Property) • PL with = • Variable names begins with ? 10. januára 2005 Seminár projektu Sémantický web 62
RDF & RDF Schema • Axiomatic semantics for RDF and RDFS – Automated reasoning with RDF and RDFS • 1 st order logic proof system 10. januára 2005 Seminár projektu Sémantický web 63
RDF & RDFS • Direct Inference System for RDF & RDFS – Few dozen of rules “IF … THEN …” – Efficiently implemented • RQL … 10. januára 2005 Seminár projektu Sémantický web 64
Reification Grigoris believes Frank is the creator of the web page http: //www. cit. gu. edu. au/~db • Statement about statement … • Introduce of auxiliary object (belief) & relate it to each of the 3 parts of the original statement through the properties subject, predicate and object … 10. januára 2005 Seminár projektu Sémantický web 65
Vrstvy sémantického webu Verohodnosť Logika a Ontologie RDF XML Infraštruktúra (URI, Unicode) 10. januára 2005 Seminár projektu Sémantický web 66
Vrstvy sémantického webu 10. januára 2005 Seminár projektu Sémantický web 67
Ontológie • Tretiu základnú komponentu sémantického webu tvoria: kolekcie informácií nazývané ontológie. (Filozofia: ontológia je teória – o podstate bytia (existencie), – o type vecí, ktoré existujú; Ontológia ako vedná disciplína študuje práve takéto teórie) 10. januára 2005 Seminár projektu Sémantický web 68
Ontológia • Umelá inteligencia, databázové systémy a web: Dokument alebo súbor, ktorý formálne definuje vzťahy medzi pojmami. • T. R. Gruber (refined by R. Studer): – An ontology is an explicit and formal specification of a conceptualization. • Najtypickejší druh webovej ontológie je tvorený: – taxonómiou a – súborom inferenčných pravidiel. 10. januára 2005 Seminár projektu Sémantický web 69
Taxonómia definuje • triedy objektov a • vzťahy medzi nimi. Triedy, podtriedy a vzťahy medzi entitami sú veľmi silným nástrojom (pre potreby webu). Je možné vyjadriť veľké množstvo vzťahov medzi entitami: - priradením vlastností triedam a - dovoliac podtriedam dediť takéto vlastnosti. 10. januára 2005 Seminár projektu Sémantický web 70
RDF Schema primitive ontology language • class • subclass relation • property • subproperty relation • domain & range restrictions … 10. januára 2005 Seminár projektu Sémantický web 71
Ontology Languages • Requirements – Well-defined syntax – Formal semantics – Convenience of expression – Efficient reasoning support – Sufficient expressive power 10. januára 2005 Seminár projektu Sémantický web 72
Ontology Languages • RDF (binary predicates) & RDFS (subclass & property hierarchy, with domain & range constraints of properties) • DAML+OIL (USA + Europe) • OWL (W 3 C Web Ontology WG ) 10. januára 2005 Seminár projektu Sémantický web 73
DAML+OIL: Classes And a Class Hierarchy • Classes – Each class is an instance of daml: Class • Class hierarchy – Defined by rdfs: sub. Class. Of • More ways to specify organization of classes – Disjointness (daml: disjoint. With) – Equivalence (daml: same. Class. As) • The class hierarchy can be computed from the properties of classes 10. januára 2005 Seminár projektu Sémantický web 74
More Ways To Define a Class in DAML+OIL • Union of classes A class Person is a union of classes Male and Female • Restriction on properties A class Red Thing is a collection of things with color: Red • Intersection of classes A class Red Wine is an intersection of Wine and Red Thing • Complement of a class Carnivores are all the animals that are not herbivores • Enumeration of elements A class Wine Color contains the following instances: red, white, rosé 10. januára 2005 Seminár projektu Sémantický web 75
Property Constraints in DAML+OIL • Cardinality – Minimum, maximum, exact cardinality • Range of a property – can include multiple classes: the value of a property must be an instance of each of the classes – Can specify explicit union of classes if need different semantics • Domain of a property – same as range • No default values 10. januára 2005 Seminár projektu Sémantický web 76
OWL • (Partially) „mapped“ on a Description Logic (DL) – subset of Predicate Logic for which efficient reasoning support is possible • Existing reasoners Fa. CT & RACER can be used … 10. januára 2005 Seminár projektu Sémantický web 77
Protegé 2000 • Martin a Radim … 10. januára 2005 Seminár projektu Sémantický web 78
b2ca12397c62e998938d19ccb8067052.ppt