8e6c60f2c90acec79b26048d27cab6ee.ppt
- Количество слайдов: 109
清华方案要点 l 信息共建共享服务网 l 引文链接和服务 l 搜索引擎 l 知识元数据库 1
发言提纲 l 清华方案的技术特点、优势和难点 l 以知识管理和服务为起点第二次创业 l 信息服务领域的技术进步 2
清华方案的特点 l 适应信息资源整合的客观需要 l 数据库生产者向信息服务提供者演化 l 服务领域的合理拓展 l 迈向知识管理和开发的新高度 l 为进一步产业化打下更宽阔的基础 3
优势分析 l CNKI的信息资源和业绩(经验教训) l 信息化形势带来的强劲发展动力 l 高校技术力量强势群体 l Cernet现有网络平台的支持 l 可在信息技术、运作模式、技术标准等 最新起点和高度上起步, 减少风险, 避免 教训, 缩短发展周期 4
难点和瓶颈 l 从封闭(期刊数据库)资源到开放(网络搜 索引擎)资源的技术难点 l 从信息服务向知识服务的技术难点 l 从独立经营到多赢模式的联合经营的环 境因素 l 开发新技术和建设新的信息基础结构与 现有人力资源的矛盾 5
以知识管理和服务为起点 第二次创业 6
知识型信息服务的必然性 l 信息爆炸:信息海洋和信息垃圾 l 开发广度:浅海网和深海网 l 开发深度:信息容器和信息内容 l 管理层次:信息管理和知识管理 l 信息提供:药店服务和对症处方 l 以谁为主:系统中心和面向个人 7
信息爆炸 8
1999年世界范围静态信息生产量 (单位:TB, 千千兆, 1012字节) 介质 媒体形态 产量/上限 产量/下限 增长率 纸张 图书 报纸 期刊 办公文件 小计 音乐光盘 数据光盘 DVDs 小计 8 25 12 195 240 58 3 22 83 1 2 1 19 23 6 3 22 31 2 2 2 3 2 100 70 数字摄象磁带 个人计算机硬盘 部门服务器 单位服务器 小计 300, 000 766, 000 460, 000 167, 000 1, 693, 000 2, 120, 539 300, 000 7, 660 161, 000 108, 550 577, 210 635, 480 5 100 100 55 50 光学介质 磁介质 总计 9
英语表示兆以上命名法 MB GB TB PB EB mebi gibi tebi pebi exbi megabyte gigabyte terabyte petabyte exabyte ( ( ( 106 ), 109 ), 1012), 1015), 1018), ( ( ( ( million, billion, trillion, 1 MB=1000 KB 兆 1 GB=1000 MB 1000兆 1 TB=1000 GB 万亿兆兆 1 PB=1000 TB 1000万亿兆 quintillion, 1 EB=1000 PB 万万亿兆 1021), sextillion, 1024), septillion, 1027), septillion, 1030), septillion, 1033), septillion, 1036), septillion, 10303), centillion, 10
目前常用前缀及其意义 Prefix Symbol(s) Power of 10 Power of 2 k or K ** 103 210 mega- M 106 220 giga- G 109 230 tera- T 1012 240 peta- P 1015 250 exa- E 1018 * 260 kilo- * Not generally used to express data speed ** k = 103 and K = 210 11
表示二进制数量的前缀(新建议) Full technical name Proposed prefix Proposed symbol Numeric multiplier kilobinary kibi- Ki 210 megabinary mebi- Mi 220 gigabinary gibi- Gi 230 terabinary tebi- Ti 240 petabinary pebi- Pi 250 exabinary exbi- Ei 260 12
世界信息总量 l全世界每年生产信息 1 x 1018 2 x 1018 字节信息, 大 约为全世界每人 250 MB字节。 l印刷体只占 0. 003%, 磁介质 93%。 l. Email达 11, 285 TB。 l. Usenet 73 TB。 l 2000年WWW公共浏览网页 21亿, 平均每个网页 10 K数据, 每年新增 700万网页。2001年网页将达到 40亿。 l众多数据库以非网页形式存储 7, 500 TB数据, 包含 5, 500亿记录或文件。 13
数字化信息量举例 l l l l l 音乐作品(莫扎特):约 100 MB 报纸(华尔街杂志): 100 MB/年(文本) 卡片目录(美国国会图书馆): 17 GB 广播(WABC) : 270 GB/年(未经压缩) 网络论坛(Netnews): 300 GB/年 地区图书馆(加州大学图书馆): 1. 4 TB(图书扫描版) Internet出版(WWW): 1997年约 4 TB 电视(CNN新闻): 1 GB/1小时, 6 TB/年(经压缩) 录像带出租(Blockbuster Video): 9 TB 科研图书馆(美国会图书馆):全部图书馆数字化 20 TB 来源:美国伯克利加州大学教授Peter Lyman和Alex Internet 公司总裁Brewster Kahle所著《文化制品数字化存档行动纲要 》。 14
网络爆炸 l l l l 9. 6 million web servers as of Dec 1999 72. 4 million web sites as of Jan 2000 275 million people online as of Mar 2000 800 million publicly indexable pages 180 million images 30% web pages are copied or mirrored 1 billion hyperlinks 15
网络信息资源的挑战 l 数量巨大 – No single search engine indexes more than 16% of web sites – All search engines combined covering only 42% l 极端异质 – – – l Variable information value Variable length Often containing grammatical mistakes and typos Content may be outdated, false, or unreliable Multiple data formats Multiple languages and alphabets 速度问题 – 15, 000 ~ 20, 000 search queries requested per minute 16
Internet 利用量 l Internet 用户: 30 to 300 million in 2001 l Internet 流量: 每 70 天翻一番 l 电子商务: 2002年 1. 3 万亿美元 l 1997年PC台数销售量超过 TV 17
信息检索的问题 l 查找非结构信息有困难 – 多数数据库在结构化字段上 作 – 多数商业信息是非结构化的. l l 报告、电子邮件、来往公函. . . 美国商业每年产生 4500亿份文件 波音 747文件比飞机重量还重 索引是主观的 – 索引者之间不一致, 经验统计表明索引者之间仅20% 相同. – 作者与索引者之间、检索者与用户之间不一致. l 信息超载 – 信息太多, 需要过滤 – 检索结果垃圾太多, – 有害信息太多 18
信息检索的问题 l 语言问题 – 一词多意: l l l Bank: a river boundary or a savings and loans? DNA: microbiology or Digital Equipment Corporation’s Network Architecture? Free rider: Economic game theory or urban transportation systems? – 一意多词: l l Blair example (p. 295): trap correction, wire warp, shunt correction system, roman circle method, air truck, . . . Car, automobile, vehicle, sedan, horseless carriage. . . –. 19
Search Engines 20
主题树 (目录型网站) 覆盖小, 质量高 的网站 l 150 editors l 1. 2 million web links l 200 editors l 1 million web links l 700 subcategories l Overseen by professional guides l Provides Encyclopedia Britannica l Provides articles from top magazines l Contributed by the web community l 16, 000 editors, 14, 000 subcategories 21
搜索引擎 Internet内容数据库 l 340 million pages l Fastest engine with parallel processing l Offers 6, 200 full-text journals, books, etc. l Grouping of sear results in categories l 250 million pages l Image search and language translation l Uses Page. Rank algorithm l Ranking based on popularity (links) l Natural language processing technology l More than 7 million FAQs 22
搜索引擎的问题 23
搜索引擎仅覆盖 网络流量的一小部分 24
搜索引擎规模 Service GG=Google, FAST=FAST, AV=Alta. Vista, INK=Inktomi, WT=Web. Top. com, NL=Northern Light, EX=Excite Searches Per Day Google Alta. Vista Inktomi Direct Hit FAST Go. To Ask Jeeves 100 million 50 million 80 million 20 million 12 million 5 million 4 million 25
Spiders for Search Engines l Create a queue of pages to be explored – Depth-first: high load on servers – Breath-first: favors smaller web servers – Best-first: based on popularity heuristic Choose a page Add to queue Fetch page content, extract all links Process page to extract information Where to explore next? l What information to keep? – Titles+headers vs. whole Database document – Manual description vs. automated abstracts 26
拖曳网 搜索引擎仅 在信息海洋表面上拖曳 27
深海网 28
深海网 l 深海网比浅海网大 500 倍 l 95% 深海网是公开的和可免费获取的 l 深海网内容质量高 1000+ 倍 l 7, 500 TB信息量 l 目前有45, 000 浅海网搜索引擎 29
知道我们所不知道的 l我们应该知道什么 What we know that we should know l我们知道什么 What we know that we do know l我们不知道什么 What we know that we do not know l别人知道什么 What we know that others know l我们不知道有什么我们不知道 What we don’t know that we don’t know 30
不知道我们所不知道的 "We struggle between 1% of what we know and , 1% of what we don’ t know, but rarely come across the 98% of what we don’ t know that we don t know. " 31
“草垛找针” g已知草垛查找已知的针 g未知草垛查找已知的针 g已知草垛查找已知的针 g未知草垛查找未知的针 g一个草垛查找任何的针 g一个草垛查找最锋利的针 g一个草垛查找大部分最锋利的针 g一个草垛查找任何的针 g确认一个草垛没有针 g任何草垛查找有没有类似针的东西 g草垛出现新的针时通知 g草垛在哪里? g有关针和草垛的任何信息都有关 32
信息资源的控制成为全球性难题 l l l l 信息发布具有自由性和任意性, 难于控制和管理 分布、分散、无序、无政府、经常变动、无限数量、 包罗万象、 真伪并存, 资源信息和非资源信息难于驾御 非规范、非结构 检索查全和查准提出新的挑战 多媒体、多语种、多类型信息的整合提出新的挑战 跨国界数据传递和流动, 带来政治、外交、文化新问题 集成多种(正式和非正式等)交流方式 33
目前对付挑战的能力有限 以文本信息、显性知识为主 l 以非结构信息为主 l 以系统为中心 l 以信息提供为目的 l 以相对简单的信息技术开发 l l 以正面效益为衡量标准 34
知识型科技信息服务主要标志 q 控制信息 q 管理知识 q 提供知识 q 以人为本 35
知识型科技信息服务(1) 控制信息 信息资源是一把双刃剑。信息资源一般是指有用的具 有现实可用性的信息,但信息资源也包含无关、失效、 虚假、错误、有害信息等“非资源”信息。它既给社会 带来正面效益, 也带来信息负效应。 l 垃圾信息。奈斯比特说:“没有经过整理的信息不是我 们的朋友, 甚至是我们的敌人。当然更不是财富和资源。 l 现有的信息服务把主要目标集中在发挥信息资源正面 效益上, 这是无可非议的, 但对负面影响无能为力或视为 旁业是不符合社会信息化要求的。 l 知识型信息服务对信息资源的开发, 应该把正面效应发 挥到最大, 而把负面效应控制到最小。 l 36
知识型科技信息服务(2) 管理知识 知识管理是在信息管理基础上发展的, 两者相互衔接。 l 知识有显性知识和隐性知识之分。隐性知识比显性知 识更能激活灵感和启发创新, 是一种更有价值的知识。 新型信息服务, 要超越显性知识, 要設法獲取隐性知识。 l 显性知识的管理来源于传统的信息管理,所用的手段 与方法较信息管理更加先进和完善,是信息管理的深 化与发展。 l 显性知识管理将极大地提高企业的信息处理能力和知 识处理能力,隐性知识管理则将极大地提高企业创新 能力,而整个知识管理将二者相结合,将极大地增加 企业的应变能力与预测能力,提高决策与管理的效率, 从而增强企业竞争力。 l 37
知识型科技信息服务(3) 提供知识 目前信息资源开发, 主要是对数据和信息进行采集、编 目前 码、数字化、存贮、分类、组织、控制、加 、处理、 传输 、检索、计算等,通过图书馆书目、联机检索、 搜索引擎、网上浏览等提供信息, 让用户用自己的大脑 判断信息有用或有害并将信息加 、吸收、提取或评 价变成知识, 存在于个人脑中。 l 现在, 信息服务业可以充分利用新的信息技术, 用数据仓 库、数据挖掘、数据库知识发现、人 智能技术等获 取信息中隐含的知识, 用大型数据库、新型检索技术、 智能代理、搜索引擎等存储与传播知识, 用网络技术、 组件技术等保证知识的充分共享。 l 知识型信息服务的任务不仅要把信息需求者带引到信 息大门,而且要帮助他们深入信息去获取能够带来时 间、财富、效率 效益的知识, 帮助他们走进各自的知识 38 王国去寻找和创造新的生产力。 l
知识型科技信息服务(4) 以人为本 l l l l l 个性化 精密化 专业化 定制服务 便于再加 再开发 同系统交互(可视化、语音化等) 依个人选择输出结果的形式 便于个人交换交流 安全性、隐私、保密 39
信息系统与知识系统的异同 相同点 l两者均建立在信息技术基础之上 l两者都以网络为依托 l两者都由收集、处理、存储、传播、共享等过程组成 信息收集—知识捕获 信息处理—知识加 (合成、分类、整理等) 信息存储—知识保存 信息传递—知识传播 信息共享—知识共享 l两者的产品都能创造价值 40
信息系统与知识系统的异同 l收集、处理、传播的对象不同:信息系统的对象是客观属性(文字、文 件、报表、票据), 而知识系统的对象是以人的头脑为载体, 具有隐含特的 知识、人的思想、技能和经验。知识系统具有创新性, 而信息系统没有。 l对处理对象的加 深度不同:信息系统主要加 为计算、合并、汇总、 连接等。而知识系统是解析、分类、合成、整理、建立映射等深层处理。 知识系统的加 深度远远大于信息系统。 l产品形态不同:信息系统主要是报告、文档、报表、总结性数据或提 示性数据, 而知识系统则是分析能力、MAPS、多媒体、超级链接等。知 识系统的产品具有动态性, 可根据需要产成不同的表现形态。 l产品价值取向不同:信息系统着重及时性、新颖性、针对性、准确性 等, 而知识系统着重创新性、科学性、经验和技巧。 l度量指标不同:信息系统看硬件软件投入、经济收益等, 而知识系统看 知识投资、知识密集度、知识挖掘的广度和深度。 41
信息系统与知识系统的内在联系 l信息系统和知识系统相辅相成、互相依赖、相伴而行。 l信息系统正在朝着解决半结构和非结构化问题的方向发展, 如KWS、DSS、ESS等都具备了知识 作的支持和管理决策 的功能。 l知识系统是对信息系统功能的进一步延伸和拓展。 l知识系统离不了数据库的支持, 信息系统最新技术如 作 流、数据仓库、数据挖掘、群体技术、共享技术等都可用于 知识系统。 42
信息服务与知识服务 l l l l l 信息服务 信息资源获取和提供 提供信息产品 基于标准和单一知识 固定内容服务 劳务服务 标准服务 固定资源和系统 大而全系统和服务 标准化事物性服务 按信息服务机构流程组 织 l l l l l 知识服务 解决问题 提供知识产品 基于复杂 综合变化知识 动态连续服务 增值服务 个性化服务 动态虚拟资源 系统集成、服务集成、 团队 作 创新性服务 按用户行为过程组织 43
Knowing leads to. . . 44
Transformational Librarianship l Data l Norm l Information l Form l Knowledge l Transform l Behaviour l Perform Success 45
显性知识与隐性知识 l 显性知识(explicit knowledge) : Ø 事实数据、 Ø 常识数据库、 Ø 加 精度、 Ø 语义结构存取 l 隐性知识(tacit knowledge ): Ø 人脑存储的知识 Ø “零次信息”(论坛、电视会议、活页零散信息) Ø 从数据库或文本中发现或挖掘的知识 Ø Microsoft. net的My文件等 46
Beckman知识五个层次 数据:文本、事实、编码、图象、声音 +意义 + 结构 = 信息:组织的、结构化、解释的、总结的 数据 知识:案例、规则、过程、模型等 专业知识:快速和准确的建议, 结果的解 释和判断, 推理 能力:有组织的专业知识, 知识库, 综合性 能的支持系统, 核心竞争能力 + 推理 + 抽象 + 关系 + 应用 = + 选择 + 经验 + 原则 + 约 束 + 学习 = + 综合 + 传递 + 导 航 = 47
获取知识 创建知识 提炼知识 提供知识 存储知识 管理知识 Decision Support Systems and Intelligent Systems, Efraim Turban and Jay E. Aronson, 6 th edition. Copyright 2001, Prentice Hall, Upper Saddle River, NJ 48
隐性知识与显性知识之 隐性知识向显性知识之 间的转换 电子会议 同步合作(chat, 或实时对 话) 回答问题 注释 显性知识向隐性知识之 显性知识与显性知识之 间的转换 可视化(Visualization) 可浏览的报告声像 文本查找 文献分类 49
知识的采集(Knowledge Capture) 抽象化, 归纳 无形向有形或 有形向无形转换 书面报告 电子邮件 隐性知识 会议发言 显性知识 网页 …… 50
知识搜取的方法 l 文献: – 文本式:总结,技术报告,备忘录等 – 网络式:利用特别制作的网上 具,知者输入知识 的组成部分存入系统,供企业或组织内部的有关人 员检索使用和分享。也叫“分散型知识搜取”( Distributed knowledge capture)。 实例:http: //www. promising-practices. org/ 电子录音 l 电子录像 l 51
信息内容加 和组织 项目 内容加 收集 数据录入 OCR 和扫描 语音输入 不同信息源信息重组 网上信息采集 组织 著录 标引 过滤 链接 精练 内容重组 内容集成 内容压缩 内容突出 内容挖掘 提供 传播 共享 通报 推送 52
内容构架 l内容编码符号 l内容载体 l逻辑信息单元 l内容容器 l逻辑信息单元 l信息集合 l知识组织体系 53
信息单元描述和信息集合组织 l信息内容管理 l信息集合组织 l用户知识组织 l信息链接 l信息内容和信息集合重组 l知识体系组织 54
信息内容管理 l结构类型 l标记语言 l语义标注 l应用集成 55
信息集合管理 资源选择 产权保护 获取控制 使用审计 长期保存 56
信息集合组织 l馆藏 l虚拟资源门户 l主题信息网关 l跨网关门户 l语义门户 57
知识体系组织 分类体系 主题体系 语义网络 Ontoloty 58
信息链接 • 文献内部 • 文献间 • 引文链接 • 超文本链接 • 跨库链接 • Internet • Intranet链接 • 跨网链接 • 语义链接 • 跨语言链接 59
知识体系应用 1. 2. 3. 4. 5. 6. 词汇的语义映射和语义限制 信息资源结构化 信息内容与知识组织体系链接 利用多种模式表现和理解信息集合 跨语言检索 智能检索 60
知识组织与存取 (1) l 从知识技术上讲,知识的组织有以下特点: – XML为基础的标记格式 – 数据库与XML标记之间的转换和兼容 l 从知识结构上讲,知识的组织主要使用: – 分类表(taxonomy) – 知识分类 (ontology) – 以上两种结构与XML结合而成的knowledge schemas 61
知识组织与存取 (2) XML为基础的标记格式: 文章 标题 文献类型定义(Document Type Definition): a user-defined set of rules governing an individual markup language created using the principles of XML. A DTD describes the formal rules for the structure of a class of information chunks (documents). 摘要 章节 元素(Element): a component of a document. (a contiguous chunk of useful information in an XML document marked by a start-tag and end-tag). <article> <title>知识管理技术</title> <description>信息技术在知识管理中的应用 </description> <section id=“ 1”>技术类型</section> <p pid=“ 1”>……</p> <p pid=“ 2”>……</p> <section id=“ 2”>结构类型</section> <p pid=“ 3”>……</p> <p pid=“ 4”>……</p> </article> 62
知识组织与存取 (3) l 数据库与XML标记之间的转换和兼容 – 用文献类型定义来产生数据库结构 – 用数据库结构来产生文献类型定义 Article ID Title Description I 文献类型定义 <!ELEMENT article (title, description, (section (P+))+ > <!ELEMENT title (#PCDATA) > <!ELEMENT description (#PCDATA) > <!ELEMENT section (P+)> <!ATTLIST section id CDATA #REQUIRED> <!ELEMENT P (#PCDATA)> <!ATTLIST P id CDATA #REQUIRED> 数据库 转换 M Article ID Section title PID Paragraph 63
知识组织与存取 (4) l 分类表 (taxonomies) – 侧重于领域知识(domain knowledge) – 领域知识可以表述成知识图(knowledge map)或分类 表 – 分类表是具有等级结构的一组类别,并包括一些类 别之间的相互关系 – 分类表的作用: l l 提供浏览便利而无需检索 可通过将文献置于特定范畴内帮助用户判定文献的相关性 – 主要从该领域的专业人员和有关资料中搜集 64
知识的组织与存取(5) l 知识分类(ontology) – 一定范围内的人们所共同理解并认可的概念 – 定义并说明概念范畴及其互相之间的关系 – 确定在本概念化结构内进行推理(reasoning) 的条件限制与规则 – 规定与归纳出来的事实相关的行为,即与公 理类似的逻辑表达式(axioms) 65
知识主管 (CKO) 本企业知识资产最大化 § 设计和实施知识管理战略 § 有效交换知识资产 § 促进系统应用 § Decision Support Systems and Intelligent Systems, Efraim Turban and Jay E. Aronson, 6 th edition. Copyright 2001, Prentice Hall, Upper Saddle River, NJ 66
知识管理的人员保障 l 知识主管 – senior executive, builds knowledge culture, creates infrastructure l 知识项目经理 – temporary roles, lead developments and embed into processes l 知识管理专家 – permanent group, various backgrounds, variety of roles l 知识第一线 作者 – staff at all levels, producing and using knowledge in their work 67
成功的知识管理战略 建立知识管理方法论 2. 任命关键人物 3. 授权知识 作者 4. 管理面向客户的知识 5. 管理核心的竞争能力 6. 培养协作和创新精神 7. 向最佳实践学习 8. 扩大知识源 9. 使团队的实践(专业知识)相互沟通) 10. 知识资产价值可测度化 1. Decision Support Systems and Intelligent Systems, Efraim Turban and Jay E. Aronson, 6 th edition. Copyright 2001, Prentice Hall, Upper Saddle River, NJ 68
知识管理失败主要原因 知识定义不明确 2. 过多重视知识累积而非知识流动 3. 相信知识存在于人脑之外 4. 不承认管理知识的重要性 5. 不能有效管理隐形知识 6. 不能使知识和利用脱钩 7. 不重视推理和思想的作用 8. 眼睛只看过去和现在而不是未来 9. 不能够认识实验的重要性 10. 以技术接触取代人的接口 11. 过分强调测量知识而非它的结果 1. Decision Support Systems and Intelligent Systems, Efraim Turban and Jay E. Aronson, 6 th edition. Copyright 2001, Prentice Hall, Upper Saddle River, NJ 69
XEROS知识库 l公司的人力资源状况 l公司内每个职位需要的技能和评价的方法, 以便员 进行个人能力评测 l公司内各部门、各地分公司的内部资料 l公司历史上发生的重大事件等历史资料 l公司客户的所有信息, 特别是售后服务信息 l公司主要竞争对手和合作伙伴的详细资料 l公司内部研究人员的研究文献和研究报告 l公司员 的建议, 让公司 所有人都能看到 70
显性知识的组织与转换 l 现实: l 机遇: – 图书馆信息中心有与 – 数字化技术的发展为 有形知识打交道的悠 久历史和经验 有形知识的组织与转 换提供了广阔的市场 l l Knowledge portal Semantic web Intelligent agents Communities of practice 71
开发新的知识产品 l 现实: l 机遇: – 图书馆文献中心是目 – 利用数字化技术开发 录索引的主要生产者 和使用者 新的知识 具和产品 – 专业领域的知识分类 和术语分类表 – 为企事业单位的知识 管理项目出谋划策 – 培训知识管理专业人 员 72
做知识管理方面的领头人 l 现实: – 图书馆长期扮演服务 作者的脚色 l 机遇: – 通过各种渠道大力宣传 知识管理的重要性 – 与大型企事业单位合作 开展一些知识管理的项 目,通过这些项目可以 达到三个主要目的: l l l 开展知识管理的应用研 究 培养知识管理人才 普及知识管理实践 73
信息服务领域的技术进步 74
信息服务领域的技术进步 (1) 技术类别 七十年代 (联机服务) 八十年代 (Internet服务) 九十年代中期 以来 (网络服务) 网络 联机 LAN, Internet 第 二 代 Internet宽 带网, MAN, 无线, 网格, 网络服务 计算机 小型计算机 个人电脑 手 持 , 家 用 , 芯 片 磁盘价格(1 MB) 约 1万美元 1988年 11. 54美 元 1994 0. 71美元, 1998 0. 07美元, 2000 0. 03美元 2002 0. 01美元 信息量单位 MB, GB GB, TG TG, PB, EB 数字化 OCR, 模式识别 数字化 Audio/video 语音识别 75
信息服务领域的技术进步(2) 信息载体 文本 多媒体 虚拟空间 信息层次 文本信息 显形知识 隐形知识 信息组织 结构化, 关系数据 库 半结构化, 关系数 据库 非结构化, 数据仓 库, 信息体系结构 (IA) 内容特征(标识) 规范控制 元数据(metadata) 专业元数据 内容组织格式 MARC SGML, HTML XML, 专业标置语 言 内容组织体系 Thesaurus Wordnet CYC, Taxonomy, Ontology 内容转换 压缩技术, 汉字切 分关键词抽取 试验性:自动标 引, 自动分类, 自动 摘要, 自动翻译 实用性, 智能化: 全文文本排序、算 法改进 假设内容处理单元 都是独立的, 最多 仅是词法、句法关 联 数据挖掘、数据融 合、文本挖掘、信 76 息抽取, 可视化 内容控制 自动标引, 自动分类, 自动摘要, 自动翻译, 自动文本生成
信息服务领域的技术进步 (3) 信息链接 文献内部, 文献 间, 引文链接 超 文 本 链 接 , 跨 库 链 接 , Internet 链, Intranet链接 跨网链接, 语义 链接跨语言链 接 集合组织 主题网站 信息门户, 跨网 门户 虚拟资源门户, 语义门户 信息提供 文本 多媒体 个性化, 可视化 信息推荐 SDI 推 技 术 , TOC, Alert awareness, Recommender, Wrapper, information filtering 信息检索 全文文本 搜索引擎 多媒体检索, 内 容检索, 语义检 索 用户界面 菜单 多窗口, 多媒体 可视化 77
什么是元数据? 元数据是结构化的信息,用于 l 描述一个文献资源 l 解释一个文献资源 l 找到一个文献源 l 以及使某文献资源能很容易地得到检索。 -- Source: Gail Hodge. Metadata Made Simpler 78
描述元数据 descriptive metadata l 用于描述一个文献资源的内容及其与其 它资源的关系, l 主要作用: –发掘 –辨识 –Source: CIC. 79
管理元数据 administrative metadata l 包括有关数字实体 (digital object)的 显示、注解、使用、长期管理等方面的 内容 ------ 所有权权限的管理 产生/制作时间和方式 文件类型 其它技术方面的信息 使用或获取方面的权限管理 80
结构元数据 structure metadata l 定义一个复杂的数字实体的物理结构, 以利于导航、信息检索和显示。 -- 各个组成部分是怎样放到一起的 81
将这三种元数据组织在一起, 其功能为: l 资源发掘 l 对电子资源进行组织 l 便利互操作 l 数字鉴别 l 存档和保存 --Source: Hodge 82
原始资源 结构上被分解的资源 元数据 记录 名称 创造者 主题 作为一个信息容器 的附属品 文摘 段落标题 章节 图示 表格 总结 参考文献 |。。。 83
面向文献源的元数据 在“发掘” 方面的局限 l 1. 一个元数据的记录总是一个“信息容 器” 的附属品 -- 不管这个信息容器的内容在结构上被分解 为多小,多深 -- 不管有多少个主题特征被放到一条数据上 l 2. 在当前的元数据标准中,有关主题内 容的元数据元素总是十分有限 84
XML的优点 l. XML的采用将使网络传播的信息具有半结构化数据格式。 使得一般的SGML能够以一种用HTML不可能实现的方式 在WEB上被接收、处理、服务, 并且能与SGML, HTML, TEI, EAD, AMMEM, DTD兼容。 l采用Style Sheet可在浏览器直接浏览XML。 l. XML保持SGML的强大功能和灵活性,同时降低复杂性。 l极大改善网上文本的质量。 l节省创建 具的成本, 标引、编辑和出版将容易得多。 l为安全、共享和各种分布应用开辟良好前景。 85
XML时代的到来 微软公司主席比尔盖茨预言:XML将在因特网领域成 为一个重要的开发平台。他同时预言在未来的五年内, 因特网将会有爆炸性的改变。 l 微软的首席执行官巴尔默仍相信,XML将成为网络界 的主导标准协议。 l OASIS(信息结构发展组织)主要成员SUN,IBM, Oracle发布了XML网站。这个组织相信,XML计划不 是一个短期行为,因特网终将依赖于它而进行数据交换。 l XML和Java的结合,代表了Web在下一个阶段的发展 方向。 l 86
将专业学科语言精确全面地直接应用到 自然语言和多媒体资源上,置标语言是 唯一的,最重要的方法。 -- Greg Shreve 87
基于文献资源的元数据标准 结构的分解与描述 面向专业内容的置标语言 语义的分解与描述 88
元数据与置标语言结合 基于文献资源的元数据标准 面向专业内容的置标语言 89
WEB语言一览 90
与置标语言有关的问题 l 耗费更大,要求更高 l 需要另外的表述格式以使机器理解其结 构 l 重复的标准 l 不能直接嵌到那些非文本的文献中 91
元数据与置标语言结合 知识表述功能大大增加 – 从仅仅描述文献资源和指向信息容器的地址上升到详细地描 述资源内部的丰富内容。 – 从作为一个供存贮、查找、索取资源的仓库上升到一个能生 产和再生产及反复利用新资源的车间。 l 需要对元数据与置标语言的相互关系和结合方法进行大量研究和 试验 l 需要从根本上解决: – 自动生成元数据记录或抽取元数据信息 – 自动或半自动置标 – 自动或半自动联系和管理相关数据记录 – …… l 92
可视化 93
Galaxy of News Current Issues news information Current info. Infrastructure simply can’t handle exploding scale of news information and its cross correlation. Need for an intelligent system that automatically builds the correlations and relationships between news articles Rennison ‘ 94 94
潜在应用 Internet Search Engine 95
新型界面: 网络地图 l 200万网站多级可视目录 以不规则多边形表现等级 类目 l 可放大观看细节 l 以符号表现网站 l 两篇文献或两个类目内容 上越近, 地图上距离也越近 l l 以地形表现等级 96
新型界面:双曲线树 l 便于查找等级 分类数据 l 重点 + 上下文 l 直观、互动 l Xerox PARC 发明 97
Themescapes, Cartia PNL l Mountain height = Cluster size l 98
Map. net l http: //maps. map. net/start 99
信息挖掘 100
数据方块建造 (http: //db. cs. sfu. ca/sections/publication/slides. html ) All Amount 数量 省份 B. C. Prairies Ontario sum 0 -20 K 20 -40 K 40 -60 K 60 K- sum Comp_Method, B. C. Comp_Metho d Database …. . . 专业 sum l l l 每维包含一个属性的层次值。 一个方块存储集合值, 如计数、总计、最大值等。 一个 “总计” 单元存储总计值。 稀疏—方块技术与MOLAP/ROLAP结合。 “Chunk”-based 、多向集合和单路计算。 101
网络挖掘体系结构模型 (http: //db. cs. sfu. ca/sections/publication/slides. html) l l 通过Web log 过滤, 产生 关系数据库 从数据库产生数据方块(data cube) 用OLAP 切隔数据方块 用OLAM 挖掘所需知识 数据库e 网络信息 1 数据清理 数据方块 2 数据方块创建 3 OLAP 知识 方快切割 4 数据挖掘 102
网络挖掘基本体系结构 广义数据 高位层次 网站 1 网站 2 概念层次关系 资源挖掘 网站 3 知识挖掘 (WLM) 特征规则 判别规则 联想规则 103
信息抽取 104
信息抽取与文献分类 ? 105
信息抽取 Intranet Web 提问处理 ontology IE 数据库 106
传统 IE 体系结构 标识化 本地文本分析 文本分段和过滤 词形和句法处理 解析 词类 标识 词意标识 片段处理 片段联结 情景模式匹配 话语分析 共参分辨率推理 模版合并 107
信息抽取体系结构 EXAMPLE: rund 60 bis 70 Prozent der Steigerungsrate (about 60 to 70 percent increase) ASCII 文献 标识器 rund: lowercase 60: two-digit-integer 句法分析 Steigerungsrate: steigerung+[s]+rate bis: prep|adv POS-过滤 bis: adv 有名实体 rund 60 bis 70 Prozent: percentage-NP 语言知识库 文本图 片语识别 rund 60 bis 70 Prozent: NP der Steigerungsrate: NP 句子边界探测 XML-输出接口 文件 108
结束语:从头越 l 重视知识管理发展战略研究 l 发展知识内容开发技术 l 信息技术与传统方式相结合 l 把基础研究和基础建设提到应有高度 l 培养创新型跨学科人才 109
8e6c60f2c90acec79b26048d27cab6ee.ppt