24285e3abeda68e92b26457e2788331d.ppt
- Количество слайдов: 35
CNKI 知识资源组织与管理平台的构建 张振海 中国学术期刊光盘版电子杂志社 清华同方知网(北京)技术有限公司
知识组织管理平台的要素 • 知识资源平台 • 知识处理技术平台 • 用户利用平台
一 般 知 识 正 式 出 版 物 SPD 非 出 版 物 GPD 知 识 资 源 的 结 构 GKD 具书数据库 核 心 知 识 CK D 词典/知识元/百科 年鉴数据库 学者总索引 引文数据库 期刊评价数据库 期刊数据库 图书数据库 报纸数据库 专利/标准 学位论文 会议论文
基于对象关系的资源组织分析 --关系就是对空间的划分 • 分类 • 聚类 分类 作者 – 主题词 – 关键词/tag • • 著者 引用 机构 基金 相似 应用 媒体 资源 读者 资源 聚类 媒体
知识网络设计 • 知识系统可以看作是一个知识交互的网络系统。 知识本身是一个有着自身发展规律的”社会化有机 体“。知识与知识之间有着交流的需求。知识要发 展、要生长、到成熟稳定都如同一个有机体一样。 知识与知识的关系正如人与人之间的关系对人的 发展有着重要影响一样,知识关系对于知识系统 的发展也是至关重要的。 • 知识关系的设计为“知识网络设计“。 • 核心:关系,有序
引证网络 • 参考文献 • 引证文献 • 共引文献 同 被引 二次 引证 引证 A 参考 – 与本文引用相同文献 的文献,揭示有共同 研究背景的相关文献 信息。 • 二次参考文献 – 本文参考文献的参考 文献 • 二次引证文献 – 本文引证文献的引证 文献 • 同被引文献 – 与本文同时被其它文 献引用的文献 共引 术语的引用 证据的引用 法规依据的引用 实施的引用 数据的引用 二次 参考
著者 • • • 学术活动 合作者 同类作者 导师 同学 毕业学校 发表文献 文献引用/被引 媒体评价/反馈 父子/夫妻
读者 • • • 共同阅读者 同地区读者 同年龄 同层次的读者 共同兴趣读者 阅读排名 文献利用排名 同组其他人阅读的文献 读者--〉作者
聚类 • 主题词 • 关键词 • Tag – Blog – Wiki • 动态聚类
资源要求 • • • 主题定为准确 用户定为清晰 资源权威 资源要全 资源组织关系要丰富(全?),越多越好! 资源要合法
自然语言处理NLPE C N KI 技 术 平 台 全文检索引擎FTE 知识挖掘引擎KME KBASE KNS源数据库平台 GRID平台 知识仓库平台 多媒体平台 TPI数字图书馆平台 ETP 引擎 CAJVIEWER 电子加 平台
相关技术 • • • 概念关系词典 相似文献分析技术 全文句法检索 网格共享技术 学术搜索引擎技术 知网节出版技术 统一导航统一检索技术 引文链接识别分析技术 蚁群挖掘技术
引文链接接分析技术 引文连接是CNKI出版平台基础之一 • 引文条目切分、引文元数据项分析 • 引文链接分析 – 链接准确率达到 98% • 引证关系分析 – 参考、引证、二次参考、二次引证、共引、同被引。 – 难点:引用数据量非常大。7000万引文条目。速 度,准确性,是关键。 • 图书链接(本月发布) • 外文期刊链接(年底发布)
概念关系词典 CNKI自然语言智能处理的基础 • 概念之间的潜在知识关系 – 同义,近义关系 – 相关/耦合关系 – 200万条目 • 关系挖掘 – 潜在语义标引技术(LSI)。 • 检索扩展 – 提高查全、查准 • 提高自动分类的准确度 • 新概念识别 • 篇章分析
相似检索技术 • 基于文章内容的相似性分析技术 – – 文档向量抽取 多维向量索引 多维向量检索 1百万文档,进行相似检索,1秒内完成 • 突破了关键词单一特征检索的局限 – 以文章为单位来实施检索。以篇章、段落、句法特征 为基础,检索的控制深度、内容涉及的广度大幅度提高。 • 应用到个性化服务、信息过滤、信息监控等领域
文档快照技术 • 条件摘要/快照 – 根据用户输入的检索词,对文章进行分析处理, 抽取最相关内容。 – 直接反映目标文献与检索提问的相关性,帮助 读者快速判断目标文献的价值。 – 直接检索内容本身 – “文档的CT技术” • 机器文摘 – 自动摘要
网格共享技术 • 网格数据共享 – 存储虚拟化技术,实现分布式海量数据统一管理 • 网格数据分发(CDS) – 利用P 2 P技术,实现基于网格的海量数据更新分发。 • WEB网格镜像技术 – Web与数据库分离,数据库实现虚拟化,原文分布式 管理获取。 • 价值 – – 提高数据分发速度 提高数据库安全性 减少用户存储要求 提高系统性能
学术搜索引擎技术 • 学术文档排序技术 – – – 引文 参考文献 用户使用(下载情况) 来源影响因子 关键词分布(篇名,摘要,小标题,正文,参考文献) • 未来影响分析预测 – 引用预测 – 下载预测
知识网络/知网节整合出版技术 • • • 引证网络(6种) 学者网络 来源机构网络 知识元网络 读者推荐 相似文献(4种) 相关媒体 分类 相关学者
交互信息挖掘技术 • 中心网站一天下载超过100万篇文献。总下载 约10亿(一年)。 • 检索习惯、阅读习惯 – 检索词 – 读者推荐文献 – 期刊、会议 • 用户需求 • 关系分析 – 期刊-期刊 – 期刊-博硕,期刊-会议,期刊-报纸,博硕-会议, 博硕-报纸,会议-报纸
统一导航统一检索技术 • CNKI源数据库实现统一导航 – 10大专辑 – 168的专题 • 统一元数据表示 – 统一检索 – 统一排序 • 应用价值 – 在不同资源类型间实现同主题资源的汇聚、推荐 – 改善跨库检索的控制,提高查准率。
其他技术 • 个性化服务 – 用户兴趣识别 – 自动内容推送 • • 自动聚类技术实用化(ACB) 检索结果多重排序技术(QMS) 检索结果多维分组技术(MDG) 社区技术(SNS)
智能活动文档技术 • 每一本期刊,每一篇文章,每一个知网节 都可以单独存盘与收藏。下次可以直接打 开期刊,文章,知网节。同时实现与 CNKI 数据库关联,动态更新相关信息。 • CAJ文档与知网节关联 • CAJ文档与知识元关联
用户平台要求 • • • 检索功能齐全 使用简单 浏览与检索结合 人性化设计(个性化?) 评价机制 – 用户评价 – 技术分析
用户平台-交互挖掘 • 实现资源自组织 • 实现用户的自组织 • 用户反馈
“知识网络”效果 • KNS 50升级后 – 期刊库 – 学位论文库 – 会议论文库 – 报纸数据库 访问量 增长 60% 访问量 增长 300% 访问量 增长 1200% 访问量 增长 1500%
感谢! 张振海 zhenhai@cnki. net
24285e3abeda68e92b26457e2788331d.ppt