22648838e1316e1915379988395b480e.ppt
- Количество слайдов: 58
科研技能培训 王星华 图书馆咨询部文献检索室 电话: 51688293 邮件:wxh@libmail. njtu. edu. cn 1
你是否会经常遇到下列问题—— & 如何使用网络数据库或电子资源? & 如何获取原文? & 我可以使用的免费资源有哪些? & 如何科学、合理地确定检索词、检索式? …… 2
这门课的目的(Purpose)是什么 目的:系统了解和较为熟练地掌握各类网 络数据库的检索、浏览和下载方法。 解决的问题 信息的选择 信息的检索 3
课 程 内 容 第一讲 文献检索基础知识和理论 第二讲 中外文专业检索系统和数据库 第三讲 特种文献检索 第四讲 网络信息资源利用 4
参考教材 1.赖茂生,徐克敏等 《科技文献检索》 1994 G 252/36 重点:信息检索基础知识和原理、手 检索。 2.赖茂生,王延飞等 《计算机情报检索》 1996 G 354/128 重点:计算机检索基础知识和原理。 3.张惠惠等 《情报联机检索》 1993 G 354/106 重点:详细介绍世界著名联机检索系统Dialog、 ESA/IRS、 ORBIT、 STN 等。 4.肖珑、张春红等 《数字信息资源的检索与利用》 2003 (新) 重点:详细介绍国内外重要检索系统及专业数据库的网络版使用方法 及网络信息资源(主要学术站点)的利用。 5. 邓要武、王星华 《科技信息检索》 2001 G 354. 2/43 5
第一讲 文献检索基础知识和理论 第一节 信息检索基本概念 第二节 科技文献类型与识别 第三节 文献检索 具 第四节 文献检索的方法和途径 第五节 计算机检索基础知识 第六节 计算机检索技术 本讲要点:信息检索、文献检索、计算机检索的基本概 念和原理,各出版类型文献的特点,检索 具的类型和作用,计 6 算机检索技术。
第一节 信息检索基本概念 一、信息、知识、文献的概念 1. 信息 ( information ): 信息是事物发出的体现它存在和运动状态的信号和消息。是物质的一种普 遍属性,是生物以及具有自动控制系统的机器,通过感觉器官和相应的设备 与外界进行交换的一切内容。 2. 知识: 知识是信息的一部分,是一种特定的人类信息。知识是人类社会实践经 验的总结,是人的主观世界对于客观世界的概括和如实反映。 3. 文献(document): 记录有知识和信息的一切载体。由四要素组成:所记录的知识和信息、 记录知识和信息的符号图像、用于记录知识和信息的物质载体、记录的方式 或手段。 7
二、信息检索定义 广义的信息检索: 是指将信息按一定的方式组织和存储起来, 并根据信息用户的需要找出有关信息的过程和技术。全称为“信息存储 与检索” 。 狭义的信息检索: 指该过程的后半部分, 即从信息集合中找出所 需要的信息的过程, 相当于人们通常所说的信息查寻。 三、信息检索的本质 是信息用户的需求和信息集合的比较与选择, 即匹配(match)的过程。 用户根据检索需求,对一定的信息集合采用一定的技术手段,根据一定 的线索与准则找出相关的信息。 8
三、检索方式 1. 根据信息的存储媒体和检索技术手段的不同, 信息检索可分为: 手 检索:通常使用的是一些印刷载体的 具书和检索期刊,检索过程由人 脑和手翻书刊的配合来完成的,匹配是人脑的思考、比较和选择。 计算机检索: 使用的是检索系统。系统包括计算机设备、终端、通信设施、 数据库和检索、应用软件等。 2. 根据检索对象形式的不同, 信息检索可分为: 文献检索: 凡以文献(包括文摘、题录或全文)为检索对象的, 是一种相 关检索, 不直接解答用户所提出的技术问题本身, 只提供与之相关的文献供用 户参考。 数据或事实检索: 凡以数据或事实为检索对象的, 是一种确定性检索, 直 接回答用户提出的技术问题,提供用户所需要的确切数据或事实。检索结果 一般是确定性的有或无,对或错。 9
第二节 科技文献类型与识别 一、文献资源类型 传统的图书馆是专用于典藏书籍的处所,其收藏的主要 是纸本文献。随着科学技术的迅速发展,现代的记录形式 和出版方式有了很大变化,“图书”这个概念已经不能概 括当前所有的出版物。今天,人们将数据、期刊、资料等 出版物统称为“文献”,图书馆文献资源类型的划分标准 纷繁复杂,这里主要介绍三种划分方法 。 1. 根据文献的载体形式划分 2. 根据文献的编辑出版形式划分 3. 按文献的结构等级(文献的加 程度)划分 10
1. 根据文献的载体形式划分 印刷型 缩 微 胶 片 缩 微 胶 卷 缩 微 平 片 机读型 磁 光 联 机 带 、 网 磁 盘 盘 络 版 图 连 资 续 出 书 版 料 物 缩微型 视听型 录 音 带 、 录 像 带 唱 片 、 幻 灯 片 11 电 影 胶 卷
例:OCLC 12
2. 根据文献的编辑出版形式划分 图 书 专 利 文 献 学 位 论 文 标 准 规 范 会 议 文 献 政 府 出 版 物 产 品 资 料 期 报 期 刊 型 书 刊 纸 籍 科 技 报 告 连续出版物 具 书 (gjs) (book) 普 通 图 书 特种文献 13
1. 图书 ( book ) ISBN 定义:指内容比较成熟、资料比较系统、有完整定型的装祯形式的出版物。 格式:著者、书名[M]、版本(第 1版不标注)、出版地、出版者、出版年、引文 所在的起始或起止页码。 【例】翟婉明. 车辆-轨道耦合动力学[M]. 北京: 中国铁道出版社, 1997. 74 -80. (fenlei) 2. 期刊 ( journal、 periodical ) ISSN 定义:一种以印刷形式或其他形式逐次刊行,通常有数字或年月顺序编号, 并打算无限期地连续出版下去的出版物。期刊一般都有固定的刊名。 格式:著者、题(篇)名[J]、刊名、出版年、卷号(期号)、引文所在的起始或 起止页码。 【例】史峰, 李致中. 铁路车流路径的优选算法[J]. 铁道学报, 1993, 15(3): 70. 14
具书概述 一、概念 人们根据一定的目的全面系统地搜集某一方面的有关资料, 经过筛选、加 整理、概括、浓缩等手段,用一定的编排方法加 以组织编排,专供查考问题和检索文献线索的一种特种图书。 二、特性 1. 知识的密集性 2. 知识的价值性 3. 知识的有序性 4. 检索性 三、根据编制特点和功能分类 1. 字典、辞典; 2. 百科全书;《中国大百科全书》、《不列颠百科全书》 3. 年鉴、手册、名录;《上海经济年鉴》 4. 年表、历表;《中国历史纪年表》 (fenlei) 15
3. 科技报告 ( report、 technical report ) 定义:是科学技术 作者围绕某个课题研究所取得的成果的正式报告,或对某 个课题研究过程中各阶段进展情况的实际记录。其中绝大多数涉及高、精、尖 科学研究和技术设计及其阶段进展情况,客观地反映科研过程中的经验教训。 格式:著者、报告题名[R]、出版地、出版者、出版年、页码。 【例】朱家荷, 韩调. 铁路区间通过能力计算方法的研究[R]. 北京: 铁道部科学研 究院运输及经济研究所, 1989. 34. 会议文献 ( conference、 paper ) 定义:会议文献是在各种学术、专题会议上发表的论文和报告。会议文献多 数以会议录的形式出现。是专业领域最新研究成果报道的一种主要方式。 格式:文献著者、题(篇)名[A]、论文集名[C]、出版地、出版者、出版年、 引文所在起始或起止页码。 【例】张玉心. 重载货车高摩擦系数合成闸瓦的研制和应用[A]. 见: 中国铁道学 会编译. 国际重载运输协会制动专题讨论会论文集[C]. 北京: 中国铁道学会, 1988. 242. 16
5. 专利文献 ( patent document ) 定义:发明人或专利权人申请专利时向专利局所呈交的一份详细说明发明的 目的、构成及效果的书面技术文件,经专利局审查,公开出版或授权后的文献。 广义包括专利申请书、专利说明书、专利公报、专利检索 具以及与专利有关 的一切资料。 格式:专利所有者、题名[P]、专利国别、专利号、出版日期。 【例】曾德超. 常速高速通用优化犁[P]. 中国专利: 85203720. 1, 1986 -11 -13. 6. 标准文献 ( standard、 specification、 requirement ) 定义:指经过公认的权威当局批准的以文件形式表达出的统一规定,包括 技术标准、技术规格和技术规则等文献的总称。 格式:标准代号(标准顺序号-发布年)、标准名称[S]。 【例】 GB J 111 -87, 铁路 程抗震设计规范[S]. 17
7. 学位论文 ( dissertation、 thesis ) 定义:高等学校或研究院所的学生在导师指导下从事某一学术课题的研究, 为获得某种学位而撰写的学术性较强的研究论文。 格式:著者、题(篇)名[D]、保存地点、保存单位、年份、引文所在起始或 起止页码。 【例】党建武. 神经网络方法求解组合优化问题的研究[D]. 成都: 西南交通大 学, 1996. 20 -25. 8. 政府出版物 ( government document ) 政府出版物是各国政府部门及其所属机构发表、出版的文件,其内容广 泛,概括可以分为行政性文献和科技文献两大类。 9. 产品资料、技术档案等(product literature、technical record) 各厂商为推销产品而印发的商业宣传品,包括产品样本、产品目录、产品 说明书、厂商介绍、技术座谈资料等。 企业或科研机构在技术 作中形成的、有一定的 程对象的技术文件。如 18 任务书、协议书、技术经济指标和审批文件、研究计划方案大纲和技术措施等。
各类型出版物特点比较 ● ● ● 内 容 新颖性: 信息报道速度: 流通范围广度: 发 行 量: 具有法 律 性: 易于获取程度: 科技报告、专利、期刊、会议文献、图书 科技报告、期刊、会议文献、专利 期刊、图书、会议文献、专利、政府出版物 期刊、专利、图书、会议文献 专利、标准 期刊、图书、会议文献、专利、标准、政府出版 物、学位论文、科技报告 19
3. 按文献的结构等级(文献的加 程度)划分 按文献中信息量的变化情况来划分,可分成三个结构等级。 1. 一次文献(primary document) 即原始文献。是指人们以自己的经验和研究成果为依据而形成的文献,不 管文献以何种物质形式出现。如期刊论文、会议论文、科技报告、专利说明书、 标准等,一次文献的信息比较具体、详尽和系统化。 维普《中文科技期刊数据库》、Elsevier Science 、UMI博硕士论文全文库 2. 二次文献(secondary document) 是通过对大量分散、无序的一次文献进行加 、提炼、压缩和组织,成为 系统的、便于查找一次文献的 具。如书目、索引、文摘等检索 具即是二次文 献。二次文献的重要性在于它可以提供一次文献的线索。 程索引 Ei 、ISTP 、中国学术期刊数据库(题录文摘版) 3. 三次文献(tertiary document) 在利用二次文献的基础上,对检索到的一次文献进行广泛、深入的分析研 究之后,再次加 出来的成果。如综述、述评、进展等。 百科全书、年鉴 20
二、科技文献出版类型的辩识 为了获取原始文献,应学会辨识科技论文后所附参考文献的不 同出版类型。一般著录项目都包括篇名、著者姓名、文献出处,可 以从文献出处识别各种文献的出版类型。 (1)图 书: 有出版社名称和出版年份。 (2)期 刊: 包括刊名、卷、期、页码、月年。 (3)会议文献: 包括会议名称、时间、地址、会议录出版单位及其地址、出 版年份、会议录提供单位及其地址、页码。 (4)专利文献: 有专利国家名称或国家代号、专利号,有的还有出版时间。 (5)科技报告: 最明显是出处中有报告号,有的有出版时间。 (6)学位论文: 一般著录学位和学位论文的名称, 颁发的单位及地址、时间。 (7)标准文献: 一般有标准编号。 21
22
23
第三节 文献检索 具的基本概念 一.检索 具定义 定义:用来报道,存储和查找文献的印刷型出版物或数据 库系统。文献检索 具是指对体积庞大、无序的一次文献经过 加 压缩而成体积较小的二次文献,再根据一定的原理和规则 编制而成的 具。可满足各种用户的不同层次的检索需求。 24
二、检索 具的类型 检索 具可以依据不同的标准来划分,根据著录内容可划分为 以下四种: 1. 目录 ( catalog ) 目录是对一批相关文献外部特征的揭示和报道。通常以一个完整的出版或 收藏单位为著录的基本单位来报道和记录文献。只记录文献外部特征(如名称, 著者,出版事项等)。目录一般按分类或字顺编排,主要供人们了解出版或收藏 机构是否拥有所需图书、期刊等出版物。 目录类型: 馆藏目录:反映一个图书馆文献收藏情况的目录。 中国国家图书馆 http: //www. nlc. gov. cn/ 联合目录:反映一个地区或一个系统甚至全国或世界范围的图书馆、 信息服务机构文献收藏情况的一种统一目录。 全国中西文期刊联合目录http: //159. 226. 100. 50/catalog/default. htm CALIS联机公共数据库 http: //opac. calis. edu. cn/ 25
按出版类型划分:图书目录、期刊目录、会议论文目录。 按物质形式划分:卡片目录、书本目录、机读目录(MARC)、联机 公共检索目录(OPAC ,Online Public Access Catalog )等。 OPAC :是指以计算机编码形式存贮在计算机 系统内,供读者通过终端设备进行联机检索的 图书馆目录,即书目数据库的一种形式。 目录示例: 可参照图书馆主页熟悉了解。 http: //202. 112. 150. 129/index. htm 26
2. 题录 ( bibliography 、bibliographic、citation ) 题录是单篇文献外表特征的揭示和报导,即对某一文献外部特征的描述, 由一组著录项目构成一条文献记录。 题录的著录项目一般有著者,篇名及出处等,常以一个内容上独立的文献单 元(如一篇文章,图书中的一部分,有时也可以是整本出版物)为基本著录单位。 题录在揭示文献内容的深度方面,比目录深入,但又比文摘简单。 示例1: 27
题录示例2:Ei CPX Web (《 程索引》网络版记录题 录显示格式) 28
3. 文摘 ( abstract ) 文摘是指对一份文献(或称一个文献单元)的内容所做的简略、 准确的描述,文摘的著录项目除了著者,篇名及出处等外,还有表 示文献内容特征的摘要。 文摘示例1: 29
文摘示例2:Ei CPX Web (《 程索引》网络版记录文摘显示格式) 30
4. 索引 ( index ) 索引是对一组信息集合的有系统的指引。索引是一种附 属性的检索 具,通常称为辅助索引。索引具有便于检索, 揭示事物比较深入、全面、明细等方面的优点。 索引的用途在文献检索中体现得极为突出,科技文献数量 庞大、内容复杂多样,使用面广且频繁。虽然已将其中绝大 部分加 压缩成文摘或题录等。但如果没索引,查检起来还 是很不方便。严格地说,没有索引的检索 具不能称为完善 的检索 具。 最常用的索引是主题索引、分类索引和著者索引等。 31
索引示例:Ei CPX Web (《 程索引》网络版索引显示格式) 32
三、网络信息检索 具 — 搜索引擎( Search Engine ) 定义:是一些在网页中主动搜索信息并将其自动索引的Web网站,与普通 网站不同的是,搜索引擎网站的主要资源是它的索引数据库,收集了全世界成 百万上千万个网站和网页的信息,存储在可供检索的大型服务器中,建立索引 和目录服务。 主要功能:是为人们搜索Internet上信息并提供获得所需信息的途径。 “ 搜索引擎”也就是指充分利用各种网络自动搜索技术,对网络信息资源提供强 有力检索的 具。 常用搜索引擎介绍与链接: 1. OCLC中的World. Cat 2. EI中的Sircus 3. 百度搜索 http: //www. baidu. com 4. http: //www. google. com 33
第四节 文献检索的方法和途径 一、检索方法 文献检索的方法(查找文献的方法)大致可以归纳为三种: 1. 直接法:即直接利用文献检索 具或检索系统来查找文献的方法,是 一种常规的科学检索方法。分为顺查法、倒查法和抽查法。 2. 追溯法:又称引文法,是一种跟踪查找法。是利用文献(尤其是评述性 论文或有关专著) 后面所附的参考文献,进行逐一地追踪查找原文。(例如: SCI) 3. 综合法: 1、2两种方法的综合。利用检索 具或检索系统进行常规检 索,再利用文献后所附参考文献进行追溯检索,分期分段交替使用这两种方法, 直到满足要求为止。可以查得较全面较准确,尤其适用于那些过去年代内文献较 少的课题。 34
二.检索途径 文献检索的途径主要可以分为以下几种: 1. 内容途径 文献检索一般是根据课题内容查找有关的文献信息,因此该途径是主要 的检索途径。内容途径又可分为以下两种检索途径: 分类途径 是一种按照文献信息所属学科(专业)属性(类别)进行检索的途径。一 般检索系统均提供数据库所使用的分类表的分类号索引。 分类语言 分类表 分类语言 是一种按学科范畴和体系来划分事物的检索语言,以分类表的 形式体现。它展示了学科的系统性,反映了事物的从属、派生关系,从上至下, 从总体到局部层层划分展开,是一种等级体系。由类目和相对应的类号来表达 各种概念,构成一个完整的分类类目表。 如: 《中国图书馆分类法》 主题途径 通过文献信息的内容主题进行检索的途径。计算机检索主要是主题检索, 35 检索系统可提供多个检索点。
《中图法》的分类原则 根据当前社会科学和自然科学所包括的学 科多、发展快等特点,按图书学科内容作为分类 的主要标准与依据。将图书在五个基本部类的基 础上分为 22个大类,分别以拉丁字母A—Z表示。 36
示例: 《中图法》 社 会 科 学 自 然 科 学 37
索书号 : 是识别一种图书的唯一标识,图书馆同一分类号的文献数量很多, 为了区别相同类号的文献,在分类号的基础上,又给了一个区分符号, 这个符号称之为书次号。书次号与分类号一起共同构成索书号。图书馆 的文献就是按照索书号的顺序排架管理的。 中文书索书号如: TP 312/ 39, 西文书索书号如: O 6/ FC 56 38
2. 著者途径 是根据已知文献著者姓名来查找文献的途径。文献著者包括个人著者和团体 著者。一般检索系统都有著者(个人)索引,有的还有团体著者(机构)索引, 均按字顺编排,其下为记录个数或文摘号。在利用内容途径查文献有困难时,如 一些新近发展起来的学科或技术,往往难于确定类目或检索词,使用著者途径查 找文献就显出其优越性,但该方法不能满足全面检索某一课题文献的需要。 3. 名称途径 根据文献的名称查找文献的途径。一般多用于查找图书、期刊、会议名称。 常用于目录性检索 具/系统,如《书名目录》《期刊联合目录》等。 4. 序号途径 以文献的编号为特征,检索文献的途径。根据一些文献类型的特有标识,如 科技报告的报告号;专利文献的专利号、入藏号,合同号,技术标准的标准号; ISSN,ISBN等作为检索点。 5. 其他途径 如分子式、元素符号、数字等。 39
40
核心期刊: http: //localsev. lib. pku. edu. cn/cjc/ 41
第五节 计算机检索基础知识 一、数据库概念 图书馆购买、拥有使用权 的电子资源(网络资源) 由IP地址限制, 专线访问, 免费使用 注意:严禁过量下载 即在一定时间内集中、 批量下载全文数量 超过50篇以上 并发用户 ( 3 -15人 ) 电子资源 知识产权 42
二、数据库的类型 目前在计算机检索领域中数据库种类繁多,为便于学习,归纳为文献数据 库和非文献数据库两大类。 文献数据库包括:题录文摘数据库、全文数据库; 非文献数据库包括:事实数据库、数值数据库等。 1. 题录、文摘数据库 (bibliographic database): 是一种二次文献数 据库,主要存贮相关主题领域的各类文献资料的书目信息,包括机读版的文摘、 题录、目录、索引等。用户可从大量文献记录中筛选出有参考价值的文献源, 并依据记录提供的来源指示获取一次文献。如:Ei CPX Web( 程索引 )、《中文期刊数据库(文摘题录版)》等。 43
2. 全文数据库(full-text database): 是将一个完整的信息源的全部内容 转化为计算机可识别和处理的信息单元而形成的数据集合,即机读化的一次文献。 用户可直接检索出原始文献,也可检索全文中的段、节、章等内容。 如: 《中国学术期刊数据库》、《维普中文科技期刊(全文版)》等。 3. 事实数据库 (fact database): 这类数据库能直接向用户提供可用 的数据 (包括文字、图形、图象、声音、计算机程序等)。如:百科全书、辞典、 手册、指南、地图集、人名录、企事业名录、计算机程序、音乐等。 如:中经专网(教育版)、中国资讯行、万方。 4. 数值数据库(numeric database): 这类数据库主要提供来自原始文献 的统计数据、调查数据或经过处理的各种数据、数值表格。 如:气象数据、地质资料、化学或物理化合物特性的文献数据、财务数据、 人口统计资料、市场调研数据等。 44
三、 数据库检索方式 1. 联机数据库 联机检索是用户利用计算机终端设备,通过通信线路与联机信息检索中心 的中央计算机联机进行检索。联机检索系统由用户检索终端、通信网络和联机信 息检索中心组成。联机检索允许用户采用人机对话的交互方式直接访问检索系统 和数据库,检索是在线实时进行的。如:Dialog国际联机检索系统。 2. 光盘数据库 光盘检索系统的基本构成包括微机、CD-ROM驱动器、软件(检索软件和系统 软件)。 光盘检索系统可单用户检索,也可将CD-ROM驱动器接入局域网,如通过 图书馆网或校园网连接多个用户终端,用服务器管理运行一组光盘数据库,组成 多用户CD-ROM网络。 如:INSPEC (1989— 2000) 3. 网络数据库 通过WWW访问数据库站点,确认合法用户和口令或IP地址后,进入检索界面 进行检索。该种检索方式不受时空限制,合法用户可在任何地方适时检索。 45
三、词位置检索(positional operator) — 位置运算符 利用布尔逻辑算符对检索词进行逻辑组配时, 未限定检索词之间的位置关系, 会影响某些课题的查准率并容易造成误检。为了弥补其不足,一般检索系统都提 供文中自由词检索功能,也称全文检索功能 (Full text searching)。 所谓全文检索是利用文献记录中任何有实义的关键词、词组或字符串作为检 索词,词与词之间的位置关系可以用位置运算符来表达。位置运算符的使用,进 一步强化了对概念的限制,比布尔逻辑运算符更能表达复杂的概念,并避免AND 逻辑组配产生的词义含糊或误检。 为了提高检索的广度和准确度,常常需要对检索词之间的位置关系加以限定。 • **全文检索的运算方式,不同的检索系统有不同的规定,主要差别有两点: • 规定的位置算符不同; • 位置算符的职能和使用范围不同。 下面介绍几种数据库经常使用的位置运算符: 46
检索效果: 查全率:检索过程中,计算机输出的相关文献数与计算机数据库中相关文 献的总数之比。 检 出 相 关 文 献 量 文献库内相关文献总量 × 100% 查准率:检索过程中,计算机输出的相关文献数与输出的文献总数之比。 检 出 相 关 文 献 量 × 100% 检 出 文 献 总 量 实验证明: 在查全率和查准率之间存在着相反的相互依赖关系 —如果提高输出的查全率,就会降低其查准率,反之亦然。 47
第六节 计算机检索技术 一、布尔逻辑检索 在计算机文献检索中,用户的检索需求是通过检索提问式表达的,逻辑算 符在检索提问式中起着逻辑组配作用,它们能把一些具有简单概念的检索词(或 检索项)组配成为一个具有复杂概念的检索式,用以表达用户的检索需求。 布尔逻辑(组配)算符:系统中采用的逻辑组配算符是布尔代数中的逻辑运 算符AND/*(与)、OR/+(或)、NOT/—(非)。 布尔逻辑检索: 即运用布尔逻辑算符对检索词进行逻辑组配,表达两个概 念之间的逻辑关系。 1. AND 或 * 算符 实现逻辑“与”组配 检索时,命中信息同时含有两个概 念,专指性强。 如:logistics AND e-commerce traffic AND control 48
2. OR 或 + 算符 实现逻辑“或”组配 检索时,命中信息包含所有关于逻 辑A或逻辑B或同时有A和B的,检 索范围比AND扩大。 如:rapid transit OR light rail OR subways railway OR railroad 3. NOT 或 – 算符 实现逻辑“非”组配 命中信息包含逻辑A、不包含逻 辑B或同时有A和B的,排除了不 需要的检索词。 如:fruit NOT apple windows NOT Microsoft 49
二、截词检索 (truncation) — 截词符 截词是指将检索词在适当的地方截断,截词检索是用截断词的一个局部进 行的检索,凡是满足这个截词所有字符(串)的记录,系统都为命中。 截词检索在西文数据库中广泛使用。是在词干后可能变化的位置加上截词 符号。检索词的单复数形式,同一词英、美不同拼法,词根相同的词都可用截词 检索。这样既可减少检索词的输入量, 又可扩大查找范围,提高查全率。 按 截 词 位 置 分: 有前截断、后截断、中截断; 按截词的字符数量分:有非限制截断、限制截断。 ** 表示截词的截断符号,各检索系统有不同的规定,没有统一 标准。 50
1. 后截断是在检索词词干后面加截词符,表示不限制或限制词 尾可变化的字符数,即查找词干相同的所有词。从检索性质上讲, 后截断是前方一致检索。 非限制截断:是在检索词词干后面加一个截词符,表示不限制词尾可变 化的字符位数,即查找词干相同的所有词。 例: comput? 表示允许其后可带有任何字符且数量不限,相当于查找 compute、 computed、 computes、 computing、 computers、 computerize、computerized、computation、 computations、 computationally 等词。 ***不宜将词截得过短,否则容易造成误检。 限制截断 :是在检索词词干后面加若干个截词符,表示限制可变化的字 符数。 例:fib? ? 相当于查找 fiber 或 fibre ……(Ei Compendex Plus) librar? 相当于Libraries, librarian, library…… educat? ? 相当于Educator, educated…… 51
2. 中截断 (通配符或屏蔽) 是把截断符号置于一个检索词的中间,对词中间出现变化的 字符数加以限定。一般中截断仅允许有限截断。 例:organi#ation, 可检索到包含organization和organisation的记录。 一个?代表零个或任意个字符。 例: colo? r ,可检索到包含 color、colour、colonizer、 colorimeter的记录。 一个? 和数字,其中的数字代表可替换的字符数。 例:colo? 1 r, 只能检索到包含colour的记录。 52
1. W - With W 算符是With的缩写,表示在此算符两侧的检索词必须按输入时的前后 顺序排列,不能颠倒。所连接的词之间除可以有一个空格、标点或连接号外不得 夹有任何其他单词或字母。 例: intelligent (W) robot? (Ei Compendex Plus) Wn( 或n. W) 表示在此算符两侧的检索词必须按输入时的前后顺序排列, 不能颠倒。但允许在连接的两个词之间最多插入n个单元词。 例: intelligent w 1 robot* (OCLC First. Search) 2. N - Near N算符是Near的缩写,表示此算符两侧的检索词必须紧密相连,所连接的 词之间不允许插入任何其他单词或字母。但词序可以颠倒。 例: intelligent NEAR robot* ( Ei CPX Web) Nn (或n. N)表示在两个检索词之间最多可插入n个单词, 且两词的词序任意。 例: intelligent N 1 robot* (OCLC First. Search ) 3. Adj - adjacency 邻接算符,表示在此算符两侧的检索词必须按所列词序排列,不能颠倒, 两 词之间不允许有其他的词或字母。相当于短语检索。 例: intelligent adj robot* (Elsevier Science SDOS) 53
54
四、字段检索 (range searching) 字段检索即指定检索词出现的字段,被指定的字段也称检索入口,检索时, 系统只对指定字段进行匹配运算,提高了效率和查准率。西文数据库,字段检 索常用代码来表示,如下表所示。 55
注意:目前各个检索系统所设立的字段是各不相同的,即同一字段,也可 能采用不同的字段代码表示。 如题名字段:Ei CPX Web 中, 用 highway transport* within TI 来表示; OCLC Firstsearch 中,用 TI: highway transport* 来表示。 在进行字段检索时,为了避免出现检索误差, 应先看一下该数据库的使用指 南或说明。 例: Ei CPX Web 网络版数据库主要字段的字段代码如下: CV Ei叙词表受控语言 TI 题名 AB 文摘 AU 著者姓名 AF 著者机构名称 ST 连续出版物名称 PN 出版时间 56
构造检索提问式示例: 课题:数字化图书馆的文献检索服务 检索概念分析: document retrieval 并列概念 document delivery document delivery system digital library 同义词 virtual library electronic library 检索提问式: (document W retrieval or document W delivery W system*) and (digital W librar* or electronic W librar* or virtual W librar*) record found : 11 57 (OCLC Firstsearch)
常用名词术语 ISBN: 国际标准书号 (International Standard Book Number)的简称,是专门为识别图书等文献而设计的 国际编号。 ISO于1972年颁布了 ISBN国际标准,并在西柏林普鲁士图书馆设立了实施该标准的管 理机构———国际 ISBN中心。现在,采用 ISBN编码系统的出版物有:图书、小册子、缩微出版物、 盲文印刷品等。ISBN由 10位数字组成,分四个部分 ;在联机书目中, ISBN可以作为一个检索字段, 为用户增加了一种检索途径 。 例如:ISBN 7 - 5611 - 0133 - 3 组号 出版者号 书序号 检验码。 (国家、地区、语言的代号 ) ISSN: 国际标准连续出版物号 (International Standard Serial Number)的简称,是 ISDS(国际连续出版物 数据系统 )国际中心为在该系统登记的连续出版物分配的号码。采用 ISSN编码系统的出版物有:期 刊、会议录等。 ISSN由 8位数字组成,分两个部分 ;在联机书目中, ISSN可以作为一个检索字段, 为用户增加了一种检索途径。 例如:ISSN 1002 -1965 序号 检验码。 ISRC: 国际标准音像制品编码 (International Standard Recording Code)的简称。它是音像制品的国际性 的唯一标识编码。目前采用 ISRC编码的出版物包括唱片、录音带、录像带、激光视盘、激光唱片等。 ISRC的实施必将对音像制品的出版发行、版权保护、信息交换和市场管理产生积极的影响。 ISRC 在联机目录中也可以作为用户的一个检索人口。 ISRC由国家码、出版者码、录制年码、记录码和 58 记录项码五个数据段 12个字符组成。 BACK
22648838e1316e1915379988395b480e.ppt