ef5c1ef395ba71ca02f058150f368bb3.ppt
- Количество слайдов: 61
資訊檢索之策略與技巧 邱子恆 2008. 3. 31 -2008. 4. 7
Outline n 資訊檢索之基本概念 n 檢索策略 n 檢索技巧
I. 資訊檢索之基本概念 n IS&R n 自然語言 vs. 控制字彙 n precision vs. recall n 布林邏輯運算元 n 切截 n 相近運算元 n Known item search vs. subject search
資訊儲存與檢索 (IS&R Model)
索引作業 檢索作業 資料 需求 分析內容 分析需求 選擇關鍵詞 轉譯 系統關鍵詞 選擇關鍵詞 索 引 典 資 料 庫 檢索結果 轉譯 系統關鍵詞 關鍵詞比對
自然語言 n 自然語言是相對於人 語言 的一種人類語言,也是最合 乎人類教談行為的溝通方式, 它依循著人類自然進化而發 展,成為人和人之間溝通的 最基本 具,如中文、英文、 日文等都是自然語言。
控制字彙 n Maintenance UF Preventive maintenance Upkeep n Preventive maintenance use Maintenance Upkeep use Maintenance
回收率 & 精確率 n Recall(回收率 /查 全率 ) & Precision(精確率 /查準率 ) 相關 不相關 檢索到 a b 未檢索到 c d 總數 a+c b+d
查全率 =a/(a+c) 相關 查準率 =a/(a+b) 無關 c d a b
布林邏輯 (AND、 OR、 NOT) A AND B AND C A OR B NOT C
切截 (truncation) n n n Library, libraries, librarians, librarianship --> lib* (單複數 , 詞性不同 , 使 用 右切截 ) Woman, Women --> Wom#n (單複數 , 使用 中間切截 ) Color, Colour --> Colo#r (美式 /英式拚音 , 使用中間切截 )
相近運算元 (adjacent/near) n n ANALOG* ADJ 1 DIGITAL* 482(1999) ANALOG* NEAR 1 DIGITAL* 506(1999)
Known item search n 已知書目之檢索 , 即精確檢索 p 用已知的書目資料來檢索 , 包括 : 作者 , 題名 , 期刊名 , 出版商 , 出版年 … etc.
Subject search n 主題檢索 n 想檢索一下到底有那些關於某主題的文 獻存在
II. 檢索策略 n 針對一檢索問題之通盤考量或全面性規 劃 p 分區組合檢索法 (Block Building) p 引用文獻滾雪球法 (Citation Pearl Growing) p 簡易檢索 (Brief search) p 主題層面連續檢索 (successive facet strategies) p 主題層面配對檢索 (pairwise facets strategies)
分區組合檢索法 n n n n 1. 選擇資料庫 2. 確定問題之主要概念及其布林邏輯關係 3. 依序找出代表每個概念之所有詞彙 4. 將各概念下所有詞彙以 “OR”連結 5. 將步驟 4所得結果以步驟 2所決定之布林邏 輯關係進行結合 6. 依步驟 1至步驟 5 規劃檢索 敘述 7. 輸入 檢索 敘述 8. 評估檢索成果
分區組合檢索法示意圖
引用文獻滾雪球法 n 事先掌握一篇或數篇相關文章 , 利用這 些相關文章找尋更多相關的文章 , 如此 相關文章就像雪球一樣越滾越大. n 在資訊檢索上的應用 : 以相關文章的關 鍵字或敘述語繼續檢索. n 是由 precision反向追求 recall的方法 n 通常必須進行多次檢索 , 才能找到足夠 的相關文章.
簡易檢索 n 最常見的檢索 n 通常用簡單的幾個關鍵字 , 加上布林邏 輯的組合 n 快速 , 同時檢索到的文章不多 n 適用情形 : p 檢索者只闓想閱讀 , recall低 “幾篇 ”相關文章 p 執行已知書目檢索時 p 檢索概念相當專指 (specific) 時
主題層面連續檢索 n 在決定檢索問題的主題層面之後 , 必須 確認各主題層面的優先順序. n 在最專指概念或是可能產生最少資料的 概念輸入系統後 , 如果產生太多資料 , 再 輸入其他次要概念與之結合. n 直到檢索者認為檢索筆數可以接受為止.
主題層面連續檢索 n 適用情形 : p 當所有主題層面以布林運算元結合 , 可能產 生零筆資料時 p 當檢索問題中有一至二個主題層面涵義相 當模糊時 p 當檢索問題具備其他非主題之檢索條件時 ( 如 : 資料類型 , 語文 , 出版年代 ), 可將此非主 題檢索條件視為第一個檢索概念
主題層面連續檢索 n 適用情形 : (續 ) p 當檢索者寧願忍受誤引 , 而不願失去相關文 章時 p 當加入其他主題層面所花費的時間和金錢 , 可能會超過直接列出檢索結果 , 每筆一一審 視時 p 當相關文獻過少 , 檢索者願意檢視一些相關 度較低的文章時
主題層面連續檢索示意圖
主題層面配對檢索 n 是先將主題層面兩兩配對 , 並取其交集 n 也就是取任意二主題層面的交集而後聯 集之 n 適用情形 : p 當所有主題層面都同樣重要時 p 當主題層面之專指性或模糊性相差不大時 p 當將所有主題層面結合可能導致零筆資料時
主題層面配對檢索示意圖
比較圖
III. 檢索技巧 n 為完成特性目的所採取的行動 p 當檢索所得資料筆數過多時 (通常指誤引太 多) p 當檢索所得資料筆數過少時 (包括零筆資料 ) p 當檢索者想提高 recall 時 p 當檢索者想提高 precision 時
當檢索所得資料筆數過多時 n 是否過份簡化問題 ? n 是否需要重新釐清檢索概念 ? n 是否使用了正確的布林邏輯運算元 n 是否使用過份含混或一般性之名詞 n 是否應考慮使用控制字彙 ? n 是否相近運算元限制過鬆 ? n 是否切截應用過鬆 ? ? ?
當檢索所得資料筆數過少時 n n n n 是否將問題過份複雜化 ? 是否真有文獻探討該主題 ? 是否每個概念都使用足夠的檢索詞彙來表達 是否相近運算元限制過緊 ? 是否使用了正確的布林邏輯運算元 ? 是否有語法或拼字上的錯誤 ? 是否該改用自然語言進行檢索 ? 是否考慮使用切截 ? ?
當檢索者想提高 recall 時 n n n n n 增加同義詞和類同義詞的數目 使用較廣義的檢索詞彙 以自然語言檢索代替控制字彙檢索 檢索其他主題欄位 刪除布林邏輯運算元 “AND”及 “NOT” 增加切截的範圍 使用較鬆的相近運算元 刪除一些非主題之檢索限制 (如 : 年代 , 資料類型 ) 刪除一主題層面
當檢索者想提高 precision 時 n n n n 刪除部份類同義詞或是詞意含糊的檢索詞 彙 使用專指性較高的詞彙進行檢索 當有適當的控制字彙 具時 , 盡量使用其來 代替自然語言 增加一主題層面 使用 “ NOT” 除去不相關文章 減弱切截的範圍 加上非主題之檢索限制 (如年代 , 資料類型 )
網路資源之檢索 n 分類目錄(directory) n 搜尋引擎 (search engine) p 進階檢索 n 整合性搜尋引擎 (meta-search engine)
Yahoo!奇摩之分類目錄
Google搜尋引擎
Google 搜尋引擎之進階檢索
Meta search engine n Meta-Search Engines本身不是一種搜尋引擎,而 是將使用者輸入的關鍵字轉送給各大搜尋服 務網站,由這些搜尋引擎去做檢索的 作。之 後其會將這些搜尋引擎所傳回的網頁,依據關 鍵字和網頁相關性的大小,將這些網頁整合在 一起,合併這些搜尋引擎的搜尋結果,並加以 排序,將搜尋結果整理,最後傳送給使用者。 如此,使用者便能藉由 Meta-Search Engines的合 併排序,輕易找到他想要的相關網頁,而不再 需要像以往那樣為了能找到資料,需要於不同 的搜尋引擎中重覆輸入關鍵字,做重覆查詢篩 選的動作。
Dogplie:整合性搜尋引擎
Dogplie:整合性搜尋引擎
Dogplie:整合性搜尋引擎
Google之學術性資源 n Google Book Search p http: //books. google. com/ n Google Scholar p http: //scholar. google. com. tw/schhp? hl=zh-TW
Google Book Search
Google Book Search n Google Library是 Google於 2002年起,首先與美 國密西根大學研議,企圖將圖書館館藏數位化 的一項計畫,該計畫打算將圖書館的圖書內容 全文掃描,再經文字辨識處理之後,將圖書之 內容數位化,做成線上圖書全文檢索系統。 Google投資了兩億美元,目前合作的對象包括: 史丹福大學、密西根大學、哈佛大學、牛津大 學、以及紐約公共圖書館等五大圖書館,希望 將參與圖書館之館藏圖書數位化,讓全球各地 讀者能夠在線上搜尋到圖書的內容。
Google Book Search n Google Book Search收錄的圖書相當廣泛, 舉凡小說、非小說、參考 具書、學術性 資料、教科書、兒童書、科學、醫學、專 業、教育等等領域都有。而隨著參與計 畫的五大圖書館之館藏逐漸被數位化, 絕版書、罕見書( rare books)、公共領域( public domain)的書籍都將包括其中
Google Book Search n 當使用者找到喜歡的圖書之後,可以選 擇從「 Buy this book」的聯結串連至網路書 店購買;若該書為某一圖書館的館藏,則 可以選擇「Find it in a Library」的聯結,系 統會自動與 OCLC的聯合目錄 World. Cat串 連,在美國地區的使用者只要輸入郵遞 區號,系統即會告知該區域中有哪些圖 書館擁有這本圖書,使用者可以進一步 到圖書館借閱。
Google Book Search之進階查詢
Google Book Search之查詢結果
看見圖書的封面,目次,索引,封底; 並可以做該書內文的全文檢索
可以進而在網路書店訂購
可以看見書中相關的文句
可以看見部份的頁面
Google Scholar(學術文獻搜尋) n Google Scholar提供了使用者簡單而方便 地查詢學術文獻的單一入口,使用者可 以從中搜尋到不同學科與不同來源的學 術性資料,包括:由學術性出版社、專業 學會、預刊本( pre-print)資料中心、大學、 與學術組織所提供的同儕審核論文、學 位論文、以及學術性圖書、摘要、與期刊 論文等。
Google Scholar(學術文獻搜尋) 特色 p p p 從單一窗口一次查詢眾多來源的資料 可以找到論文、摘要、與參考書目 若使用者的隸屬機構有訂購該電子資源, 可以直接串連獲得文獻全文 使用者可以找到任何研究領域的重要文 獻 檢索結果以與檢索條件的相關性( relevance)排序
Google Scholar(學術文獻搜尋) n Google Scholar的合作對象包括 ACM、 Nature、 IEL、 Cochrane. org、 OCLC、與許多專業學會,而 這些知名的資料出版與彙整單位與 Google合作 的好處有:增加其資料被使用者獲取的管道、 增加全文被連結的機會、增加單篇文章被訂購 的機會等。但要再次提醒使用者的是,資源取 得的基本概念並沒有改變,就是都要「付費才 能取得全文」,也就是說使用者在隸屬機構的 有效網域中,可以直接由 Google Scholar檢索結 果的書目資料,串連至該機構有訂購的電子資 源;或是直接向資料出版機構單篇購買文獻。
Google Scholar(學術文獻搜尋) n Google Scholar取得許多商業出版單位的 非專屬授權,進行論文全文的索引後, 使用者可以鍵入關鍵字,以全文檢索的 方式搜尋符合其研究興趣的論文全文。 例如:鍵入「李遠哲」,系統馬上可找到許 多由李遠哲發表、或文中提及李遠哲三 個字的學術文獻;除了可直接超連結取 得全文外,每篇搜尋結果下同時會出現 這篇文章被引的次數,點選後亦可清楚 知道哪些文章引用了此篇文章。
Google Scholar(學術文獻搜尋) n 在搜尋引擎上建置引用文獻統計與連結 的功能,可讓使用者直接藉此評估文章 的重要性與權威性,便於使用者選擇需 研讀的文章以進行學術研究。再者,除 了引用文獻統計,還可直接點選進入其 他搜尋引擎找尋與此文章相關的資源, 相當適合作為研究性資料搜尋 具。
Google Scholar
Google Scholar之進階檢索
Google Scholar之查詢結果
與使用者隸屬機構所訂之資源連 結
直接獲取全文
顯示文獻之被引用次數
ef5c1ef395ba71ca02f058150f368bb3.ppt