Скачать презентацию OAI и создание репозитариев организаций Хохлов Александр Юрьевич Скачать презентацию OAI и создание репозитариев организаций Хохлов Александр Юрьевич

93cb64297b264da3fd68a89cbbf85c3c.ppt

  • Количество слайдов: 15

OAI и создание репозитариев организаций Хохлов Александр Юрьевич OAI и создание репозитариев организаций Хохлов Александр Юрьевич

Вопросы для обсуждения o o Что такое OAI? Зачем это нужно? Что уже создано? Вопросы для обсуждения o o Что такое OAI? Зачем это нужно? Что уже создано? Что еще можно сделать?

Предпосылка создания OAI o Существуют базы данных, которые не индексируются крупнейшими поисковыми системами и Предпосылка создания OAI o Существуют базы данных, которые не индексируются крупнейшими поисковыми системами и не видны пользователям за пределами соответствующих веб-сайтов n Изначально это касалось E-Print community, но далее оказалось полезно для более широкого круга лиц

Что такое OAI o o OAI – Open Archive Initiative, «инициатива открытых архивов» Идеология Что такое OAI o o OAI – Open Archive Initiative, «инициатива открытых архивов» Идеология репозитариев, в которых что-то хранится (и не более того) n Отнюдь не обязательно это статьи или книги Технологии, обеспечивающие сбор информации из этих репозитариев n OAI-PMH – OAI Protocol for Metadata Harvesting, «OAI протокол для сбора метаданных» Тем самым слово «открытый» применяется в смысле «доступный» , но никак не «бесплатный» , хотя в большинстве случаев это именно так

Не путать с Z 39. 50 o o В OAI репозитарий предоставляет средства организованного Не путать с Z 39. 50 o o В OAI репозитарий предоставляет средства организованного сбора метаданных (по датам изменения записей) В рамках Z 39. 50 создается поисковый механизм (сервер) для поиска по базе данных и извлечения найденных записей

Пример: OAIster. org – поисковая система по OAI архивам o o 5 366 375 Пример: OAIster. org – поисковая система по OAI архивам o o 5 366 375 записей из 472 организаций (по состоянию на 5 мая 2005) Высокая концентрация ресурсов: <30 организаций поставляют более 50% записей

Записи в OAIster (по состоянию на август 2004) o o o o o o Записи в OAIster (по состоянию на август 2004) o o o o o o o 574 878 Cite. Seer Scientific Literature Digital Library 295 380 Cite. Base 293 592 Pub. Med Central (PMC) 210 270 The University of Michigan, University Library, Digital Library Production Service Collections 184 972 Institute of Physics (IOP) 184 838 State Library of Victoria OAI Repository 158 344 Library of Congress American Memory Project 87 618 Wolfram Research's Mathematical Functions 56 709 The National Science Digital Library 53 000 Research Papers in Economics (Re. PEc) 39 690 ANU (Australian National University) DSpace 34 267 Internet Archive 32 597 Colorado Digitization Project (CDP) 30 379 Digital Manuscripts, Archives, and Special Collections, Washington State University (WSU) Libraries 29 595 Virginia Tech (VT) Image. Base 26 629 NASA Technical Report Server (NTRS) 25 312 Online Collections at Brigham Young University (BYU) 24 985 Bibliotheksservice-Zentrum Baden-Württemberg, Germany, Virtueller Medienserver 24 523 Sci. ELO (Scientific Electronic Library Online) 17 988 LOUISiana Digital Library (LDL) 17 698 Historic American Sheet Music, Rare Book, Manuscript, and Special Collections Library, Duke University 16 460 CERN Document Server 15 407 Networked Computer Science Technical Reference Library (NCSTRL) Historical Collection 12 473 Project Euclid, Cornell University 12 349 Bio. Med Central (BMC) 12 149 Wolfram Research's Math. World 11 220 Wageningen Yield (Wa. Y)

Крупнейшие архивы (более 100 000 записей на август 2004) o o o o o Крупнейшие архивы (более 100 000 записей на август 2004) o o o o o 575 006 – Research. Index (Site. Seer) 401 120 – NSDL 315 963 – Pub. Med Central 295 380 – Site. Base 280 780 – ar. Xiv. org 210 270 – University of Michigan Library 184 972 – Institute of Physics (IOP) 184 838 – State Library of Victoria 158 344 – Library of Congress American Memory Project 108 780 – National Library of Australia Digital Object Repository

Google и OAI o o Google использует OAI для индексации нескольких больших архивов (в Google и OAI o o Google использует OAI для индексации нескольких больших архивов (в рамках проекта Scholar) Скорее всего, скоро станет стандартом де-факто для обхода и индексации баз данных и в других поисковых системах

Итак, роль OAI-PMH: o Способствовать распространению метаинформации из баз данных n o Один из Итак, роль OAI-PMH: o Способствовать распространению метаинформации из баз данных n o Один из возможных вариантов индексации «deep web» И не более того.

Университеты и их представительства в интернет o Каждый университет имеет веб-сайт n o для Университеты и их представительства в интернет o Каждый университет имеет веб-сайт n o для информации об университете и его деятельности Каждый университет имеет публикации своих ученых или личные странички ученых с их публикациями n Каким-то образом согласуется с политикой издательств

Роль репозитария o o o Организовать процесс сбора и хранения информации в рамках одной Роль репозитария o o o Организовать процесс сбора и хранения информации в рамках одной организации Способствовать поиску / локализации необходимых для пользователя объектов Организовать процесс жизни и обслуживания ресурсами репозитария

Сигла o Главная задача проекта – организация поиска информации, независимо от протоколов и местоположения Сигла o Главная задача проекта – организация поиска информации, независимо от протоколов и местоположения ресурсов n n Реализация распределенного поиска по Z 39. 50 Реализация сбора метаданных по протоколу OAI-PMH и поиска по собранным коллекциям через протокол Z 39. 50

Выводы o o OAI-PMH предлагает эффективный способ сбора информации из баз данных для поисковых Выводы o o OAI-PMH предлагает эффективный способ сбора информации из баз данных для поисковых систем Организациям логично иметь репозиторий в дополнение к обычному веб-сайту

Возможное дальнейшее развитие o o o Большинство статей одновременно с их закрытыми публикациями будут Возможное дальнейшее развитие o o o Большинство статей одновременно с их закрытыми публикациями будут иметь открытые копии, которые будут доступны для поисковых систем Google и другие поставщики глобальных поисковых решений будут иметь возможность сбора большинства всех публикуемых статей Возникнут новые методы оценки качества текстов статей, основанные на постссылочных технологиях ранжирования