
d72661b91edf7cdddd3b3b11c014a63d.ppt
- Количество слайдов: 36
ПОДХОДЫ К ПРЕДСТАВЛЕНИЮ НАУЧНЫХ ЗНАНИЙ В ИНТЕРНЕТ НАУКЕ Е. М. Лаврищева, Л. Е. Карпов, А. Н. Томилин Конференция "Научный сервис в сети Интернет" 18 -23 сентября 2017, Абрау Докладчик Доктор физ. - мат. наук, профессор, Лаврищева Е. М. 15. 09. 2016
Основные вопросы доклада 1. Определение интернет науки (escience). 2. Цели и задачи e-science. 3. Организация работ со знаниями в Интернет. 4. Базисные основы Web-сервисов. 5. Управление онтологиями. 6. Grid системы Европейского проекта. 7. Направления развития. 2
Интернет наука Электронная интернет наука (e-science) определена Дж. Тейлором (директор ГУПНТ Великобритании) в связи с развертыванием программы глобализации науки в 2000 году. Для обозначения науки в других странах Европы использовались термины e-research, а в США e-infrastructure и е-cyberinfrastructure. Интернет наука ориентирована на развитие таких отраслей: - медицина и здравоохранение (разработка средств наблюдения, диагностики и лечения); - биология и биоинформатика (исследование генома человека для исследования генетических болезней, создания новых лекарств и др. ); - нанотехнологии (разработка новых материалов и устройств на молекулярном и атомном уровне); - математическое моделирование в физике, метеорологии, экологии, геологии, астрономии, космосе; 3 - инфраструктура киберсистем и др.
Организации развития Интернет науки (e-science): - Европейский центр по ядерным исследованиям ЦЕРН (European Organization for Nuclear Research, CERN), объединяющий более 120 стран-участниц, более 20 стран-наблюдателей, включая Россию, а также несколько международных организаций (ЮНЕСКО и др. ); - UK e-Science Programme (Великобритания) и Core Programme (e. SCP), во главе с Национальным центром электронной науки в Эдинбурге (National e-Science Centre, NSC); - Глобальный форум Grid (GGF, Global Grid Forum), Data. Grid и Globus Toolkit (http: //www. globus. org); - Консорциум ЕС DEISA (Distributed European Infrastructure for Supercomputing Applications); - Проекты Tera-Grid, Strategic Grid Computing Initiative и Grid-сети комитета Национального управления по воздухоплаванию и исследованию космического пространства (National Aeronautics and Space Administration, NASA) и министерства обороны США; - Китайский проект China-Grid; - Индийский национальный Grid-проект GARUDA; - Проект единой компьютерной сети GLORIAD, включает США, Канаду, Европу, Россию, Китай, Южную Корею и др. 4
Задачи Интернет науки и средства поддержки: Электронная наука ориентирована на проведение современных научных исследований, включая подготовку и проведение экспериментов, сбор данных, распространение результатов, а также их хранение и доступ ко всем полученным материалам. Исследования проводятся методом моделирования, анализа данных и информации для представления накопленных знаний в разных областях. Средствами поддержки электронной науки являются: - семантическая сеть (Semantic Web); - computer science (компьютерная, системная и программная инженерия); - Информатика, Knowledge; - облачные вычисления (Cloud Computing); - большие данные (Big Data); - Data Mining, Variability Mining и др. ; 5 - Ontology и др.
Интернет науки в IEEE Международный комитет IEEE (2014) дал следующее определение: «Электронная наука включает в себя то, что называют большие данные, большой адронный коллайдер (БАК) ЦЕРН, который в год производит около 780 терабайт научных данных для интенсивной обработки в вычислительной биологии, биоинформатике, геномики и в социальных науках…» . Главным аспектом электронной науки является научный эксперимент. Проведение научного эксперимента включает: - научный процесс; - процесс подготовки и проведения эксперимента; - процесс управления информацией; - процесс управления знаниями и др. 6
Процесс проведения научных экспериментов в e-science 7
Модель жизненного цикла процесса знаний 8
Дерево представления знаний Рис. 3. Дерево технологии знаний 9
10
Управление знаниями в e-science: 1. Формулирование запроса в связи с задачей, которую предстоит решить; 2. Аудит, поиск и выбор лиц для установки контактов для анализа проблемы и поиска информации для принятия решений и приобретения новых знаний. 3. Вынесение предположений или возможных решений, их агрегация и концентрация поиска и анализа результатов эксперимента. 4. Использование знаний. Приобретенные знания (в результате циклического выполнения этапов процесса) оформляются в виде отчетов для публикации. 5. Архивация знаний для доступности их последователям. 11
Представление знаний базовыми сервисами 12
Дерево технологии знаний 13
Модели знаний в агентной технологии - модель агентов для спецификации характеристик и рассужде ний агентов, sensor/effectors и сервисов; - модель задач, которые могут выполняться агентами для дости жения поставленных целей; - организационная модель, которая задает социальную структуру сообщества агентов; - координационная модель, задающая методы ведения перегово ров (общений) между агентами; - коммуникационная модель, детализирующая взаимодействие сетевых агентов, людей и программных агентов; - модель проекта системы включает типичные действия по проектированию, связанному с определением сети агентов, выбору наиболее подходящих архитектур агентов и платформы для разработки новых агентов. 14
Процесс представления знаний сервисами: Процесс представления знаний задается методологиями, основанными на знаниях (Knowledge-based systems, KBS), Common KADS с использованием библиотек, содержащих элементы решения задач Пр. О с reuses, а также агентной методологией мультиагентного анализа и проектирования систем и др. К базовым сервисам знаний относятся: - извлечение знаний согласно образцам в CBS, CВR; - кластеризация и индексация больших объемов информации; - связи одних сущностей онтологий с другими; - динамическое аннотирование контента для связи с концеп туальной схемой; - уточнение больших объемов контента; - визуализация больших наборов контента по требованиям пользователя; - умозаключения и мониторинг, диагностика тех или иных событий, выявление ситуаций и оценивание успешного 15 завершения процесса.
Онтология – инструмент концептуализации знаний В основе представления знаний о доменах/предметных областях лежит совокупность концептов (понятий) и отношений между ними, классификация понятий и их таксономия (тезаурус) и методы создания профильных онтологий. В мировой практике работает ряд готовых профессиональных онтологий: - Sensus онтология естественного (английского) языка, содержит более 70 000 терминов и их дефиниций; - онтология электронной коммерции; - глобальная онтология продуктов и услуг (стандарт ООН); - коммерческая онтология SCTG транспортных потоков товаров компаний; - онтология e–clаss для обмена данными и материалами между продавцами и пользователями компаний Германии; - онтология товаров Rosetta. Net от 400 коммерческих комп. ; 16 - онтология требований (Requirement) in Software Enginееr. ;
Элементы онтологий для концептуализации Это классы, факты, аксиомы, фасеты, слоты и др. Класс описывает понятия предметной области (Пр. О). Он может быть эквивалентом, подмножеством или пересечением более общих классов с ограничениями. Классы могут иметь собственные слоты. Например, документация класса - собственный слот, присоединенный к классу. Слот – задает свойства (атрибуты) и ограничения для типов значений (целое, символьное и др. ) с границами (min, max). Слот может быть template slot, own, он присоединяется к фрейму. Фасеты задают свойства слотов (конкретные типы и возможные диапазоны значений) и ограничение на ТД для присоединения слота к фрейму класса подобно XML-схемам. Аксиома класса определяет совокупность базовых описаний, которые могут иметь вид обобщенных классов, ограничений, наборов ресурсов, булевых комбинаций описаний и др. 17
Жизненный цикл онтологии знаний Поддержка жизненного цикла знаний. Языки проекта Semantic Web пригодные для спецификации, моделирования знаний и выполнения рассуждений с использованием знаний. Достижение доверия к добываемым знаниям. Проблема доверия к результатам логического вывода связана с обеспечением качества информации и логического вывода. Обеспечение качества информации, полученной машиной вывода, заключается в проверке на корректность и полноту фактов, содержащихся в аннотациях. Обеспечение качества машин логического вывода. Машины логического вывода (для сервисов базового уровня) зависят от количества и качества аннотаций, полученных в обогащенном контенте. Требуется определить надежность логического вывода. Разработаны стандартные методы и средства верификации онтологий, измерения (метрик), моделирования и 18 оценивания качества онтологий.
Web-Grid в электронной науке В е-science развиваются Grid-технологии и Веб-Семантики. Web-Grid состоит из набора кластеров. Каждый из них – это несколько объединенных компьютеров (одно- или многопроцессорные узлы), используемые как единое целое. Grid представляет собой "надстройку" над Интернет, основанную на использовании Web-сервисов. 19
Grid-системы в электронной науке обеспечивают - координирование разрозненных ресурсов, управление ресурсами кластера, предоставление к ним полного доступа; - предоставление стандартных и открытых протоколов, сервисов и интерфейсов; - обеспечение высокого качества обслуживания - гибкость доступа к ресурсам, масштабируемость, безопасность (устойчивость к атакам злоумышленников, конфиденциальность), контроль над ресурсами и др. Grid-системы предоставляют: • общие сервисы (службы именования, каталогизации и др. ); • сетевые сервисы стандартной модели OSI, моделей SOA (Service-oriented Architecture), SCA (Service-Component Architecture); • готовые программные и информационные ресурсы (services, artifacts, reuses, assets и др. ). 20
Использование Grid-систем Системы Grid предназначены для организации распределенных вычислений на виртуальном суперкомпьютере, представленном в виде кластеров, соединённых с помощью сети слабосвязанных гетерогенных компьютеров, работающих вместе для выполнения огромного количества заданий (операций) для вычислений. Сетевые и распределенные вычисления обеспечиваются системой BOINC (Berkeley Open Infrastructure for Network Computing) университета Беркли. Данный инструмент применяется в: • астрофизике, гравитационной физике, физике высоких энергий, физике нейтрино и ядерной физике; • молекулярной динамике, информатике и вычислительной технике, нанотехнологии; • структурной биологии, вычислительной биологии, геномике, 21 протеомике и медицине.
Семантический Grid – систематического выявления семантически богатой информации о ресурсах Grid для построения интеллектуальных Grid-сервисов. Этот Grid обобщает наработки семантического Web и распространяет их на уровень промежуточного слоя Grid, в котором все виды ресурсов представлены единообразно, как сетевые сервисы. Опция Service Data специфицирует наборы структурированных данных, которые содержат: - сведения о состоянии ресурса (state information), в том числе промежуточные и окончательные результаты вычислений; - сервисные метаданные (service metadata) - сведения, непосредственно касающиеся сервиса (системных данных, интерфейсов, стоимости услуг и др. ). Эти данные могут обрабатываться с помощью таких 22 технологий семантического Web, как RDF и OWL-S.
Инструмент Taverna. Workbench Grid используется для: - конструирования семантических запросов к сервисам и отображения информации о результатах выполнения сервиса; 23 - интеграции результирующих сервисов в Work. Flow.
Grid Infrastructure 24
Система поддержки Basic Service в Grid Система OGSA (Basic Execution Service) определяет интерфейс к сервисам, которые инициируют вычислительные процессы в Grid, отслеживает и управляет вычислительной активностью и моделями жизненного цикла (состоянием) процессов, а также информационными моделями вычислительного процесса. Ws-naming определяет схему для ссылки на ресурсы в Grid на абстрактном уровне, независимо от их физического расположения. 25
Grid-архитектура Пользователь Приложение пользователя Web-сервис Программные сервисы Grid Поставщик услуг ПО SLA-соглашение Репозиторий сервисов Брокер ресурсов Сервисы ресурсов Grid Поставщик ресурса Управление информацией, ресурсами. . . Сервис безопасности Планировщик. . . Промежуточный слой Grid Globus Tool. Kit Физические ресурсы Grid Nicore. . . ПО управления ресурсом ( R M S ) процессоры память оборудование приложения сеть сенсоры 26
Инструменты Grid инфраструктуры • Legion (legion. virginia. edu) поддерживает объектно-ориентированную модель, в которой все ресурсы описаны объектами; • Globus Toolkit (GGF) обеспечивает сервисно-ориентированную архитектуру, в которой глобальные сервисы строятся c помощью базовых сервисов; • Condor (www. cs. wisc. edu/condor) задает спецификацию файла конфигурации в узлах Grid-сети, которая передается в Globus Тoolkit; • Web. Flow (http: //www. npac. syr. edu/users/haupt/Web. Flow/) обеспечивает многократное использование вычислительных модулей с помощью Webбраузера. Приложения конструируются из готовых ресурсов с помощью Globus Toolkit; • Gridbus Data Grid Service Broker развивает модель брокера ресурсов вычислительного Grid в распределенных сетях, ориентированных на данные и параметризацию при доступе к репозиториям; • GRACE (Grіd Archіtecture for Computatіonal Economy) обеспечивает динамическое сотрудничество с владельцами ресурса для выбора тех ресурсов, которые предлагают оптимальную стоимость использования. • Grid Port Toolkit – набор инструментов портала для многократного использования в Hot. Page (Grіd. Port – сервисы Grіd и АPI приложения). Grіd. Port выполняет портальные сервисы и приложения клиентов. 27
Проблемы Grid-технологий в е-науке 1. Структурирование задач в области компьютерных наук. Задачи должны разбиваться на отдельные подзадачи, которые распределяются по вычислительным узлам, работающих с гарантией. 2. Надежность и безопасность. В системах Grid предусмотрены меры защиты от намеренного или ненамеренного искажения результатов системы. Защищаются участники виртуальных организаций от использования системы в качестве орудия атак. 3. Готовность. Из-за отсутствия централизованного управления над техническими средствами нет гарантии, что отдельные узлы сети не будут периодически “выбивать” всю сеть. 4. Модели и среды разработки приложений скрывают от ученого детали «внутренней» организации приложений, а также методологии их применения. Для преодоления этих проблем создаются специальные среды разработки отдельных приложений и систем управления 28 потоками научных исследований.
Направления дальнейших исследований Проблемно-ориентированные среды Scientific Workflow Подходы семантического Grid Семантические Grid-сервисы: Онтологии Эталонная архитектура семантического Grid Контекст рассмотрения S-OGSA Сети Grid Подходы Семантического Web - Онтологии Виртуализация Grid-ресурсы Grid-сервисы OWL-S Метаописания OGSA WSFR Сервисо-ориентированный и агентный подходы Web-ресурсы Web-сервисы Агенты XML SOA RDF WSDL Методы и средства информатизации науки Этап 1 Этап 2 Этап 3 Задачи научных процессов Эта схема задает постепенное «наслоение» подходов, методов, стандартов компьютерной науки и искусственного интеллекта, которые составляют каркас современной электронной науки. 29
Схема развития е-науки Нижний слой в схеме образуют существующие фундаментальные наработки в сфере информатизации науки, промежуточные слои – наработки в сфере Web- и Grid-сетей (и сети знаний), а верхний (окутывающий) – средства целостной автоматизированной поддержки процессов научной деятельности. Направления развития е-науки: I. Повышение уровня информатизации е-науки: - разработка электронных библиотек, совершенствование систем документооборота, обеспечение хранения и накопления структурированной информации в архивах, регламентация доступа к ней, защита информации (данных, знаний) при хранении и перемещении и др. ; - широкомасштабное аннотирование и обогащение онтологиями существующих научных данных, информации и знаний в разных областях, в частности построение онтологий для специалистов областей и разработанных ПС для отдельных 30 предметных областей.
Схема развития е-науки ІІ. Семантический Web. Поддержка жизненного цикла информации и знаний: - разработка и совершенствование методов и инструментов семантического Web - аннотирования, интеграции (данных и информации), извлечения (приобретения) новых знаний, трассировки данных, разработка Web-сервисов (сервисов онтологий) и т. п. ; - стандартизация и методическая поддержка ЖЦ онтологий (процесса построения онтологий, сопоставления онтологий, интеграции онтологий, уточнения онтологий и пр. ); - обеспечение качества информации (метаданных, их корректность, полноту, согласованность и т. п. , а также Web-сервисов (их верификация, тестирование и оценка); - верификация онтологий, измерение и оценивание онтологий. 31
Схема развития е-науки ІІІ. Семантический Grid. Расширение научного сотрудни- чества и исследований путем виртуализации ресурсов. Десять задач (Рур, Дженнингс и Шедболт1): 1) Формирование автоматизированной виртуальной организации: - динамическое композирование Grid-сервисов; - масштабирование исследований. 2) Ведение сервисов и заключение контрактов: - по обеспечению интероперабельности сервисов; - по стратегии агентов для проведения переговоров. 3) Обеспечения безопасности исследований. 4) Формирование инфраструктуры метаданных в Gridсистемах. 5) Обработка и ведение (курирование) контентов областей. ____________________________ 1) De Roure D. , Jennings N. R. , Shadbolt N. R. The Semantic Grid: Past, Present and 32 Future. //http: //www. semanticgrid. org/documents/semgrid 2004. pdf
6) Создание технологий управления знаниями: - разработка сервисов добычи данных (data mining), машинного обучения и рассуждений в Интернет (internet reasoning); - создание совместно используемых онтологий и языков описания сервисов, их интеграция в потоки работ (workflow) e-науки; - разработка композитных сервисов; - управление знаниями и создание интеллектуальных лабораторий. 7) Разработка методов проектирования и развертывания приложений в Grid-средах. 8) Создание средств взаимодействия ученых; 9) Определение форм сотрудничества в Grid-среде; 10) Оснащение Grid-среды средствами проведения распределенных вычислений. 33
IV. Потоки научной работы (Scientific workflow). Автоматизация процессов в сфере научной деятельности: - определение организационных процессов в е-науке ( управления информацией, постановки экспериментов и моделирования, научное сотрудничество и др. ); - создание систем управления научными процессами в науке; - разработка методов моделирования потоков работы, включая прототипирование, метамоделирование и др. ; - разработка методов верификации, валидации потоков работы. - разработка методов анализа эффективности и качества систем управления потоками работ. 34
Источники 1. Черняк Л. Web-сервисы, grid-сервисы и другие // Открытые системы. -12. - 2004. 2. Klaus Krauter, Rajkumar Buyya, and Muthucumaru Maheswaran. A Taxonomy and Survey of Grid Resource Management Systems // http: //www. buyya. com/papers/gridtaxonomy-report. pdf 3. Goble C. , Corcho O. , Alper P. , De Roure D. e-Science and the Semantic Web: a Symbiotic Relationship // http: //www. cs. man. ac. uk/~ocorcho/documents/DS 2006_Goble. Et. Al. pdf 4. De Roure D. , Jennings N. R. , Shadbolt N. R. The Semantic Grid: A Future e. Science Infrastructure // http: //www. semanticgrid. org/documents/semgridjournal/semgrid-journal. pdf 5. De Roure D. , Jennings N. R. , Shadbolt N. R. The Semantic Grid: Past, Present and Future. //http: //www. semanticgrid. org/documents/semgrid 2004. pdf/. 6. В. Н. Коваленко, Д. А. Корягин. Организация ресурсов грид. ИПМ РАН 2004 г. УДК 519. 68 7. Open Grid Services Architecture® Use Cases 0 http: //www. ogf. org/documents/GFD. 29. pdf 8. OGSA™ WSRF Basic Profile 1. 0 http: //www. ogf. org/documents/GFD. 72. pdf 35
Благодарю за внимание 36