Интернетика - лекция 1.ppt
- Количество слайдов: 17
ИНТЕРНЕТИКА
ИНТЕРНЕТИКА Internetics Интернетика - прикладное научное направление, изучающее свойства, закономерности и способы использования глобальной компьютерной сети в различных сферах человеческой деятельности. Интернетика является логическим продолжением информатики в аспекте ее воздействия на социально-экономические процессы.
МЕТОДЫ ИНТЕРНЕТИКИ Научные методы интернетики: совокупность правил, приемов и операций практического и теоретического освоения сетевого информационного пространства, служащие для получения и обоснования знаний о нем. Общие методы интернетики: анализ, синтез, абстрагирование, сравнение, индукция, дедукция, аналогии и др. Специфические методы интернетики: общенаучные методы математики, статистики, электроники, кибернетики, информатики, социологии, экономики, политологии и др. Практические методы интернетики: наблюдение, измерение, эксперимент, моделирование и др. Логические методы интернетики: доказательство, объяснение, выведение следствий и др. Существенную роль в интернетике играют методы научного творчества, в процессе которых исследование соединяется с созданием нового технологического устройства.
ОБЪЕКТ ИССЛЕДОВАНИЯ ИНТЕРНЕТИКИ Объект исследования интернетики информационная среда, ее свойства, и происходящие в ней процессы, учитывающиеся при осуществлении коммуникаций в глобальной компьютерной сети.
ПРЕДМЕТ ИССЛЕДОВАНИЯ ИНТЕРНЕТИКИ Предмет исследования интернетики информационные взаимодействия, осуществляемые участниками коммуникаций в глобальной компьютерной сети.
ОСНОВНЫЕ НАПРАВЛЕНИЯ ИССЛЕДОВАНИЙ ИНТЕРНЕТИКИ Сегодня в информационных хранилищах, распределенных в сетях, собраны террабайты текстовых данных. Эти данные можно рассматривать, с одной стороны, как сетевую среду реального информационного поиска, а с другой, как объект и полигон для исследований. Учет этих факторов привел к необходимости рассмотрения истории и современного состояния инфраструктуры Интернет, остановиться на особенностях гипертекстовых технологий, сети WWW, а также обозначить перспективы.
Для обеспечения поиска размещенной в сети информации в настоящее время необходима разработка новых подходов. При этом, безусловно, должны учитываться достоинства и недостатки существующих моделей и алгоритмов информационного поиска. Важно знать модели поиска в пиринговых сетях – как крупнейших по ресурсам и порождаемому интернет-трафику. В таких сетях отсутствуют выделенные серверы, а каждый узел является как клиентом, так и сервером. Пиринговые сети состоят из узлов, каждый из которых взаимодействует лишь с некоторым подмножеством других узлов. Причем проблемы поиска и уязвимости в таких сетях до сих пор остаются открытыми. Рассмотриваются основные модели поиска, все более широко применяемые в пиринговых сетях, а также проблемы, связанные с распространением подобных сетей.
Рассматривается концепция глубинного анализа текстов – Text Mining, которая включила в себя технологические и методологические подходы контент-анализа, компьютерной лингвистики. В частности, освещаются подходы к решению таких задач, как автоматическое реферирование, анализ взаимосвязей понятий, построение поисковых образов документов.
Классификация информации - это традиционная компонента теории и технологии информационного поиска, лежащая на стыке двух областей - машинного обучения и информационного поиска. При классификации текстов, используются различные критерии для построения правил их размещения в заранее определенные категории.
Вопросы кластерного анализа массивов текстовых документов. В отличие от классификации, при кластеризации заранее не фиксируются определенные категории. Результатом кластеризации является автоматическая группировка информации в компактные подгруппы. Алгоритмы кластеризации позволяют автоматически находить «скрытые» признаки и разделять объекты по подгруппам. Кластеризация, как правило, предшествует классификации, поскольку помогает экспертам определять группы объектов – классы. Рассматриваются основные алгоритмы ранжирования выдачи информационнопоисковых-систем.
Основные закономерности, присущие документальным потокам в современной сетевой среде. При этом уделяется внимание таким необходимым для понимания этих закономерностей математическим понятиям, как степенные распределения, однородные функции и скейлинг.
Теория информации, которая ранее находила свое основное применение в области передачи данных, становится полезной и для анализа текстовых массивов, динамически порождаемых в сетях. Рассматриваются такие понятия, как энтропия и количество информации, которые сегодня находят все большее применение в технологиях информационного поиска.
Рассматривается теория сложных сетей (complex networks), в рамках которой выявляются характеристики, учитывающие не только их топологию, но и статистические распределения характеристик узлов и связей. Сегодня эта теория особо актуальна в задачах выявления и визуализации различных сетевых кластеров, их внутренних корреляций.
Явления, происходящие в сложных сетях, близки к изучаемым в рамках теории перколяции (протекания). К задачам теории перколяции и анализа сложных сетей относятся такие, как определение предельного уровня проводимости (пропускной способности), изменения длины пути между узлами и его траектории (извилистости, параллельности) приближении к порогу протекания, количества узлов, которые необходимо удалить, чтобы нарушить связанность сети.
Математическое моделирование информационных потоков. При моделировании этих процессов используются методы нелинейной динамики, теории клеточных автоматов и самоорганизованной критичности.
При моделировании информационных потоков изучаются структурные связи между входящими в них массивами документов. Сегодня при этом все чаще применяется фрактальный анализ, подход, базирующийся на свойствах сохранения внутренней структуры массивов документов при изменениях их размеров или масштабов рассмотрения.
Традиционно используемый математический аппарат и инструментальные средства информационного поиска сегодня уже не способны в полной мере удовлетворять потребности пользователей. Изначальная парадигма поисковых систем, сформированная несколько десятилетий тому назад, уже не отвечает реальной ситуации – объемам и динамике информационных потоков, сетевой топологии. Необходим поиск новых принципов, в рамках которых оказалось бы возможным проектирование качественно новых систем обработки больших и динамичных массивов данных. Цель этой дисциплины – систематически изложить состояние существующих теоретических и технологических возможностей, представить учащимся возможные перспективы развития, дать импульс новым идеям в области сетевого информационного поиска.


