лекция 15. Большие данные.pptx
- Количество слайдов: 40
БОЛЬШИЕ данные (BIG data) Информационные системы в экономике, лекция 15
Вступление § Айра Гас Хант (Ira Gus Hunt), действующий Директор по технологиям ЦРУ, рассказывает о своем видении Big Data на службе ЦРУ (конференция Giga. OM Structure: Data 2013) [http: //habrahabr. ru/post/177433/]
Вступление § Мы собираем информацию о планах и намерениях наших противников. § Мы делаем всесторонний анализ (All-Source Analysis), где мы объединяем свежесобранную информацию с той, что у нас уже находится у на руках, после чего мы можем сказать Президенту, Секретарю Госбезопасности, тем, кто делает политику, а также всем прочим, что всё это значит. § И третье, чем мы занимаемся — и мы единственное агентство, которому это разрешено законом, с ведома Президента Соединенных Штатов – тем, что называется тайными операциями.
Вступление § Одна из больших задач: активизация использования Больших Данных § Шесть ключевых технологий: § Безопасность мобильных технологий § Продвинутая аналитика данных § Корпоративные виджеты и сервисы § Безопасность как услуга (Security as a Service) § «Бухта Данных» - данные как услуга (Data aa. S) § Облачные вычисления
Вступление
Вступление
Вступление
Вступление
Вступление
Вступление
Цикл «шумихи» (Garthner)
Определения § Термин Большие Данные: § относится к наборам данных, размер которых превосходит возможности типичных баз данных (БД) по занесению, хранению, управлению и анализу информации [Mc. Kinsey Institute] § Большие данные объединяют техники и технологии, которые извлекают смысл из данных на экстремальном пределе практичности [Forrester Consulting]
Определения § Термин Большие Данные: § серия подходов, инструментов и методов обработки структурированных и неструктурированных данных огромных объёмов и значительного многообразия для получения воспринимаемых человеком результатов, эффективных в условиях непрерывного прироста, распределения по многочисленным узлам вычислительной сети, сформировавшихся в конце 2000 -х годов, альтернативных традиционным системам управления базами данных и решениями класса Business Intelligence [Wiki]
Определения § Термин Большие Данные: § серия подходов, инструментов и методов обработки структурированных и неструктурированных данных огромных объёмов и значительного многообразия для получения воспринимаемых человеком результатов, эффективных в условиях непрерывного прироста, распределения по многочисленным узлам вычислительной сети, сформировавшихся в конце 2000 -х годов, альтернативных традиционным системам управления базами данных и решениями класса Business Intelligence [Wiki]
Появление термина § Клиффорд Линч, редактор журнала Nature, § 3 сентября 2008 года , «Как могут повлиять на будущее науки технологии, открывающие возможности работы с большими объёмами данных? »
Источники BD Cisco Connected World Technology Report: § 74% компаний собирают текущие данные; § 55% собирают исторические данные; § 48% снимают данные с мониторов и датчиков; § 40% пользуются данными в реальном времени, а затем стирают их; чаще всего данные в реальном времени используются в Индии, США и Аргентине; § 32% опрошенных собирают неструктурированные данные – например, видео; в этой области лидирует Китай.
Один из новых источников
Методы анализа BD § A/B testing. Методика, в которой контрольная выборка поочередно сравнивается с другими. Тем самым удается выявить оптимальную комбинацию показателей для достижения, например, наилучшей ответной реакции потребителей на маркетинговое предложение. Большие данные позволяют провести огромное количество итераций и таким образом получить статистически достоверный результат. § Association rule learning. Набор методик для выявления взаимосвязей, т. е. ассоциативных правил, между переменными величинами в больших массивах данных. Используется в data mining.
Методы анализа BD § Classification. Набор методик, которые позволяет предсказать поведение потребителей в определенном сегменте рынка (принятие решений о покупке, отток, объем потребления и проч. ). Используется в data mining. § Cluster analysis. Статистический метод классификации объектов по группам за счет выявления наперед не известных общих признаков. Используется в data mining. § Crowdsourcing. Методика сбора данных из большого количества источников.
Методы анализа BD § Data fusion and data integration. Набор методик, который позволяет анализировать комментарии пользователей социальных сетей и сопоставлять с результатами продаж в режиме реального времени. § Ensemble learning. В этом методе задействуется множество предикативных моделей за счет чего повышается качество сделанных прогнозов. § Genetic algorithms. В этой методике возможные решения представляют в виде `хромосом`, которые могут комбинироваться и мутировать. Как и в процессе естественной эволюции, выживает наиболее приспособленная особь.
Методы анализа BD § Machine learning. Направление в информатике (исторически за ним закрепилось название `искусственный интеллект`), которое преследует цель создания алгоритмов самообучения на основе анализа эмпирических данных. § Natural language processing (NLP). Набор заимствованных из информатики и лингвистики методик распознавания естественного языка человека. § Network analysis. Набор методик анализа связей между узлами в сетях. Применительно к социальным сетям позволяет анализировать взаимосвязи между отдельными пользователями, компаниями, сообществами и т. п.
Методы анализа BD § Optimization. Набор численных методов для редизайна сложных систем и процессов для улучшения одного или нескольких показателей. Помогает в принятии стратегических решений, например, состава выводимой на рынок продуктовой линейки, проведении инвестиционного анализа и проч. § Pattern recognition. Набор методик с элементами самообучения для предсказания поведенческой модели потребителей.
Методы анализа BD § Predictive modeling. Набор методик, которые позволяют создать математическую модель наперед заданного вероятного сценария развития событий. Например, анализ базы данных CRM-системы на предмет возможных условий, которые подтолкнут абоненты сменить провайдера. § Regression. Набор статистических методов для выявления закономерности между изменением зависимой переменной и одной или несколькими независимыми. Часто применяется для прогнозирования и предсказаний. Используется в data mining.
Методы анализа BD § Sentiment analysis. В основе методик оценки настроений потребителей лежат технологии распознавания естественного языка человека. Они позволяют вычленить из общего информационного потока сообщения, связанные с интересующим предметом (например, потребительским продуктом). Далее оценить полярность суждения (позитивное или негативное), степень эмоциональности и проч.
Методы анализа BD § Signal processing. Заимствованный из радиотехники набор методик, который преследует цель распознавания сигнала на фоне шума и его дальнейшего анализа. § Spatial analysis. Набор отчасти заимствованных из статистики методик анализа пространственных данных – топологии местности, географических координат, геометрии объектов. Источником больших данных в этом случае часто выступают геоинформационные системы (ГИС).
Методы анализа BD § Statistics. Наука о сборе, организации и интерпретации данных, включая разработку опросников и проведение экспериментов. Статистические методы часто применяются для оценочных суждений о взаимосвязях между теми или иными событиями. § Supervised learning. Набор основанных на технологиях машинного обучения методик, которые позволяют выявить функциональные взаимосвязи в анализируемых массивах данных.
Методы анализа BD § Simulation. Моделирование поведения сложных систем часто используется для прогнозирования, предсказания и проработки различных сценариев при планировании. § Time series analysis. Набор заимствованных из статистики и цифровой обработки сигналов методов анализа повторяющихся с течением времени последовательностей данных. Одни из очевидных применений – отслеживание рынка ценных бумаг или заболеваемости пациентов.
Методы анализа BD § Unsupervised learning. Набор основанных на технологиях машинного обучения методик, которые позволяют выявить скрытые функциональные взаимосвязи в анализируемых массивах данных. Имеет общие черты с Cluster Analysis. § Visualization. Методы графического представления результатов анализа больших данных в виде диаграмм или анимированных изображений для упрощения интерпретации облегчения понимания полученных результатов.
Инструменты работы с BD § Shared Nothing Architecture: распределенная вычислительная архитектура, в которой каждый узел независим и самодостаточен, и нету головного узла, который бы сам распределял общую память системы. Выгода – неограниченная масштабируемость.
Инструменты работы с BD
Инструменты работы с BD § No. SQL (англ. not only SQL, не только SQL), термин, обозначающий ряд подходов, проектов, направленных на реализацию моделей баз данных, имеющих существенные отличия от используемых в традиционных реляционных СУБД с доступом к данным средствами языка SQL. Описание схемы данных в случае использования No. SQLрешений может осуществляться через использование различных структур данных: хеш-таблиц, деревьев и других.
Инструменты работы с BD § В основе идеи No. SQL лежит следующее: § Нереляционная модель данных § Распределенность § Открытый исходный код § Хорошая горизонтальная масштабируемость.
Инструменты работы с BD С No. SQL связана Теорема CAP — эвристическое утверждение о том, что в любой реализации распределённых вычислений возможно обеспечить не более двух из трёх следующих свойств: § согласованность данных (англ. consistency) — во всех вычислительных узлах в один момент времени данные не противоречат другу; § доступность (англ. availability) — любой запрос к распределённой системе завершается корректным откликом; § устойчивость к разделению (англ. partition tolerance) — расщепление распределённой системы на несколько изолированных секций не приводит к некорректности отклика от каждой из секций.
Инструменты работы с BD § http: //www. nosql-database. org/ - портал по No. SQL, имеется список из 150 организаций (баз данных), использующих No. SQL: § Hadoop § Amazon simple DB § Cloudata § Cloudera § Mongo. DB §…
Инструменты работы с BD § Apache Hadoop является свободным Java фреймворком, поддерживающим выполнение распределённых приложений, работающих на больших кластерах, построенных на обычном оборудовании. Hadoop прозрачно предоставляет приложениям надёжность и быстродействие операций с данными. В Hadoop реализована вычислительная парадигма, известная как Map. Reduce.
Инструменты работы с BD § Достоинство Hadoop — способность разбивать очень большие наборы данных на малые блоки, распределяемые по кластеру на основе стандартного оборудования для ускоренной обработки. Компании Facebook, Amazon, e. Bay и Yahoo, первыми начавшие пользоваться Hadoop, применяют технологию для анализа петабайтов неструктурированных данных, с которыми реляционные системы управления базами данных справлялись бы с трудом.
Инструменты работы с BD § Map. Reduce — это фреймворк для вычисления некоторых наборов распределенных задач с использованием большого количества компьютеров (называемых «нодами» ), образующих кластер. § Работа Map. Reduce состоит из двух шагов: Map и Reduce.
Инструменты работы с BD § На Map-шаге происходит предварительная обработка входных данных. Для этого один из компьютеров (называемый главным узлом — master node) получает входные данные задачи, разделяет их на части и передает другим компьютерам (рабочим узлам — worker node) для предварительной обработки. Название данный шаг получил от одноименной функции высшего порядка. § На Reduce-шаге происходит свёртка предварительно обработанных данных. Главный узел получает ответы от рабочих узлов и на их основе формирует результат — решение задачи, которая изначально формулировалась.
Инструменты работы с BD § R (язык программирования) язык программирования для статистической обработки данных и работы с графикой, а также свободная программная среда вычислений с открытым исходным кодом в рамках проекта GNU. § http: //www. r-project. org/ - официальный сайт § http: //cran. gis-lab. info/ - российское отделение § http: //journal. r-project. org/index. html - сайт журнала о наработках в применении языка R
Рынок BD § Amazon § Dell § e. Bay § EMC § Facebook § Fujitsu § Google § Hitachi Data Systems Corporation § HP § IBM § Linked. In § Microsoft § Net. App § Oracle § SAP § SAS § SGI (Silicon Graphics Inc) § Teradata § VMware § Yahoo
лекция 15. Большие данные.pptx