Big Data ЧТО Э ТО ТА КОЕ И С ЧЕ М ЕГО ЕДЯТ…
Про что мы будем рассказывать? Понятие Big Data. История вопроса (причины возникновения Big Data) Программное ообеспечение по работе с Big Data Система безопасности при работе с Big Data Примеры использования Big Data (типовые решения) Обзор компаний, предоставляющих услуги по работе с Big Data, сравнительный анализ предоставляемых услуг на мировом и российском IT-рынке (цена – качество – ассортимент). Обоснование выбора компании. 2
Понятие Big Data. История вопроса (причины возникновения Big Data) 3
Объем памяти 4
Тем не менее `большие данные` предполагают нечто большее, чем просто анализ огромных объемов информации. Проблема не в том, что организации создают огромные объемы данных, а в том, что бóльшая их часть представлена в формате, плохо соответствующем традиционному структурированному формату БД, — это вебжурналы, видеозаписи, текстовые документы, машинный код или, например, геопространственные данные. Всё это хранится во множестве разнообразных хранилищ, иногда даже за пределами организации. В результате корпорации могут иметь доступ к огромному объему своих данных и не иметь необходимых инструментов, чтобы установить взаимосвязи между этими данными и сделать на их основе значимые выводы. Добавьте сюда то обстоятельство, что данные сейчас обновляются все чаще и чаще, и вы получите ситуацию, в которой традиционные методы анализа информации не могут угнаться за огромными объемами постоянно обновляемых данных, что в итоге и открывает дорогу технологиям больших данных. Наилучшее определение Из названия можно предположить, что термин `большие данные` относится просто к управлению и анализу больших объемов данных. Согласно отчету Mc. Kinsey Institute `Большие данные: новый рубеж для инноваций, конкуренции и производительности` ( Big data: The next frontier for innovation, competition and productivity), термин `большие данные` относится к наборам данных, размер которых превосходит возможности типичных баз данных (БД) по занесению, хранению, управлению и анализу информации. И мировые репозитарии данных, безусловно, продолжают расти. В представленном в середине 2011 г. отчете аналитической компании IDC `Исследование цифровой вселенной` ( Digital Universe Study), подготовку которого спонсировала компания EMC, предсказывалось, что общий мировой объем созданных и реплицированных данных в 2011 -м может составить около 1, 8 зеттабайта (1, 8 трлн. гигабайт) — примерно в 9 раз больше того, что было создано в 2006 -м. Более сложное определение Самое простое определение Определения В сущности понятие больших данных подразумевает работу с информацией огромного объема и разнообразного состава, весьма часто обновляемой и находящейся в разных источниках в целях увеличения эффективности работы, создания новых продуктов и повышения конкурентоспособности. Консалтинговая компания Forrester дает краткую формулировку: `Большие данные объединяют техники и технологии, которые извлекают смысл из данных на экстремальном пределе практичности`. 5
ествует три У больших данных сущ ики основные характерист Они подразумевают операции с большим объемом информации. Обработка информации происходит быстро или в режиме реального времени. Благодаря взаимодействию большого количества информации из различных источников образуются связи, которые не являются очевидными без анализа 6
7
История 3 сентября 2008 года, когда вышел специальный номер старейшего британского научного журнала Nature, посвященный поиску ответа на вопрос «Как могут повлиять на будущее науки технологии, открывающие возможности работы с большими объемами Объемы информации растут по экспоненциальному закону и ее львиная данных? » доля относится к неструктурированным данным. вопросы корректной интерпретации информационных потоков становятся все более актуальными и одновременно сложными Причины Реакция со стороны ИТ-рынка последовала незамедлительно – крупные игроки приобрели наиболее успешные узкоспециализированные компании и начали развивать инструменты для работы с большими данными, количество соответствующих стартапов и вовсе превосходит все мыслимые ожидания. 8
Программное обеспечение по работе с Big Data 9
1010 data Apache Chukwa Apache Hadoop Apache Hive Apache Pig 10
Jaspersoft Lexis. Nexis Risk Solutions HPCC Systems Map. Reduce Revolution Analytics 11
12
Next Best Action Anti-fraud, Waste & Abuse CFO Performance Insight Global Business Services (GBS) 13
14
SAP BW • ускоренная подготовка отчетов и более эффективный анализ, • расширение возможностей бизнес-пользователей благодаря предоставлению им оперативного доступа к ценным данным • оптимизация ИТ-ландшафта и снижение совокупной стоимости владения, • сохранение инвестиций, сделанных в SAP Net. Weaver BW (необходима лишь миграция базы данных на SAP HANA) CO-PA на основе SAP HANA • значительно повышает скорость и эффективность обработки крупных массивов данных, помогая визуализировать факторы, влияющие на расходы и прибыль • получение отчетов о прибыли в режиме реального времени на основе больших объемов данных, мгновенный анализ данных о прибыльности с любой степенью детализации, агрегации и по любым параметрам, • значительно более быстрая обработка данных при распределении затрат, простой доступ к сведениям о прибыльности и возможность самостоятельной работы с информацией для бизнес-пользователей SAP Finance and Controlling Accelerator • позволяет специалистам финансового отдела быстрее выполнять закрытие периодов и подготавливать отчеты, а также предоставляет такую функциональность как: доступ к крупным массивам данных из бухгалтерских книг • документации центров затрат и регистров материалов в режиме реального времени, • ускоренная обработка отчетов за период, гибкая аналитика и отчетность на основе взаимодействия с пользователем, быстрый анализ и удобная детализация данных 15
SAP Customer Segmentation Accelerator • обеспечивает высокую скорость сегментации крупных объемов клиентских данных, • помогает выявить непрерывно меняющиеся особенности поведения и предпочтений клиентов и предложить пути реагирование на них • делает возможной реализацию глубоко персонализированных и эффективных маркетинговых программ SAP Fraud Management • которое в режиме реального времени анализирует все транзакции и операции из других систем компании • приостанавливает операцию или уведомляет о ней ответственного сотрудника. Liquidity Risk • управление риском ликвидности • ускорение отдельных учетных функций 16
Система безопасности при работе с Big Data 17
Какие же механизмы управления данными и их защиты предлагаются в сценарии Big Data? Hitachi Content Platform ETERNUS CS 18
Hitachi Content Platform Гарантированно е хранение данных обеспечивается архитектурой решения. Защита данных от катастроф реализована с помощью функций гранулярной репликации на уровне объектов Hitachi Content Platform Таким образом, система может гарантировать максимальную защиту и сохранность критически важной информации компании. Внутренние механизмы контроля целостности, дублирование объектов и избыточность аппаратных компонентов позволяют исключить любую возможность потери данных в пределах одного дата-центра 19
ETERNUS CS Все серверы получают логическое представление в крупном унифицированном целевом устройстве. Данные сначала записываются на диск ETERNUS CS, затем — на одно или несколько целевых устройств, таких как ленточные библиотеки, дисковые системы или дисковые системы дедупликации Система обеспечивает сквозное унифицированное управление «резервная копия — диск — лента — диск» . Тем самым реализуется управление жизненным циклом информации — концепция ILM. Благодаря консолидации сред ленточных систем хранения снижается потребность в лентах, дисках и библиотеках. Значительно сокращаются окно резервного копирования и время восстановления. Защита данных в такой системе реализована на базе политик с помощью автоматического разделения на уровни: лента, диск, дедуплицированный диск, различные уровни репликации. 20
21
BA-business anlytics 22
Обзор компаний, предоставляющих услуги по работе с Big Data 23
24
часто в режиме реального времени, в связи с большим объемом и высокой скоростью потока данных должны решаться вопросы обеспечения безопасности данных и определения степени доверия к ним проверка лицензионности данных и соблюдения прав на использование внешних данных. 25
Захват данных • Ab Initio, • HP, I • BM (Data. Stage, Streams, Data Mirror), • Informatica (Power. Center, Power. Exchange, CEP), • Kalido, • Microsoft, Numenta, • Oracle, • SAP, • SAS, • Splunk, • Syncsort, • Talend • Tibco Поставщики данных • Com. Score, • Datasift, • Experian, • Factual, • Gf. K, • Gnip, • IMS, • Inrix, • Kaggle, • Knoema, • Lexis. Nexis • , Microsoft, • Nielsen, • Reuters, • Salesforce • Radian 6 • Symphony IRI Сверхпоставщики • Facebook, • Google, • Linked. In • , Tumblr, • Twitter • Viadeд 26
Маршалинг данных Все полученные данные должны быть отсортированы для удаления бесполезной информации и хранения в оптимальных форматах, На данном этапе в категории «VLDW и программно -аппаратные комплексы BI» упомянуты вендоры, предоставляющие большие хранилища данных и программно-аппаратные BI-комплексы для бизнесаналитики возникает потребность в применении технологий Big Data, чтобы классифицировать данные, выделяя наиболее ценные из них для последующего сохранения 27
No. SQL • Amazon • Cassandra, • Cloudera • Couch. DB, • EMC 2, • Google, • Hadoop, • Google, • Hortonworks (Hadoop-дистрибьюция), • HP, • IBM, • KX, • Map. R (Hadoop-дистрибьюция), • Marklogic, • Microsoft (Hadoop на базе Windows и Azure), Управление контентом • Adobe, • Alfresco, • EMC 2 (Documentum), • IBM (File. Net), • HP (Autonomy), • Microsoft, • Open. Text • Oracle. 28
Аналитика Виртуализация данных BI-инструменты 29
Аналитика • Adobe, • EMC 2, • Good. Data, • Hadoop Map • Reduce, • HP, • IBM (SPSS) • , Karmasphere, • Kxen, • Microsoft • , Mzinga • , Oracle, • R, • Salesforce, • SAS, • SAP (R on HANA) • Teradata (Aprimo) Виртуализация данных • Composite, • Denodo, • HP (IDOL), • IBM, • Informatica, • Microsoft, • Oracle (Exalytics), • SAP • Teiid (JBoss community). BI-инструменты • Actuate, • Dassault Systemes (Exalead), • Domo, • Esri, • Good. Data, • Google, • HP (Autonomy), • IBM (Cognos suite), • Information Builders, • Logi. XML, • Microsoft (SQL 2012), • Microstrategy • , Neutrino. BI, • Oracle (OBI Foundation), • Panopticon, • Panorama, • Pentaho, • Qlikview • , Roambi, • SAP (BI 4 suite), • SAS, • Spago. BI, • Tableau • Tibco. 30
Действия Обнаруженные на стадии аналитики важные зависимости и закономерности должны быть положены в основу принятия бизнесрешений, которые трансформируют их в прибыль за счет оптимизации расходов и т. п. На стадии «Действия» присутствуют все игроки, специализирующиеся в захвате данных 31
захват данных, а также разработчики ERP-, CRM- и BPM-систем, • • • • Adobe, Eloqua, EMC 2, IBM, i. Grafx, Microsoft, Open. Text, Oracle, Pega, Progress Software, SAP, Salesforce, Software AG , Teradata (Aprimo) Tibco. 32
Управление данными Система не может функционировать без качественных данных и эффективного управления мастер-данными — бизнес-данными, которые служат основой для принятия бизнес-решений и используются всеми информационными системами компании. Управление мастер-данными заключается в сборе, агрегации трансформации и объединении основных данных при обеспечении их качества и согласованности (исключаются повторяющиеся и противоречивые данные). 33
Управление данными • • • Adaptive, HP, IBM , Informatica, Kalido, Microsoft, Oracle, Orchestra Networks, SAP, SAS, Talend Tibco 34
35
Источники 1) HT TP : / / TH ED IAG ONAL. COM/WPCO NTENT /U PL OAD S/2013/05/INFOGRAPHIC-BIG-DATA. COM 2) HT TP : / / WWW. G LOOOBAL. COM/PRODUCTS 3) HT TP : / / WWW. TADVI SER. RU/INDEX. PHP/%D 0%A 1%D 1%82%D 0%B 0%D 1% 82% D 1 %8 C%D 1%8 F: %D 0%91%D 0%BE%D 0%BB%D 1%8 C%D 1 %8 8% D 0% B 8 %D 0%B 5_%D 0%B 4%D 0%B 0%D 0%BD% D 0%BD %D 1% 8 B%D 0%B 5_(BIG_DATA)#. D 0. 98. D 1. 81. D 1. 82. D 0. BE. D 1. 80. D 0. B 8. D 1. 8 F 4) ГО ЛОВА Н А ПЛЕ ЧАХ 5) GO OG LE PI CT. 6) W IKIPEDI A 36
Спасибо за внимание ВОПРО СЫ ? 37