
Анализ больших данных-1.ppt
- Количество слайдов: 19
Анализ больших данных: введение и Hadoop Лекция 2 Заздравных Е. А.
Единственно верное определение big data отсутствует • Big data или большие данные – общепринятый термин для обозначения данных, которые невозможно хранить на одном физическом носителе и нет возможности их отобразить в рамках одной таблицы (напр. Excel) • Попытки проанализировать огромные массивы новых данных различного типа, возникших за последние десять лет можно охарактеризовать как big data.
Другие определения • Термин «большие данные» применяется к массивам данных, размер которых настолько велик, что их невозможно собрать, хранить, анализировать при помощи стандартных программ. (Mc. K GI) • Ежедневно создается 2, 5 квинтиллиона битов данных. Таким образом, 90% всех данных в мире были созданы за последние два года. Данные собираются отовсюду: из сенсоров для отслеживания погоды, постов в социальных сетях, цифровых картинках и видео, записей о покупках, сигналов GPS мобильных телефонов. Такие данные называют «большие данные»
3 V • 3 V (volume, variety, velocity) – концепция трех «V» (объем, разнообразие, скорость) • Veloicity – скорость – Скорость поступления данных – Скорость обработки данных
Сравнение с традиционными данными Big data Традиционные данные Вид данных Произвольная структура размещения данных Размещены в строках и столбцах Объем данных 100 терабайт или петрабайт 10 терабайт и меньше Периодичность поступления данных Постоянный поток данных Периодичный поток Метод анализа Машинное обучение Опровержение гипотез (см. статистика) Цель применения Разработка при помощи Помощь в принятии данных товаров или услуг решений
История анализа данных Наименование Период Роль данных Поддержка принятия рядовых решений 19701985 Использование данных для принятия решений линейными специалистами Помощь в управлении 19801990 Использование анализа данных в принятии управленческих решений Аналитическая обработка данных (OLAP – online analytical processing) 19902000 Начало применения ПО для анализа многомерных данных Business Intelligence (BI) – перевод данных в форматы отчетов 19892005 Применение инструментов для составления отчетов на основе данных Аналитика 20052010 Применение статистического анализа в принятии решений Big data 2010 н. в. Использование технологий для анализа больших массивов неструктурированных данных, поступающих в режиме реального времени
Виды больших данных Основная характеристика данных Источник данных Применение в отрасли Применение в рамках отдела/департаме нта Большой объем Интернет Финансовые услуги Маркетинг Отсутствие структуры Видео Здравоохранение Логистика Непрекращающий ся поток Сенсоры Промышленность Управление человеческими ресурсами Множественный формат Геномы Транспорт Финансы
Источники больших данных • • Архивы Документы Видео, картинки, музыка и т. п. Базы данных Приложения (Apps) Социальные сети Сенсоры
Исследователи больших данных (1) • Навыки: – Программирование (Pyton, R, Hive, Java+знание Handoop/Mapframework) hackatons? – Проведения научных исследований – Коммуникаций – Анализ данных (математические и статистические методы – Понимание работы бизнеса
Исследователи больших данных (2) • Наличие специалистов с перечисленными навыками • Сформировать стратегию поиска таких специалистов: нанимать на рынке или развивать внутри компании? • Как удержать специалистов в области больших данных? • Как обучить менеджмент компании для работы с большими данными?
Хранение больших данных
Технологии Big data Наименование технологии Краткое описание Handoop ПО с открытым кодом для обработки больших данных среди различных, параллельно функционирующих серверов Map. Reduce Архитектура, на основе которой функционирует Handoop Scripting Languages/Языки программирование Языки программирования для обработки данных Машинное обучение По для поиска модели, которая наилучшим образом характеризует данные Визуализация Отображение аналитических результатов в графическом формате NLP (Natural Language Processing) ПО для анализа текста In-memory analytics/Аналитика внутри памяти Обработка данных в памяти ПК
Стратегия применения big data (1) • Снижение издержек посредством анализа больших данных • Сокращение времени выполнения различных операций • Разработка новых продуктов • Поддержка бизнес-процессов компании
Стратегия применения big data (2) Исследования Выпуск продукции Снижение издержек Группа IT специалистов, отвечающих за инновации Группа IT специалистов, ответственных за операционные процессы Ускорение принятия решений Аналитики Руководители Улучшение решений Аналитики Руководители Разработка продуктов R&D Менеджеры, отвечающие за выпуск продукции
Стратеги применения big data (3) • Сформировать цель: снижение издержек, повысить качество принимаемых решений, улучшить возможности фирмы по разработке новых продуктов или услуг. • Если цель – повысить качество принимаемых решений, означает ли это ускорения принятия решений, повышение их качества за счет анализа больших массивов данных? • Описать предыдущий опыт анализа данных • Определить, насколько «агрессивной» должна быть стратегия применения big data. • Есть ли компании в отрасли, которые инвестирует больше в такие технологии?
Hadoop (1) • Разработан Apache Software Foundation для распределенных вычислений (Map. Reduce) и в качестве хранилища данных (HDFS) • Основан на двух статьях: – Bigtable: A Distributed Storage System for Structured Data – Map. Reduce: Simplified Data Processing on Large Clusters • Hadoop – система с открытым кодом • Применяется для больших массивов данных
Hadoop (2) • Есть большие данные, которые необходимо обработать • Обработать их при помощи одной машины невозможно или это происходит в течение продолжительного периода времени • Необходимо масштабирование вычислений • Как можно решить такую проблему?
Hadoop (3) • HDFS (Hadoop Distributed File System – распределенная файловая система) – система хранения данных на серверах, объединенных в кластер (хранилище данных) • Данные хранятся на нескольких серверах, т. е. поделены между ними • Name. Node объединяет данные в единый массив – своего рода автоматизированный менеджер данных
Hadoop (4) Map. Reduce – выполняет две функции: (1) map делит массив данных к обработке на множество мелких частей и производит их обработку; (2) reduce объединяет результаты вычислений для получения конечных результатов • Разделить данные по какому-либо принципу; • Обработать каждую порцию данных отдельно и одновременно, т. е. параллельно
Анализ больших данных-1.ppt