7a1794891c4a9ceca93fd0b54598629c.ppt
- Количество слайдов: 51
Аналитика Больших Данных Зрелов П. В. Лаборатория информационных технологий ОИЯИ Лаборатория облачных технологий и аналитики больших данных РЭУ им. Плеханова РЭУ им. Г. В. Плеханова. 15 -16 ноября 2016. Москва 16. 03. 2018
Аналитика Больших Данных Содержание Лекция 2 1. Технологии Больших данных. Подход Map. Reduce и его программные реализации. Примеры использования. 2. Математика Больших Данных. Машинное обучение и искусственный интеллект. Нейронные сети. Распознавание образов. Примеры. 3. Проект Лаборатории облачных технологий и аналитики Больших Данных по анализу соответствия номенклатуры специальностей вуза потребностям рынка труда. РЭУ им. Г. В. Плеханова. 15 -16 ноября 2016. Москва 16. 03. 2018
Аналитика Больших Данных Технологии Больших Данных Необходимы: методы и средства оперирования данными, объемы которых выходят за рамки возможностей современных СУБД. новые подходы к организации и реализации информационных систем. подходы, позволяющих справляться с разнообразием массово и хаотично развивающихся языков и моделей данных. - No. SQL-модели: - документные модели (системы Simple. DB, Mongo. Db, Couch. DB), - модели с колоночным хранением (системы HBase, Cassandra, Hyper. Table), - модели «ключ-значение» (системы Voldemort, Riak, Redis, Scalaris). - графовые модели (Neo 4 j, Dex, Graph. DB, Hyper. Graph. DB, Trinity, Pregel). - онтологические и семантические модели (RDF, OWL); - модели, основанные на многомерных массивах (Sci. DB); РЭУ им. Г. В. Плеханова. 15 -16 ноября 2016. Москва 16. 03. 2018
Аналитика Больших Данных Технологии Больших Данных РЭУ им. Г. В. Плеханова. 15 -16 ноября 2016. Москва 16. 03. 2018 From Hassen Taidirt's blog - http: //htaidirt. com/2016/05/17/big-data-landscape-2016/
Аналитика Больших Данных Конвейер обработки 1) Получение исходных данных. 2) Предварительная обработка данных. Сохранение результатов в распределенной файловой системе. 3) В случае использование базы данных, размещение в ней предварительно «очищенных» данных. 4) поиск иформации в базы данных или файловой системе. 5) анализ данных с помощью аналитических методов и визуализации для обнаружения знаний. РЭУ им. Г. В. Плеханова. 15 -16 ноября 2016. Москва 16. 03. 2018
Аналитика Больших Данных Map. Reduce: Simplified Data processing on Large Clusters Типовой подход параллельной обработки больших объемов сырых данных. Map. Reduce - это модель программирования для обработки и генерации больших наборов данных. Разработана Google. Многие практические задачи могут быть реализованы в данной модели программирования. Работа Map. Reduce состоит из двух шагов: Map и Reduce. На Map-шаге происходит предварительная обработка входных данных. Для этого один из компьютеров (называемый главным узлом — master node) получает входные данные задачи, разделяет их на части и передает другим компьютерам (рабочим узлам — worker node) для предварительной обработки. На Reduce-шаге происходит свертка предварительно обработанных данных. Главный узел получает ответы от рабочих узлов и на их основе формирует результат — решение задачи, которая формулировалась изначально. РЭУ им. Г. В. Плеханова. 15 -16 ноября 2016. Москва 16. 03. 2018
Аналитика Больших Данных Map. Reduce: Simplified Data processing on Large Clusters Почему Map. Reduce? • Очень высокая стоимость суперкомпьютеров • Map. Reduce может работать на кластере из «обычных» компьютеров • Легко масштабируется • Отказоустойчивое решение (за счет репликации данных) • Не нужен опыт параллельного программирования РЭУ им. Г. В. Плеханова. 15 -16 ноября 2016. Москва 16. 03. 2018
Аналитика Больших Данных Map. Reduce: Simplified Data processing on Large Clusters Пользователи задают функцию Map, которая обрабатывает пары ключ/значение для генерации набора промежуточных пар ключ/значение, и функцию Reduce, которая объединяет все промежуточные значения, связанные с одним и тем же промежуточным ключом. РЭУ им. Г. В. Плеханова. 15 -16 ноября 2016. Москва 16. 03. 2018
Аналитика Больших Данных Map. Reduce: диаграмма РЭУ им. Г. В. Плеханова. 15 -16 ноября 2016. Москва 16. 03. 2018
Аналитика Больших Данных Map. Reduce: подсчет статистики по словам Shuffle and Sort РЭУ им. Г. В. Плеханова. 15 -16 ноября 2016. Москва 16. 03. 2018
Аналитика Больших Данных Примеры заданий для Map. Reduce Распределенный Grep: Map функция выдает строку, если она совпадает с заданным шаблоном. Reduce функция в этом случае просто копирует промежуточные данные в выходной файл. В работе 2004 года J. Dean and S. Ghemawat из Google «Simplified Data processing on Large Clusters» на ряде примеров была исследована производительность подхода Map. Reduce. В том числе рассмотрена реализация программы Grep. Задача. 10 млрд. 100 B записей (~1 TB). Строка поиска состояла из 3 знаков. Строка содержалась в 92 337 записях. Входной объем данных был разбит на 15 000 входных частей объемом примерно 64 MB. Кластер содержал примерно 1800 компьютеров (два 2 GHz Intel Xeon, 4 GB; 160 GB IDE), связанных гигабитным Ethernet. Скорость вычислений возрастала по мере включения все большего числа машин кластера (пик на 1764 узлах). Общее время вычислений, включая накладные расходы, составило 150 sec. (~7 GB/sec. ) РЭУ им. Г. В. Плеханова. 15 -16 ноября 2016. Москва 16. 03. 2018
Аналитика Больших Данных Примеры заданий для Map. Reduce Подсчет частоты доступа к URL: Функция Map обрабатывает логи запросов к веб-странице и выдает <URL; 1>. Функция Reduce суммирует все значения для одних и тех же URL и выдает пары <URL; общее количество>. Инвертированный индекс: Функция Map анализирует каждый документ и формирует последовательность пар <слово; идентификатор документа>. Функция Reduce принимает все пары для данного слова, сортирует соответствующие идентификаторы документов и формирует пары <слово; список (идентификатор документа)>. Множество всех таких пар образует простой инвертированный индекс. Инвертированный индекс используется в поисковых системах. РЭУ им. Г. В. Плеханова. 15 -16 ноября 2016. Москва 16. 03. 2018
Аналитика Больших Данных Примеры заданий для Map. Reduce. Анализ данных на LHC Огромные объемы данных (PB), получаемых в экспериментах на Большом адронном коллайдере (LHC) в ЦЕРН, в настоящее время анализируются в Грид-инфраструктурах с использованием подхода иерархической фильтрации. Это дает возможность уменьшить объем данных. Но на практике это означает, что отдельный ученый не имеет доступа к исходным данным. В настоящее время в ЦЕРН изучается возможность применимости парадигмы Map. Reduce. Один из подходов предусматривает полную смену парадигмы вычислений и включает исследования по: 1) По адаптации существующих на LHC программ анализа данных для парадигмы Map. Reduce. 2) По внедрению адаптированных программ для анализа с использованием Apache hadoop. 3) По применимости данного подхода путем установки программ и запуска расчетов в Amazon EC 2 public Cloud с помощью Amazon Elastic Map. Reduce. РЭУ им. Г. В. Плеханова. 15 -16 ноября 2016. Москва 16. 03. 2018
Аналитика Больших Данных Примеры заданий для Map. Reduce. ROOT framework ROOT – разработанная в ЦЕРН система обработки и анализа данных (в том числе – больших объемов). ROOT обеспечивает операции над гистограммами и деревьями, а также фитирование, минимизацию, графику и т. д. Параллельная версия ROOT называется PROOF (Parallel ROOT Facility). РЭУ им. Г. В. Плеханова. 15 -16 ноября 2016. Москва 16. 03. 2018
Аналитика Больших Данных Примеры заданий для Map. Reduce. Анализ данных в физике высоких энергий События могут анализироваться независимо, обработка может быть распараллелена. В каждом событии ищутся частицы с определенными характеристиками (например, определенной массы). Результаты обработки суммируются (в гистограммы). Описанная может быть реализована в модели Map. Reduce: каждое событие подвергается обработке функцией map, осуществляющей анализ события, и производит key/value пары. РЭУ им. Г. В. Плеханова. 15 -16 ноября 2016. Москва 16. 03. 2018
Аналитика Больших Данных Примеры заданий для Map. Reduce. Анализ данных в физике высоких энергий Т. к. нужно обрабатывать файлы из разных источников, а события нумеруются в каждом файле: Поскольку мы ищем частицы определенной массы: На этапе reduce, промежуточные key/value пары суммируются и гистограммируются средствами ROOT Fabian Glaser. A Map. Reduce Input Format for Analyzing Big High-Energy Physics Data Stored in ROOT Framework Files. Masterarbeit. 2013. ISSN 1612 -6793 Nummer ZAI-MSC-2013 -03. РЭУ им. Г. В. Плеханова. 15 -16 ноября 2016. Москва 16. 03. 2018
Аналитика Больших Данных Примеры заданий для Map. Reduce. Обучение нейронной сети Обучение модели Neural Network (f) на данных эмпирической выборки (xi, yi), i = 1(1)N Например, решать методом градиентного спуска Веса сети корректируются в соответствии с N может быть очень большим. Тогда каждый шаг спуска будет требовать вычисления и суммирования большого числа членов. РЭУ им. Г. В. Плеханова. 15 -16 ноября 2016. Москва 16. 03. 2018
Аналитика Больших Данных Примеры заданий для Map. Reduce. Обучение нейронной сети Каждый шаг градиентного спуска можно выполнить с помощью map и reduce: РЭУ им. Г. В. Плеханова. 15 -16 ноября 2016. Москва 16. 03. 2018
Аналитика Больших Данных Map. Reduce. Графы Граф G = (V, E) можно представить посредством: 1) Матрицы смежности (Adjacency matrix) 2) Списка смежности (Adjacency list) Матрица смежности. Представляет граф как n x n квадратную матрицу M. n = |V|, Mij = 1 означает наличие ребра от узла i к узлу j. РЭУ им. Г. В. Плеханова. 15 -16 ноября 2016. Москва 16. 03. 2018
Аналитика Больших Данных Map. Reduce. Графы Список смежности. Из матрицы смежности… «вытряхиваются» все нули…. РЭУ им. Г. В. Плеханова. 15 -16 ноября 2016. Москва 16. 03. 2018
Аналитика Больших Данных Графы в задачах анализа соцсетей 1) 2) 3) 4) 5) Выделение сообществ Анализ круга общения Выделение связей между группами пользователей Выделение нетипичных пользователей Прогнозирование новых связей РЭУ им. Г. В. Плеханова. 15 -16 ноября 2016. Москва 16. 03. 2018
Аналитика Больших Данных Программные реализации модели Map. Reduce Google Map. Reduce — реализация на C++ с интерфейсами на языках Python и Java. Apache Hadoop — бесплатная реализация Map. Reduce с открытым исходным кодом на языке Java. Mongo. DB позволяет использовать Map. Reduce для параллельной обработки запросов на нескольких серверах Apache Hive — надстройка с открытым исходным кодом от Facebook, позволяющая комбинировать Hadoop и доступ к данным на SQL-подобном языке. Green. Ploom — коммерческая реализация с поддержкой языков Python, Perl, SQL и других. Grid. Gane — бесплатная реализация с открытым исходным кодом на языке Java. Phoenix — реализация Map. Reduce на языке Си с использованием разделяемой памяти. Qt Concurrent — упрощённая версия фреймворка, реализованная средствами Qt на C++, которая используется для распределения задачи между несколькими ядрами одного компьютера. Couch. DB использует Map. Reduce для определения представлений поверх распределённых документов Skynet— реализация с открытым исходным кодом на языке Ruby Disco — реализация, созданная компанией Nokia, её ядро написано на языке Erlang, а приложения для неё можно писать на языке Python. Qizmt— реализация с открытым исходным кодом от My. Space, написанная на C#. YAMR (yet another mapreduce) — реализация от компании Яндекс для внутреннего использования. РЭУ им. Г. В. Плеханова. 15 -16 ноября 2016. Москва 16. 03. 2018
Аналитика Больших Данных Apache Hadoop - Набор программных средств распределенного хранения и обработки больших объемов данных на вычислительных кластерах; - Основан на распределенной файловой системе HDFS (Hadoop Distributed File System); - Кластеры могут состоять из сотен и тысяч машин, основанных на недорогих вычислительных платформах (commodity hardware); - Для обеспечения высокой надежности поддерживается избыточность путем создания копий фрагментов между узлами; - Масштабируемость достигается за счет параллельной обработки фрагментов на узлах с использованием программной модели параллельных распределенных вычислений Map. Reduce. РЭУ им. Г. В. Плеханова. 15 -16 ноября 2016. Москва 16. 03. 2018
Аналитика Больших Данных Apache Hadoop -- Apache Hadoop – это открытая реализация Map. Reduce для отказоустойчивых, масштабируемых распределенных вычислений. -- Состав Apache Hadoop: -- Hadoop Common - библиотеки управления файловыми системами, сценарии создания необходимой инфраструктуры и управления распределённой обработкой, упрощённый интерпретатор командной строки (FS shell, filesystem shell); -- Hadoop Distributed File System (HDFS) – распределенная файловая система, предназначенная для хранения файлов больших размеров, по-блочно распределённых между узлами вычислительного кластера. Все блоки в HDFS (кроме последнего блока файла) имеют одинаковый размер, и каждый блок может быть размещён на нескольких узлах; -- Hadoop YARN – подсистема управления заданиями и ресурсами кластера, модуль, появившийся с версией 2. 0 (2013). YARN может рассматриваться как кластерная операционная система. -- Hadoop Map. Reduce – фреймворк для разработки Map. Reduce-программ. -- Пользователи: Yahoo!, Facebook, Amazon, Apple, Microsoft, Twitter, . . . РЭУ им. Г. В. Плеханова. 15 -16 ноября 2016. Москва 16. 03. 2018
Аналитика Больших Данных Apache Hadoop В том или ином виде вычисления на Map. Reduce используются во всех крупнейших компаниях, занимающихся Big Data: Google, Microsoft, Facebook, Yahoo и других. Де-факто Map. Reduce давно стал стандартном при работе с данными гораздо более скромного размера. В Яндексе идет работа над системой под кодовым называнием YT ( «Ыть» ). Это основная платформа для хранения и обработки больших объемов данных Яндекс Поисковые логи , индексы, пользовательские данные, картографическая информация, промежуточные данные, …= 100 s PB Disc Space. РЭУ им. Г. В. Плеханова. 15 -16 ноября 2016. Москва 16. 03. 2018
Аналитика Больших Данных Apache Hadoop Далеко не все задачи удачно ложатся на модель Map. Reduce. Основное ограничение состоит в том, что она предполагает пакетное (batch) выполнение, при котором значительные объемы данных целиком проходят цепочку трансформаций. Эти трансформации занимают минуты, часы, а иногда и многие сутки. Такой способ работы непригоден для интерактивных ответов пользователям. Помимо Map. Reduce-вычислений традиционно используют системы, позволяющие выполнять чтение и запись данных с низкой латентностью. Существует множество таких систем: начиная с классических RDBMS (Oracle, Microsoft SQL Server, My. SQL, Postgre. SQL), для хранения 10— 100’s TB. и заканчивая No. SQL-системами (HBase, Cassandra), способными работать с PB. РЭУ им. Г. В. Плеханова. 15 -16 ноября 2016. Москва 16. 03. 2018
Аналитика Больших Данных Математические методы 1. Методы классификации 2. Кластерный анализ 3. Распознавание образов 4. Регрессия 5. Факторный анализ 6. Методы математической статистики 7. Машинное обучение -- нейронные сети -- генетические алгоритмы -- метод к ближайших соседей -- байесовское обучение 8. Анализ временных рядов -- выявление структуры временных рядов и прогнозировании 9. Методы Монте-Карло 10. Методы визуализации РЭУ им. Г. В. Плеханова. 15 -16 ноября 2016. Москва 16. 03. 2018
Аналитика Больших Данных Математические методы. Примеры в экономике • Классификация — отнесение входного вектора (объекта, события, наблюдения) к одному из заранее известных классов. Пример – целенаправленный найм (focused hiring). • Кластеризация — разделение множества входных векторов на группы (кластеры) по степени «похожести» друг на друга. Пример – сегментирование рынка. • Прогнозирование (анализ временных рядов). Пример – прогнозирование индекса фондового рынка с помощью анализа временных рядов. • Анализ отклонений (методы математической статистики). Пример – выявление нетипичной сетевой активности позволяет обнаружить вредоносные программы. • Ассоциация (методы математической статистики – корреляционный анализ). Пример – поиск «устойчивых связей в корзине покупателя» (market basket analysis). РЭУ им. Г. В. Плеханова. 15 -16 ноября 2016. Москва 16. 03. 2018
Аналитика Больших Данных Методы классификации. Пример. Деревья решений Метод деревьев решений (decision trees) - один из наиболее популярных методов решения задач классификации и прогнозирования. Деревья решений – довольно старый метод, предложен в конце 50 -х годов прошлого века. В наиболее простом виде дерево решений – это способ представления правил в иерархической, последовательной структуре. Основа такой структуры – ответы «да» или «нет» на ряд вопросов. Алгоритмы конструирования деревьев решений состоят из этапов «создание» дерева (tree building) и «сокращение» дерева (tree pruning). В ходе создания дерева решаются вопросы выбора критерия расщепления и остановки обучения (если это предусмотрено алгоритмом). В ходе этапа сокращения дерева решается вопрос отсечения некоторых его ветвей. РЭУ им. Г. В. Плеханова. 15 -16 ноября 2016. Москва 16. 03. 2018
Аналитика Больших Данных Деревья решений. Задача об оценке кредитного риска База данных банка содержит данные о клиентах банка, являющиеся её атрибутами: годовой доход, долги, займы, кредитная история и т. д. Задача классификации (клиентов) решается в два этапа: построение классификационной модели и её использование. Атрибуты базы данных являются внутренними узлами дерева и называются атрибутами расщепления (splitting attribute). Конечные узлы дерева, или листы, именуются метками класса, являющимися значениями зависимой категориальной переменной «кредитный риск» : малый, средний, высокий. РЭУ им. Г. В. Плеханова. 15 -16 ноября 2016. Москва 16. 03. 2018
Аналитика Больших Данных Деревья решений. Задача об оценке кредитного риска РЭУ им. Г. В. Плеханова. 15 -16 ноября 2016. Москва 16. 03. 2018
Аналитика Больших Данных Кластеризация на графах Социальная сеть, известная в научной литературе как ‘‘клуб карате’’ (задача Zachary). В течение 2 лет 34 члена клуба разделились на две группы вследствие споров между администратором клуба и тренером. Члены одной из групп основали свой собственный клуб. Сеть «дружеских связей» в клубе карате Zachary построил простой не взвешенный граф, отражающий отношения дружбы между каждой парой членов клуба. Каждый член клуба представляется на графе узлом, а ребро появляется между узлами, если эти члены клуба являются друзьями вне пределов клуба. An Information Flow Model for Conflict and Fission in Small Groups. Wayne W. Zachary. Journal of Anthropological Research. Vol. 33, No. 4 (Winter, 1977), pp. 452 -473 РЭУ им. Г. В. Плеханова. 15 -16 ноября 2016. Москва 16. 03. 2018
Аналитика Больших Данных Кластеризация на графах Результат применения алгоритма Girvan and Newman Деревья решений являются одним из наиболее популярных алгоритмов машинного обучения, поскольку они позволяют моделировать данные с сильным шумом, легко выделять нелинейные тренды и устанавливать взаимосвязь между индикаторами. РЭУ им. Г. В. Плеханова. 15 -16 ноября 2016. Москва 16. 03. 2018
Аналитика Больших Данных Машинное обучение – это термин или понятие, объединяющий математические методы и алгоритмы, направленные на извлечение информации из данных. В основе этих методов – принцип обучения модели на данных. Методы машинного обучения • Искусственные нейронные сети (ИНС) - многослойный перцептрон - радиальные базисные функции - метод опорных векторов • Наивный байесовский классификатор • Метод k ближайших соседей • Генетические алгоритмы • Деревья решений • Ассоциация (association rules) РЭУ им. Г. В. Плеханова. 15 -16 ноября 2016. Москва 16. 03. 2018
Аналитика Больших Данных Машинное обучение. Искусственные нейронные сети Искусственный нейрон Передаточная функция (один из типов сигмоид) РЭУ им. Г. В. Плеханова. 15 -16 ноября 2016. Москва 16. 03. 2018
Аналитика Больших Данных Машинное обучение. Нейронные сети Многослойный перцептрон (MLP) Обучение на множестве данных осуществляется посредством минимизации ошибки Меры отклонений выхода сети oi от целевой функции ti могут быть и другими. Другие типы нейронных сетей. Радиально-базисные (RBN), сеть Хопфилда, сеть Кохонена (self-organizing map) и т. д. Сети делятся на два различных класса в зависимости от того, как они обучаются – «с учителем» или без. РЭУ им. Г. В. Плеханова. 15 -16 ноября 2016. Москва 16. 03. 2018
Аналитика Больших Данных Машинное обучение. Глубокое обучение Когда признаков становится очень много, сложность задачи многократно возрастает – сеть становится очень громоздкой и неспособной к обучению. Один из методов – сокращение размерности. Может быть выполнено на этапе подготовки данных (не всегда возможно), например, методом главных компонент (МГК), либо самой сетью (в том числе воспроизведением нелинейного МГК). РЭУ им. Г. В. Плеханова. 15 -16 ноября 2016. Москва 16. 03. 2018
Аналитика Больших Данных Машинное обучение. Пример Сеть autoencoder (автоэнкодер, автоассоциатор) - специальная архитектура ИНС с обучением «без учителя» при использовании метода обратного распространения ошибки. Простейшая архитектура автоассоциатора — сеть прямого распространения, наиболее схожая с перцептроном и содержащая входной, промежуточный и выходной слои. В отличие от перцептрона, выходной слой содержит столько же нейронов, сколько и входной. Сеть автоматически обучается выделять из входных данных общие признаки (features), которые кодируются в значениях весов сети. При обучении сети на наборе различных входных изображений, нейросеть может самостоятельно обучиться распознавать линии и полосы под различными углами. РЭУ им. Г. В. Плеханова. 15 -16 ноября 2016. Москва 16. 03. 2018
Аналитика Больших Данных Машинное обучение. Глубокое обучение. Сверточные сети Для двумерного изображение I строится матрица K небольшой размерности h x w (ядро свертки), которая кодирует какой-то признак изображения. Вычисляется свернутое изображение I * K, накладывая ядро на изображение всеми возможными способами: РЭУ им. Г. В. Плеханова. 15 -16 ноября 2016. Москва 16. 03. 2018
Аналитика Больших Данных Большие Данные. Анализ соответствия номенклатуры специальностей вуза потребностям рынка труда Название проекта: «Автоматизированная система мониторинга и анализа соответствия потребностей рынка труда номенклатуре специальностей высшего образования» Цель – создание аналитической автоматизированной системы для определения: q соответствия получаемого образования ожиданиям рынка; q прогнозирования изменения этих ожиданий; q подготовки рекомендаций для корректировки учебных программ с целью обеспечения их наиболее точного соответствия ожиданиям рынка. Практическая значимость. Методика, лежащая в основе, может быть использована для решения широкого круга задач, для решение которых нужен анализ источников с данными, относящихся к категории Больших Данных. РЭУ им. Г. В. Плеханова. 15 -16 ноября 2016. Москва 16. 03. 2018
Аналитика Больших Данных Большие Данные. Анализ соответствия номенклатуры специальностей вуза потребностям рынка труда Краткое описание системы q Информационная система представляет собой веб-приложение с модулем загрузки и обработки текстовых данных. q Данные собираются в автоматическом режиме с использованием открытых источников (интернет-ресурсы кадровых агентств), накапливаются, анализируются, результаты представляются в виде отчетов в текстовом и графическом отображении. q Система использует алгоритмы машинного обучения для автоматического связывания требований рынка труда и профессиональных компетенций высшего образования, семантический и лингвистический анализ. q Система работает в распределенной облачной среде. РЭУ им. Г. В. Плеханова. 15 -16 ноября 2016. Москва 16. 03. 2018
Аналитика Больших Данных Большие Данные. Анализ соответствия номенклатуры специальностей вуза потребностям рынка труда РЭУ им. Г. В. Плеханова. 15 -16 ноября 2016. Москва 16. 03. 2018
Аналитика Больших Данных Большие Данные. Анализ соответствия номенклатуры специальностей вуза потребностям рынка труда РЭУ им. Г. В. Плеханова. 15 -16 ноября 2016. Москва 16. 03. 2018
Аналитика Больших Данных Большие Данные. Анализ соответствия номенклатуры специальностей вуза потребностям рынка труда «Похожесть» слов определяется на основе расчета косинусного расстояния. «Похожесть» предложений вычисляется на основе косинусного расстояния между векторами предложений. Вектор предложения рассчитывается как среднее взвешенное от векторов слов. РЭУ им. Г. В. Плеханова. 15 -16 ноября 2016. Москва 16. 03. 2018
Аналитика Больших Данных Большие Данные. Анализ соответствия номенклатуры специальностей вуза потребностям рынка труда Функциональная блок-схема, демонстрирующая действие алгоритма сравнения текстов требований и формулировок компетенций Взвешенный граф, отражающий связи между образовательными компетенциями и требованиями рынка труда, накопленными в базе данных системы (вершины соответствуют образовательным компетенциям и требованиям рынка труда и различаются цветом, а ребра – отражают наличие и силу (косинусное расстояние) связи между ними). РЭУ им. Г. В. Плеханова. 15 -16 ноября 2016. Москва 16. 03. 2018
Аналитика Больших Данных Большие Данные. Анализ соответствия номенклатуры специальностей вуза потребностям рынка труда В связи с тем, что карта связанности содержит информацию о связи компетенция – требование, можно восстановить связь компетенциявакансия, что, в свою очередь, дает возможность проследить востребованность выпускников РЭУ по городам. Аналогично, на основе связи «требованиекомпетенция» устанавливается востребованность вуза на уровне профилей образования. РЭУ им. Г. В. Плеханова. 15 -16 ноября 2016. Москва 16. 03. 2018
Аналитика Больших Данных Большие Данные. Анализ соответствия номенклатуры специальностей вуза потребностям рынка труда В рамках реализации проекта создан прототип автоматизированной информационной системы мониторинга и анализа кадровых потребностей регионов РФ по номенклатуре специальностей вуза. Прототип разработан для решения задач РЭУ им. Г. В. Плеханова, в том числе – для включения в состав программных и технологических решений Ситуационного центра социально-экономического развития России и регионов РФ. С помощью этой системы, в результате анализа постоянно обновляющихся больших массивов данных, можно устанавливать, насколько программы обучения высшего образования соответствуют текущим ожиданиям рынка, прогнозировать изменение этих ожиданий и автоматически выдавать рекомендации для корректировки учебных программ с целью наиболее точного соответствия этим ожиданиям. Созданная система, а также алгоритмы и принципы, на которых она построена, в дальнейшем могут быть использованы и для решения более широкого класса актуальных проблем. РЭУ им. Г. В. Плеханова. 15 -16 ноября 2016. Москва 16. 03. 2018
Аналитика Больших Данных 1) Литература Bernard Marr. “Big Data: Using SMART Big Data, Analytics and Metrics To Make Better Decisions and Improve Performance”. John Wiley & Sons Ltd, 2015. 2) Andrea De Mauro, Marco Greco and Michele Grimaldi. “What is Big Data? A Consensual Definition and a Review of Key Research Topics”. In “AIP Proceedings” 2014, “ 4 th International Conference on Integrated Information”. 3) Sofia Berto Villas-Boas. “Big Data in Firms and Economic Research”. Applied Economics and Finance, Vol. 1, No. 1; May 2014. 4) Liran Einav, Jonathan Levin. “The Data Revolution and Economic Analysis”. NBER Working Paper No. 19035, Issued in May 2013. 5) Тезисы докладов конференции «Большие данные в национальной экономике» , Москва, 21 октября 2014 г. 6) Тезисы докладов конференции «Большие данные в национальной экономике» , Москва, 22 октября 2013 г. 7) А. Климентов, А. Ваняшин, В. Кореньков. «За большими данными следит ПАНДА» . Суперкомпьютеры, 152013, стр. 56. РЭУ им. Г. В. Плеханова. 15 -16 ноября 2016. Москва 16. 03. 2018
Аналитика Больших Данных Литература 8) Денис Серов. “Аналитика “больших данных”– новые перспективы”. “Storage News”, № 1 (49), 2012. 9) Zhanpeng Huang, Pan Hui, Christoph Peylo. “When Augmented Reality Meets Big Data”. ar. Xiv: 1407. 7223 v 1. 10) Patrick J. Wolfe. “Making sense of big data”. PNAS. November 5, 2013, vol. 110, no. 45, 18031– 18032. 11) Jure Leskovec, Anand Rajaraman, Jeffrey D. Ullman. “Mining of Massive Datasets”. Cambridge University Press. 2012. 12) M. Weinstein, F. Meirer, A. Hume, Ph. Sciau, G. Shaked, R. Hofstetter, E. Persi, A. Mehta, and D. Horn. “Analyzing Big Data with Dynamic Quantum Clustering”. ar. Xiv: 1310. 2700. 13) Marvin Weinstein and David Horn, “Dynamic quantum clustering: A method for visual exploration of structures in data”. PHYSICAL REVIEW E 80, 066117 (2009). РЭУ им. Г. В. Плеханова. 15 -16 ноября 2016. Москва 16. 03. 2018
Аналитика Больших Данных Литература 14) David Horn and Assaf Gottlieb. “The Method of Quantum Clustering”. Proceedings of the Neural Information Processing Systems: NIPS’ 01, 2001, pp. 769– 776. 15) Vijay Gadepally & Jeremy Kepner. “Big Data Dimensional Analysis”. ar. Xiv: 1408. 0517 v 1. 16) MOHAMED-ALI BELABBAS AND PATRICK J. WOLFE. “On landmark selection and sampling in high-dimensional data analysis”. Phil. Trans. R. Soc. A (2009) 367, 4295– 4312. 17) Yonathan Aflalo and Ron Kimmel. “Spectral multidimensional scaling”. PNAS, November 5, 2013, vol. 110, no. 45, 18052– 18057. 18) Shahar Ronen, Bruno Gonçalves, Kevin Z. Hu, Alessandro Vespignani, Steven Pinker, and César A. Hidalgo. “Links that speak: The global language network and its association with global fame”. PNAS. 2014. Vol. 111. No. 52, pp. E 5616 -E 5622. РЭУ им. Г. В. Плеханова. 15 -16 ноября 2016. Москва 16. 03. 2018
Спасибо за внимание ! РЭУ им. Г. В. Плеханова. 15 -16 ноября 2016. Москва 16. 03. 2018
7a1794891c4a9ceca93fd0b54598629c.ppt