Проекты Практика 3, 9. 11. 2014

Скачать презентацию Проекты Практика 3, 9. 11. 2014 Скачать презентацию Проекты Практика 3, 9. 11. 2014

DMT_practice_3.ppt

  • Количество слайдов: 17

>  Проекты Практика 3, 9. 11. 2014 Алексей Натёкин Проекты Практика 3, 9. 11. 2014 Алексей Натёкин

>Recap проекты      DM Labs  Глобально   Recap проекты DM Labs Глобально 2 составляющие: 1. Разбираемся с задачей • структура проекта 2. Делаем первое решение • структуракачество кода 3. Наращиваем решение «кругами» + слаженность работы Данные Результат Гипотезы Обработка Модель Результат 1 . . . Гипотезы Обработка Модель Результат 23 2

>Recap проекты       DM Labs  Другой взгляд на Recap проекты DM Labs Другой взгляд на структуру проекта Гипотезы Обработка Модель Результат 23 Data Feature extraction & Models Stories processing engineering checks Функции, тесты функций Внутренние специфичные скрипты с начинкой Tech & Solution includes Сборный блок решения 3

>Recap проекты       DM Labs  Другой взгляд на Recap проекты DM Labs Другой взгляд на структуру проекта Гипотезы Обработка Модель Результат 23 Data Feature extraction & Models Stories processing engineering checks Функции, тесты функций Внутренние специфичные скрипты с начинкой Tech & Solution includes Сборный блок решения 4

>Recap проекты      DM Labs  Возможно абсолютная модульность. Recap проекты DM Labs Возможно абсолютная модульность. Нужно только сохранять промежуточные этапы. external, . . . космос. . . scala, … python, … d 3, adobe, . . . hadoop, … Data Feature extraction & Models Stories processing engineering checks Функции, тесты функций Внутренние специфичные скрипты с начинкой Tech & Solution includes Сборный блок решения 5

>Recap очень большая задача   DM Labs  Открытая, reusable библиотека решений Recap очень большая задача DM Labs Открытая, reusable библиотека решений 6

>Recap очень большая задача       DM Labs  Это Recap очень большая задача DM Labs Это тоже самое, что • проработать ветвистую структуру решений • прорешать ряд типовых задач из своих областей Data Feature extraction & Models Stories processing engineering checks + адаптировать структуру, предусмотреть больше вещей Tech & Solution includes 7

>Новая идея    DM Labs 1. Задачи на хакатонах  − Новая идея DM Labs 1. Задачи на хакатонах − Kaggle − Приглашенный эксперт с его данными 2. Рабочие группы – Имеют свой проект (возможно личный) – По воскресеньям могут полностью сидеть над ним – Неограниченный размер группы – Q&A в отдельном чатике, запросы на консультации от экспертов . . . – От имени рабочей группы нужно раз в неделю писать пост в учебный блог о своем прогрессе 8

>Проекты для рабочих групп     DM Labs  Обилие • data Проекты для рабочих групп DM Labs Обилие • data mining • machine Research learning проекты Domain- based DM проекты Data coolstory проекты Обилие визуализаций 9

>Группа 1: text regression (domain)     DM Labs  • Группа 1: text regression (domain) DM Labs • Тем кто хочет погрузиться в текстовые данные. Менее привычная задача чем просто «классификация» • Данные: – SEC fillings, прогноз волатильности – 10 k text regression http: //www. ark. cs. cmu. edu/10 K/ – Kaggle: Essay scoring (есть решение пообедителей), что-то еще – OK предсказание числа лайков • Визуализация: – С текстом вообще много чего можно сделать – http: //textvis. lnu. se/ 10

>Группа 2: Ex. G++ (domain)      DM Labs  • Группа 2: Ex. G++ (domain) DM Labs • Погружение в временные ряды. Такой схожий и такой местами разный подход к тому же самому. • Данные: – TUM EMG для управления роботом – UCI EMG human activity recognition – UCI EEG – Kaggle EEG – ECG данные дам позже – HAR с помощью смартфонов – сюда же • Визуализация: – Общая для DM + “event studies” + временные ряды 11

>Группа 3: Image++ (domain)       DM Labs  • Группа 3: Image++ (domain) DM Labs • Для любителей изображений: − подойти к задачам не только deep learning’ом − разобрать «глубокое» обучение на «глубокий» проект с фичами, обработкой и моделями • Данные: – [Kaggle] CIFAR – Kaggle galaxies – Kaggle dogs vs cats – . . . потом подкину данных с больших железных роботов • Визуализация: – Своеобразная. Имеет смысл t. SNE и все такое. 12

>Группа 4: Text mindmap (coolstory)     DM Labs  • Группа 4: Text mindmap (coolstory) DM Labs • Иерархическая тектовая кластеризация (LDA) с полным сервисом: ключевые слова + эвристики построения таких деревьев • Данные: – Можно взять все то же что и text regression – Reuters – Другие kaggle – . . . выкачанный форум эротических рассказов • Визуализация: – Mindmap’ы – Все то что придумали с текстами – сюда же 13

>Группа 5: SNA posts (coolstory)     DM Labs  • Группа 5: SNA posts (coolstory) DM Labs • Взять посты (больших) групп вконтакте(++), прокластеризовать не по тексту а по тому кто с кем лайкал. Можно с учетом сегментов лайкающих. • Данные: – Нужно придумать определение связи самим* – VK – OK – FB • Визуализация: – Gephi, в т. ч. динамическая – Экспорт в cytoscope. js и все такое 14

>Группа i: бонусы       DM Labs  • Группа i: бонусы DM Labs • Есть многолетний запас дипломных работ и (почти) чистого рисерча. • Есть некоторый запас упоротых проектов. Например допилить генератор изображений на R. 15

>Проекты для рабочих групп     DM Labs  Обилие • data Проекты для рабочих групп DM Labs Обилие • data mining Image • machine Research ++ learning проекты… Text regres. Sport, Ex. G Domain- Klim Text mind- based DM map Filter, проекты Anti- Sergey fraud, Alena SNA posts Data Geo- coolstoryshapes проекты Alex …MC shapes Обилие визуализаций 16

>     DM Labs Спасибо! Алексей Натёкин +7 960 276 41 DM Labs Спасибо! Алексей Натёкин +7 960 276 41 33 natekin@dmlabs. org 17