Проекты Практика 3, 9. 11. 2014

















Проекты Практика 3, 9. 11. 2014 Алексей Натёкин
Recap проекты DM Labs Глобально 2 составляющие: 1. Разбираемся с задачей • структура проекта 2. Делаем первое решение • структуракачество кода 3. Наращиваем решение «кругами» + слаженность работы Данные Результат Гипотезы Обработка Модель Результат 1 . . . Гипотезы Обработка Модель Результат 23 2
Recap проекты DM Labs Другой взгляд на структуру проекта Гипотезы Обработка Модель Результат 23 Data Feature extraction & Models Stories processing engineering checks Функции, тесты функций Внутренние специфичные скрипты с начинкой Tech & Solution includes Сборный блок решения 3
Recap проекты DM Labs Другой взгляд на структуру проекта Гипотезы Обработка Модель Результат 23 Data Feature extraction & Models Stories processing engineering checks Функции, тесты функций Внутренние специфичные скрипты с начинкой Tech & Solution includes Сборный блок решения 4
Recap проекты DM Labs Возможно абсолютная модульность. Нужно только сохранять промежуточные этапы. external, . . . космос. . . scala, … python, … d 3, adobe, . . . hadoop, … Data Feature extraction & Models Stories processing engineering checks Функции, тесты функций Внутренние специфичные скрипты с начинкой Tech & Solution includes Сборный блок решения 5
Recap очень большая задача DM Labs Открытая, reusable библиотека решений 6
Recap очень большая задача DM Labs Это тоже самое, что • проработать ветвистую структуру решений • прорешать ряд типовых задач из своих областей Data Feature extraction & Models Stories processing engineering checks + адаптировать структуру, предусмотреть больше вещей Tech & Solution includes 7
Новая идея DM Labs 1. Задачи на хакатонах − Kaggle − Приглашенный эксперт с его данными 2. Рабочие группы – Имеют свой проект (возможно личный) – По воскресеньям могут полностью сидеть над ним – Неограниченный размер группы – Q&A в отдельном чатике, запросы на консультации от экспертов . . . – От имени рабочей группы нужно раз в неделю писать пост в учебный блог о своем прогрессе 8
Проекты для рабочих групп DM Labs Обилие • data mining • machine Research learning проекты Domain- based DM проекты Data coolstory проекты Обилие визуализаций 9
Группа 1: text regression (domain) DM Labs • Тем кто хочет погрузиться в текстовые данные. Менее привычная задача чем просто «классификация» • Данные: – SEC fillings, прогноз волатильности – 10 k text regression http: //www. ark. cs. cmu. edu/10 K/ – Kaggle: Essay scoring (есть решение пообедителей), что-то еще – OK предсказание числа лайков • Визуализация: – С текстом вообще много чего можно сделать – http: //textvis. lnu. se/ 10
Группа 2: Ex. G++ (domain) DM Labs • Погружение в временные ряды. Такой схожий и такой местами разный подход к тому же самому. • Данные: – TUM EMG для управления роботом – UCI EMG human activity recognition – UCI EEG – Kaggle EEG – ECG данные дам позже – HAR с помощью смартфонов – сюда же • Визуализация: – Общая для DM + “event studies” + временные ряды 11
Группа 3: Image++ (domain) DM Labs • Для любителей изображений: − подойти к задачам не только deep learning’ом − разобрать «глубокое» обучение на «глубокий» проект с фичами, обработкой и моделями • Данные: – [Kaggle] CIFAR – Kaggle galaxies – Kaggle dogs vs cats – . . . потом подкину данных с больших железных роботов • Визуализация: – Своеобразная. Имеет смысл t. SNE и все такое. 12
Группа 4: Text mindmap (coolstory) DM Labs • Иерархическая тектовая кластеризация (LDA) с полным сервисом: ключевые слова + эвристики построения таких деревьев • Данные: – Можно взять все то же что и text regression – Reuters – Другие kaggle – . . . выкачанный форум эротических рассказов • Визуализация: – Mindmap’ы – Все то что придумали с текстами – сюда же 13
Группа 5: SNA posts (coolstory) DM Labs • Взять посты (больших) групп вконтакте(++), прокластеризовать не по тексту а по тому кто с кем лайкал. Можно с учетом сегментов лайкающих. • Данные: – Нужно придумать определение связи самим* – VK – OK – FB • Визуализация: – Gephi, в т. ч. динамическая – Экспорт в cytoscope. js и все такое 14
Группа i: бонусы DM Labs • Есть многолетний запас дипломных работ и (почти) чистого рисерча. • Есть некоторый запас упоротых проектов. Например допилить генератор изображений на R. 15
Проекты для рабочих групп DM Labs Обилие • data mining Image • machine Research ++ learning проекты… Text regres. Sport, Ex. G Domain- Klim Text mind- based DM map Filter, проекты Anti- Sergey fraud, Alena SNA posts Data Geo- coolstoryshapes проекты Alex …MC shapes Обилие визуализаций 16
DM Labs Спасибо! Алексей Натёкин +7 960 276 41 33 natekin@dmlabs. org 17

