Проекты Практика 3, 9. 11. 2014 Алексей Натёкин
- Размер: 5.9 Mегабайта
- Количество слайдов: 17
Описание презентации Проекты Практика 3, 9. 11. 2014 Алексей Натёкин по слайдам
Проекты Практика 3, 9. 11. 2014 Алексей Натёкин
Recap проекты 2 DM Labs Модель. Обработка. Гипотезы Результат 23 Модель. Обработка. Гипотезы Результат. Данные Результат Модель. Обработка. Гипотезы Результат 1 . . . Глобально 1. Разбираемся с задачей 2. Делаем первое решение 3. Наращиваем решение «кругами» 2 составляющие: • структура проекта • структура\качество кода + слаженность работы
Recap проекты 3 DM Labs Модель. Обработка. Гипотезы Результат 23 Другой взгляд на структуру проекта Solution. Data extraction & checks Data processing Feature engineering Models Stories Функции, тесты функций Внутренние специфичные скрипты с начинкой Сборный блок решения Tech & includes
Recap проекты 4 DM Labs Модель. Обработка. Гипотезы Результат 23 Другой взгляд на структуру проекта Solution. Data extraction & checks Data processing Feature engineering Models Stories Tech & includes. Функции, тесты функций Внутренние специфичные скрипты с начинкой Сборный блок решения
Recap проекты 5 DM Labs Data extraction & checks Data processing Feature engineering Models Stories. . . космос. . . scala, … python, … external, hadoop, … d 3, adobe , . . . Возможно абсолютная модульность. Нужно только сохранять промежуточные этапы. Функции, тесты функций Внутренние специфичные скрипты с начинкой Сборный блок решения Solution Tech & includes
Recap очень большая задача 6 DM Labs Открытая, reusable библиотека решений
Recap очень большая задача 7 DM Labs Это тоже самое, что • проработать ветвистую структуру решений • прорешать ряд типовых задач из своих областей Solution. Data extraction & checks Data processing Feature engineering Models Stories Tech & includes+ адаптировать структуру, предусмотреть больше вещей
Новая идея 8 DM Labs 1. Задачи на хакатонах − Kaggle − Приглашенный эксперт с его данными 2. Рабочие группы – Имеют свой проект (возможно личный) – По воскресеньям могут полностью сидеть над ним – Неограниченный размер группы – Q&A в отдельном чатике, запросы на консультации от экспертов. . . – От имени рабочей группы нужно раз в неделю писать пост в учебный блог о своем прогрессе
Проекты для рабочих групп DM Labs 9 Обилие • data mining • machine learning Обилие визуализаций. Research проекты Domain-ba sed DM проекты Data coolstory проекты
Группа 1: text regression (domain) 10 DM Labs • Тем кто хочет погрузиться в текстовые данные. Менее привычная задача чем просто «классификация» • Данные: – SEC fillings, прогноз волатильности – 10 k text regression http: //www. ark. cs. cmu. edu/10 K/ – Kaggle: Essay scoring ( есть решение пообедителей), что-то еще – OK предсказание числа лайков • Визуализация: – С текстом вообще много чего можно сделать – http: //textvis. lnu. se/
Группа 2: Ex. G++ (domain) 11 DM Labs • Погружение в временные ряды. Такой схожий и такой местами разный подход к тому же самому. • Данные: – TUM EMG для управления роботом – UCI EMG human activity recognition – UCI EEG – Kaggle EEG – ECG данные дам позже – HAR с помощью смартфонов – сюда же • Визуализация: – Общая для DM + “event studies” + временные ряды
Группа 3: Image++ (domain) 12 DM Labs • Для любителей изображений: − подойти к задачам не только deep learning’ ом − разобрать «глубокое» обучение на «глубокий» проект с фичами, обработкой и моделями • Данные: – [Kaggle] CIFAR – Kaggle galaxies – Kaggle dogs vs cats –. . . потом подкину данных с больших железных роботов • Визуализация: – Своеобразная. Имеет смысл t. SNE и все такое.
Группа 4 : Text mindmap (coolstory) 13 DM Labs • Иерархическая тектовая кластеризация ( LDA) с полным сервисом: ключевые слова + эвристики построения таких деревьев • Данные: – Можно взять все то же что и text regression – Reuters – Другие kaggle –. . . выкачанный форум эротических рассказов • Визуализация: – Mindmap’ ы – Все то что придумали с текстами – сюда же
Группа 5: SNA posts (coolstory) 14 DM Labs • Взять посты (больших) групп вконтакте(++), прокластеризовать не по тексту а по тому кто с кем лайкал. Можно с учетом сегментов лайкающих. • Данные: – Нужно придумать определение связи самим* – VK – OK – FB • Визуализация: – Gephi, в т. ч. динамическая – Экспорт в cytoscope. js и все такое
Группа i : бонусы 15 DM Labs • Есть многолетний запас дипломных работ и (почти) чистого рисерча. • Есть некоторый запас упоротых проектов. Например допилить генератор изображений на R.
Research проекты Domain-ba sed DM проекты Data coolstory проекты. Проекты для рабочих групп DM Labs 16 Обилие • data mining • machine learning Обилие визуализаций Text mind-m ap SNA posts Sport, Klim Filter, Sergey. Ex. G Text regres. Anti-fra ud, Alena. Image ++ … … MC shapes. Geo-sh apes Alex
Алексей Натёкин +7 960 276 41 33 natekin@dmlabs. org 17 DM Labs Спасибо!