Квесты рабочих групп Практика 5, 22. 11. 2014

  • Размер: 1.1 Mегабайта
  • Количество слайдов: 13

Описание презентации Квесты рабочих групп Практика 5, 22. 11. 2014 по слайдам

Квесты рабочих групп Практика 5, 22. 11. 2014 Алексей Натёкин Квесты рабочих групп Практика 5, 22. 11. 2014 Алексей Натёкин

Recap проекты 2 DM Labs Чтобы получить библиотеку решений, нужно:  • проработать ветвистую структуру решенийRecap проекты 2 DM Labs Чтобы получить библиотеку решений, нужно: • проработать ветвистую структуру решений • прорешать ряд типовых задач из разных областей Solution. Data extraction & checks Data processing Feature engineering Models Stories Tech & includes. Возможна более детализированная структура блоков

Recap Знания и ресурсы 3 DM Labs Помимо структурирования проектов, можно внести еще больше контроля иRecap Знания и ресурсы 3 DM Labs Помимо структурирования проектов, можно внести еще больше контроля и прозрачности в происхоящее внутри всей мегазадачи. Data extraction & checks Data processing Feature engineering Models Stories • Mindmap с фичами как для общей мегазадачи и для каждой подзадачи • . . . • Сравнения выигрыша от усложнения моделей в подзадачах • Список самых значимых признаков • . . . • Репозиторий или БД с данными задач, их версями и источниками • Список доп. тулов, источников и ресурсов (словари, . . . ) • Список известных типовых визуализаций с используемым типом данных • . . . • Документы со всеми шагами обработки данных. Типовые для данных и для позадач • . . . – Технический порядок Порядок в голове, отдельные документы Можно показать людям, вставить в статью – • Репозиторий общих скриптов и инструментов, по своим соотетствующим блокам

Recap Знания и ресурсы 4 DM Labs Помимо структурирования проектов, можно внести еще больше контроля иRecap Знания и ресурсы 4 DM Labs Помимо структурирования проектов, можно внести еще больше контроля и прозрачности в происхоящее внутри всей мегазадачи. Data extraction & checks Data processing Feature engineering Models Stories • Mindmap с фичами как для общей мегазадачи и для каждой подзадачи • . . . • Сравнения выигрыша от усложнения моделей в подзадачах • Список самых значимых признаков • . . . • Репозиторий или БД с данными задач, их версями и источниками • Список доп. тулов, источников и ресурсов (словари, . . . ) • Список известных типовых визуализаций с используемым типом данных • . . . • Документы со всеми шагами обработки данных. Типовые для данных и для позадач • . . . – Технический порядок Порядок в голове, отдельные документы Можно показать людям, вставить в статью –

Recap Описание модели 5 DM Labs модель формула обучение данные Источник данных. Признаки Предобработка Регуляризация ОптимизаторRecap Описание модели 5 DM Labs модель формула обучение данные Источник данных. Признаки Предобработка Регуляризация Оптимизатор Целевая функция. Испльзуемые признаки. Параметры Зависимости • Описание октуда данные • Сам датасет, версия • Преобразования • Заполнение пропусков • Урезание данных • Исходные • Обученные • Достроенные • Скрытые • Явные • Аддитивные • Интерактивные • Факторные • Гиперпараметры • Параметры модели • Фиксированные • Целевой функции • Оптимизатора • Модели • Параметры • Алгоритм • Способ оптимизации • Математ формулировка • Веса • Гиперпараметры

Квесты 6 DM Labs Квесты 6 DM Labs

Image++ 7 DM Labs Функции, инфраструктура, . . . : 1. Оформить генерацию признаков в файлыImage++ 7 DM Labs Функции, инфраструктура, . . . : 1. Оформить генерацию признаков в файлы 2. Генерация признаков к-средними. Можно потестировать на MNIST Визуализация: 1. Сделать из sunburst инструмент валидации – чтобы был список галактик, а sunburst показывал какую он куда относит 2. Плюшки – 2 режима: распределение классов и ошибки 3. Если будет время: доделать цвета, подписи. Можно сделать очень крутую реюзабельную вещь Результаты: 1. Запустить модели на гистограммах. Разобрать xgboost 2. Запустить модели на к-средних 3. Совместить графику и результаты 4. . клевые идеи по к-средним?

Text regression 8 DM Labs Функции, инфраструктура, . . . : 1. Базовая предобработка: стемминг, не-редкиеText regression 8 DM Labs Функции, инфраструктура, . . . : 1. Базовая предобработка: стемминг, не-редкие биграммы 2. Извлечение частей речи ( POS-tagging). Смотрите внешние тулы 3. До-собирать данные по акциям 4. Распарсить SEC до нужной секции Визуализация: 1. Самые значимые слова и биграммы 2. Динамику акций против слов – цветные wordcloud’ ы? 3. . эксперименты с вытаскиванием графов слов ( Gephi) Результаты: 1. Запустить kaggle ASAP, запустить SEC- волатильность 2. Сравнить с baseline моделями и там 3. Объяснение того, что у вас получилось (что это все значит? ) 4. . идеи, предложения как это улучшить?

Text clustering/Mindmap 9 DM Labs Функции, инфраструктура, . . . : 1. Скооперироваться с text regressionText clustering/Mindmap 9 DM Labs Функции, инфраструктура, . . . : 1. Скооперироваться с text regression группой 2. Отобрать релевантные вещи для кандидатов в слова mindmap 3. Попробовать алгоритм извлечения устойчивых кластеров: бутстрап lda меток + их matching. «Срезание верхушек холмов» . Можно потренироваться на 2 D гауссианах 4. Разобраться с perplexity и оценкой качества lda 5. Отбор наиболее значимых слов: lasso, выкидывание слов Визуализация: 1. Сначала просто выводить в текстовый файл списки слов\биграмм по кластерам (с отступами=глубине – как списки) 2. Попробовать сделать так: http: // bl. ocks. org/mbostock/4063550 Результаты: 1. Несколько визуализированных майндмепов

SNA 10 DM Labs Функции, инфраструктура, . . . : 1. Простая функция - собирает эго-сетьSNA 10 DM Labs Функции, инфраструктура, . . . : 1. Простая функция — собирает эго-сеть пользователя: • Граф (пары узлов) • Ключевая информация по узлам (базовая инфа о юзере) 2. Cool-story функция – сбор эго-сети для закрытого списка друзей Данные: 1. Собрать 10 покончивших с собой (больше – лучше) 2. Собрать целиком группу из хотябы 1000 интересующихся этим 3. Собрать участников нашей группы dmtrack 2014 Результаты: 1. Запущенные модели, восстанавливающие возраст 2. Посчитанные ключевые характеристики графов ( igraph/gephi). . . 3. . Графики распределений метрик для всех: самоубийц. Может быть удастся найти кластера

EXG (больше про EEG) 11 DM Labs Функции, инфраструктура, . . . : 1. Генерация csvEXG (больше про EEG) 11 DM Labs Функции, инфраструктура, . . . : 1. Генерация csv из matlab/… в отдельные файлы 2. Извлечение и предобработка: фильтры ( MA, …), FFT спектры, ICA 3. Временные вложения (как в SSA) 4. . Визуализация: 1. Linechart’ ы с исходными сигналами ( x vs t), цвет – класс 2. Event-studies: как меняются профили сигналов до и после событий 3. Графики с проекциями от ICA, PCA, … 4. . Результаты: 1. Несколько «поколений» решений задач 2. Как разные «слои» моделей влияют на ваши результаты?

Спорт прогнозы 12 DM Labs Функции, инфраструктура, . . . : 1. Единый репозиторий данных 2.Спорт прогнозы 12 DM Labs Функции, инфраструктура, . . . : 1. Единый репозиторий данных 2. Извлечение признаков: командные, игроков. Сперва простые: количество побед за N матчей назад, количество игр за N дней назад, количество игр с таким составом из последних N игр, сколько новичков\восстановившихся в игре, сколько «ветеранов» 3. Больше признаков для бога признаков 4. Как решать задачу – классификация (чего для чего? ), что-то еще? Визуализация: 1. Базовые сравнения распределений построенных признаков по командам, по статусу (победил\проиграл), игроки-талисманы 2. Проекции построенных признаков Результаты: 1. Запущенные модели 2. Profitability моделей (маленький торговый робот)

Алексей Натёкин natekin@dmlabs. org 13 DM Labs Спасибо!  Алексей Натёкин natekin@dmlabs. org 13 DM Labs Спасибо!