Проекты в рабочих группах Практика 4, 16. 11.
- Размер: 753 Кб
- Количество слайдов: 12
Описание презентации Проекты в рабочих группах Практика 4, 16. 11. по слайдам
Проекты в рабочих группах Практика 4, 16. 11. 2014 Алексей Натёкин
Recap проекты 2 DM Labs Чтобы получить библиотеку решений, нужно: • проработать ветвистую структуру решений • прорешать ряд типовых задач из разных областей Solution. Data extraction & checks Data processing Feature engineering Models Stories Tech & includes. Возможна более детализированная структура блоков
Рабочая группа и мегазадачи 3 DM Labs Мегазадача – обобщенная задача DM, включающая в себя разные типовые подзадачи и типы данных. Для двух подзадач соотношение общего к частному будет: Data extraction & checks Data processing Feature engineering Models Stories. Общие вещи: • Обработка данных • Признаки • Модели и подходы ( ±) • Способы визуализации* Частности: • Сами данные • Постановка задачи • Целевая функция ( ±) • . . . 50/50 80/20 90/10 70/30 50/
Рабочая группа и мегазадачи 4 DM Labs Мегазадача – обобщенная задача DM, включающая в себя разные типовые подзадачи и типы данных. Для двух подзадач соотношение общего к частному будет: Data extraction & checks Data processing Feature engineering Models Stories. Общие вещи: • Обработка данных • Признаки • Модели и подходы ( ±) • Способы визуализации* Частности: • Сами данные • Постановка задачи • Целевая функция ( ±) • . . . 50/50 80/20 90/10 70/30 50/50 Solution 20/
Организация мегазадачи 5 DM Labs В идеале хотим чтобы для любых подзадач почти все было заготовлено и решено до нас. Для этого нужно: 1. Понять что происходит сперва в подзадачах, потом в области: • Форумы, Q&A • Статьи 2. Управление знаниями и ресурсами: • Из найденных источников • С работ над своими задачами\датасетами • Повторно использовать знания! 3. Соблюдать баланс трудозатрат на общее\частное • Делать то что выгоднее для всей группы (1 проект и более) • Никогда не уходить в крайность
1. Понять что происходит 6 DM Labs Чтобы разобраться с задачей, сначала нужно самим тщательно ее оформить – сделать паспорт мегазадачи 1. Общая формулировка: • Например, решение задач прогноза и распознавания, когда на вход подается сырой текст. 2. Какие подзадачи мы собираемся решать (зачем это нужно): • Высокоуровневая формулировка: что хотим решить что получить на выходе какие данные нам нужны • Что точно делали , как уже решали (ссылки) Business Analysis Solution Interface. Machine Learning High Performance Computing Business layer Analysis layer Infrastructure layer Data domain Knowledge domain. Business Call Solutions
Business Analysis Solution Interface. Machine Learning High Performance Computing Business layer Analysis layer Infrastructure layer Data domain Knowledge domain. Business Call Solutions 1. Понять что происходит 7 DM Labs Чтобы разобраться с задачей, сначала нужно самим тщательно ее оформить – сделать паспорт мегазадачи 1. Общая формулировка: • Например, решение задач прогноза и распознавания, когда на вход подается сырой текст. 2. Какие подзадачи мы собираемся решать (зачем это нужно): • Высокоуровневая формулировка: что хотим решить что получить на выходе какие данные нам нужны • Что точно делали , как уже решали (ссылки) 3. Ссылки на ресурсы и ваши (будущие) страницы по этой задаче Для блога на сайте – первое задание К четвергу 27. 11 Начните с google docs
2. Знания и ресурсы 8 DM Labs Помимо структурирования проектов, можно внести еще больше контроля и прозрачности в происхоящее внутри всей мегазадачи. Data extraction & checks Data processing Feature engineering Models Stories • Mindmap с фичами как для общей мегазадачи и для каждой подзадачи • . . . • Сравнения выигрыша от усложнения моделей в подзадачах • Список самых значимых признаков • . . . • Репозиторий или БД с данными задач, их версями и источниками • Список доп. тулов, источников и ресурсов (словари, . . . ) • Репозиторий общих скриптов и инструментов, по своим соотетствующим блокам • Список известных типовых визуализаций с используемымт ипом данных • . . . • Документы со всеми шагами обработки данных. Типовые для данных и для позадач • . . .
2. Знания и ресурсы 9 DM Labs Помимо структурирования проектов, можно внести еще больше контроля и прозрачности в происхоящее внутри всей мегазадачи. Data extraction & checks Data processing Feature engineering Models Stories • Mindmap с фичами как для общей мегазадачи и для каждой подзадачи • . . . • Сравнения выигрыша от усложнения моделей в подзадачах • Список самых значимых признаков • . . . • Репозиторий или БД с данными задач, их версями и источниками • Список доп. тулов, источников и ресурсов (словари, . . . ) • Репозиторий общих скриптов и инструментов, по своим соотетствующим блокам • Список известных типовых визуализаций с используемымт ипом данных • . . . • Документы со всеми шагами обработки данных. Типовые для данных и для позадач • . . . – Технический порядок Порядок в голове, отдельне документы Можно показать людям, вставить в статью –
3. Баланс сил в команде 10 DM Labs Помним процесс: • Ситуации: o Вдумчиво разбираемся (по-одиночке) o Обсуждаем план действий (вместе) o %%ярим как в последний раз! (по-одиночке) o Разбираемся что получилось (вместе) o Компонуем свои вклады (. . . ) • Роли: o Капитан o «Руки» o «Глаза»
3. Баланс сил в команде 11 DM Labs Отличия от обычной командной работы: • У каждой подзадачи свой локальный капитан • Должна быть организована связь во всей группе • Нужно наладить инфраструктуру в команде • Нужно заняться и описаниями, и схемами, и кодом • Выбирая чем заняться, надо думать не только о своей команде\подзадаче, но и о том, нужно ли это еще кому-то • . . . обсуждение
Алексей Натёкин +7 960 276 41 33 natekin@dmlabs. org 12 DM Labs Спасибо!