Проекты в рабочих группах Практика 4, 16.
Проекты в рабочих группах Практика 4, 16. 11. 2014 Алексей Натёкин
Recap проекты DM Labs Чтобы получить библиотеку решений, нужно: • проработать ветвистую структуру решений • прорешать ряд типовых задач из разных областей Data Feature extraction & Models Stories processing engineering checks Возможна более детализированная структура блоков Tech & Solution includes 2
Рабочая группа и мегазадачи DM Labs Мегазадача – обобщенная задача DM, включающая в себя разные типовые подзадачи и типы данных. Общие вещи: Частности: • Обработка данных • Сами данные • Признаки • Постановка задачи • Модели и подходы (±) • Целевая функция (±) • Способы визуализации* • . . . Для двух подзадач соотношение общего к частному будет: 50/50 80/20 90/10 70/30 50/50 Data Feature extraction & Models Stories processing engineering checks 3
Рабочая группа и мегазадачи DM Labs Мегазадача – обобщенная задача DM, включающая в себя разные типовые подзадачи и типы данных. Общие вещи: Частности: • Обработка данных • Сами данные • Признаки • Постановка задачи • Модели и подходы (±) • Целевая функция (±) • Способы визуализации* • . . . Для двух подзадач соотношение общего к частному будет: 50/50 80/20 90/10 70/30 50/50 Data Feature extraction & Models Stories processing engineering checks 20/80 4 Solution
Организация мегазадачи DM Labs В идеале хотим чтобы для любых подзадач почти все было заготовлено и решено до нас. Для этого нужно: 1. Понять что происходит сперва в подзадачах, потом в области: • Форумы, Q&A • Статьи 2. Управление знаниями и ресурсами: • Из найденных источников • С работ над своими задачамидатасетами • Повторно использовать знания! 3. Соблюдать баланс трудозатрат на общеечастное • Делать то что выгоднее для всей группы (1 проект и более) • Никогда не уходить в крайность 5
1. Понять что происходит DM Labs Чтобы разобраться с задачей, сначала нужно самим тщательно ее оформить – сделать паспорт мегазадачи 1. Общая формулировка: • Например, решение задач прогноза и распознавания, когда на вход подается сырой текст. 2. Какие подзадачи мы собираемся решать (зачем это нужно): • Высокоуровневая формулировка: Business Call Solutions Ø что хотим решить Business Solution Ø что получить на выходе Analysis Interface Business layer Ø какие данные нам нужны Data Mining Machine Learning Analysis layer • Что точно делали, как уже решали (ссылки) High Performance Infrastructure Big Data Computing layer Data domain Knowledge domain 6
1. Понять что происходит DM Labs Чтобы разобраться с задачей, сначала нужно самим тщательно ее оформить – сделать паспорт мегазадачи 1. Общая формулировка: • Например, решение задач прогноза и распознавания, когда на вход подается сырой текст. Для блога на сайте – первое задание 2. Какие подзадачи мы собираемся решать (зачем это нужно): К четвергу 27. 11 • Высокоуровневая формулировка: Business Call Solutions Ø что хотим решить Начните с google docs Ø что получить на выходе Business Analysis Solution Interface Business layer Ø какие данные нам нужны Data Mining Machine Learning Analysis layer • Что точно делали, как уже решали (ссылки) High Performance Infrastructure Big Data Computing layer Data domain Knowledge domain 3. Ссылки на ресурсы и ваши (будущие) страницы по этой задаче 7
2. Знания и ресурсы DM Labs Помимо структурирования проектов, можно внести еще больше контроля и прозрачности в происхоящее внутри всей мегазадачи. • Репозиторий • Документы со • Mindmap с • Сравнения • Список или БД с всеми шагами фичами как выигрыша от известных данными обработки для общей усложнения типовых задач, их данных. мегазадачи и моделей в визуализаций с версями и Типовые для каждой подзадачах используемым источниками данных и для подзадачи • Список самых типом данных • Список доп. позадач • . . . значимых • . . . тулов, • . . . признаков источников и • . . . ресурсов (словари, . . . ) • Репозиторий общих скриптов и инструментов, по своим соотетствующим блокам Data Feature extraction & Models Stories processing engineering checks 8
2. Знания и ресурсы DM Labs Помимо структурирования проектов, можно внести еще больше контроля и прозрачности в происхоящее внутри всей мегазадачи. Порядок в голове, отдельне документы – Технический порядок – Можно показать людям, вставить в статью • Репозиторий • Документы со • Mindmap с • Сравнения • Список или БД с всеми шагами фичами как выигрыша от известных данными обработки для общей усложнения типовых задач, их данных. мегазадачи и моделей в визуализаций с версями и Типовые для каждой подзадачах используемым источниками данных и для подзадачи • Список самых типом данных • Список доп. позадач • . . . значимых • . . . тулов, • . . . признаков источников и • . . . ресурсов (словари, . . . ) • Репозиторий общих скриптов и инструментов, по своим соотетствующим блокам Data Feature extraction & Models Stories processing engineering checks 9
3. Баланс сил в команде DM Labs Помним процесс: • Ситуации: o Вдумчиво разбираемся (по-одиночке) o Обсуждаем план действий (вместе) o %%ярим как в последний раз! (по-одиночке) o Разбираемся что получилось (вместе) o Компонуем свои вклады (. . . ) • Роли: o Капитан o «Руки» o «Глаза» 10
3. Баланс сил в команде DM Labs Отличия от обычной командной работы: • У каждой подзадачи свой локальный капитан • Должна быть организована связь во всей группе • Нужно наладить инфраструктуру в команде • Нужно заняться и описаниями, и схемами, и кодом • Выбирая чем заняться, надо думать не только о своей командеподзадаче, но и о том, нужно ли это еще кому-то • . . . обсуждение 11
DM Labs Спасибо! Алексей Натёкин +7 960 276 41 33 natekin@dmlabs. org 12
DMT_practice_4.ppt
- Количество слайдов: 12

