Решении DM/ML задач Задача Нам дали данные.

  • Размер: 6.5 Mегабайта
  • Количество слайдов: 32

Описание презентации Решении DM/ML задач Задача Нам дали данные. по слайдам

Решении DM/ML задач  Решении DM/ML задач

Задача Нам дали данные. Нам поставили задачу. Мы знаем какой должен быть результат. Данные Результат. СлучайныйЗадача Нам дали данные. Нам поставили задачу. Мы знаем какой должен быть результат. Данные Результат. Случайный лес DM Labs 2 Задача

Задача Нам дали данные. Нам поставили задачу. Мы знаем какой должен быть результат. Данные Результат ДавайтеЗадача Нам дали данные. Нам поставили задачу. Мы знаем какой должен быть результат. Данные Результат Давайте решим влоб! RF/SVM, вдруг сработает. Случайный лес DM Labs 3 Задача

Задача Нам дали данные. Нам поставили задачу. Мы знаем какой должен быть результат. Данные Результат. СлучайныйЗадача Нам дали данные. Нам поставили задачу. Мы знаем какой должен быть результат. Данные Результат. Случайный лес DM Labs 4 Задача

Что произошло?  Мы что-то где-то упустили. Данные Результат. Случайный лес DM Labs 5 Что пошлоЧто произошло? Мы что-то где-то упустили. Данные Результат. Случайный лес DM Labs 5 Что пошло не так?

Что произошло?  Мы поставили гипотезу: применим RF влоб, вдруг сработает. Данные Результат. Случайный лес DMЧто произошло? Мы поставили гипотезу: применим RF влоб, вдруг сработает. Данные Результат. Случайный лес DM Labs 6 Что пошло не так?

Модель. Что если мы ошиблись с RF/SVM? Тоесть, все заработало, но результат был плох? Данные РезультатМодель. Что если мы ошиблись с RF/SVM? Тоесть, все заработало, но результат был плох? Данные Результат Модель. Случайный лес DM Labs 7 Модели

Модель. Что если мы ошиблись с RF/SVM? Мы же не накосячили с тренировочным ,  валидационнымМодель. Что если мы ошиблись с RF/SVM? Мы же не накосячили с тренировочным , валидационным и тестовым множествами, а также CV? Данные Результат Модель. Случайный лес DM Labs 8 Модели. Обучающие множества

Модель. Данные Результат Модель Есть:  • Обученная модель • Результат ее работы на валидационном(тестовом) множествеМодель. Данные Результат Модель Есть: • Обученная модель • Результат ее работы на валидационном(тестовом) множестве (ошибка) Случайный лес DM Labs 9 Что мы хотим от моделей?

Модель. Данные Результат Модель Есть:  • Обученная модель • Результат ее работы на валидационном(тестовом) множествеМодель. Данные Результат Модель Есть: • Обученная модель • Результат ее работы на валидационном(тестовом) множестве (ошибка) Хотим: • Улучшить ( обобщающую) точность Случайный лес DM Labs 10 Что мы хотим от моделей?

Модель. Данные Результат Модель Хотим:  • Улучшить ( обобщающую) точность Случайный лес DM Labs 11Модель. Данные Результат Модель Хотим: • Улучшить ( обобщающую) точность Случайный лес DM Labs 11 Что мы можем сделать с моделями?

Модель. Данные Результат. Модель Сложность* Регуляризация Гиперпараметры Выбор гиперпараметров тратит много машинного времени.  • GBMМодель. Данные Результат. Модель Сложность* Регуляризация Гиперпараметры Выбор гиперпараметров тратит много машинного времени. • GBM : #base-learners, lambda, RI, *prune, Loss, • SVM : kernel, width, cost, nu-SVM, . . . • GLMnet : a. ridge, AIC, response family • RF : … ? • Neural Net : … ? Случайный лес DM Labs 12 Что мы можем сделать с моделями?

Модель. Данные Результат. Модель Сложность* Регуляризация Гиперпараметры Где мы еще могли накосячить? Случайный лес DM LabsМодель. Данные Результат. Модель Сложность* Регуляризация Гиперпараметры Где мы еще могли накосячить? Случайный лес DM Labs 13 Что еще могло пойти не так?

Модель. Данные Результат. Модель Сложность* Регуляризация Гиперпараметры Где мы еще могли накосячить? Big Data Machine Learning.Модель. Данные Результат. Модель Сложность* Регуляризация Гиперпараметры Где мы еще могли накосячить? Big Data Machine Learning. Случайный лес DM Labs 14 Что еще могло пойти не так?

Модель. Данные Результат Оно вообще не посчиталось.  Иногда – феерично. Big Data Machine Learning. СлучайныйМодель. Данные Результат Оно вообще не посчиталось. Иногда – феерично. Big Data Machine Learning. Случайный лес DM Labs 15 Что еще могло пойти не так?

Обработка данных. Тесно связана с моделью. Данные Результат. Модель Сложность* Регуляризация Гиперпараметры. Обработка данных. Случайный лесОбработка данных. Тесно связана с моделью. Данные Результат. Модель Сложность* Регуляризация Гиперпараметры. Обработка данных. Случайный лес DM Labs 16 Обработка данных

Обработка данных. Данные Результат. Модель Сложность* Регуляризация Гиперпараметры. Обработка данных Хотим:  • Заставить что-то работатьОбработка данных. Данные Результат. Модель Сложность* Регуляризация Гиперпараметры. Обработка данных Хотим: • Заставить что-то работать • Уменьшить количество переменных\данных • Увеличить скорость вычисления\обучения ( !=)Случайный лес DM Labs 17 Обработка данных

Обработка данных. Данные Результат. Модель Сложность* Регуляризация Гиперпараметры. Обработка данных Хотим:  • Заставить что-то работатьОбработка данных. Данные Результат. Модель Сложность* Регуляризация Гиперпараметры. Обработка данных Хотим: • Заставить что-то работать • Уменьшить количество переменных\данных • Увеличить скорость вычисления\обучения ( !=)Случайный лес DM Labs 18 Возможности обработки данных

Обработка данных. В подвыборки можно вкладывать смысл: 5 юзеров, записей, уникальных юзеров, последних записей. . .Обработка данных. В подвыборки можно вкладывать смысл: 5% юзеров, записей, уникальных юзеров, последних записей. . . Feature learning – основа deep learning. Unsupervised, обычно отдельно: http: //web. eecs. umich. edu/~honglak/nipsdlufl 10 -Analysis. Single. Layer. Unsupervised. Feature. Learning. pdf. Данные Результат. Модель Сложность* Регуляризация Гиперпараметры. Обработка Выбросы Подвыборка Feature Learning. Случайный лес DM Labs 19 Обработка данных. Feature Learning

Обработка данных. Что-то еще? Данные Результат. Модель Сложность* Регуляризация Гиперпараметры. Обработка Выбросы Подвыборка Feature Learning. СлучайныйОбработка данных. Что-то еще? Данные Результат. Модель Сложность* Регуляризация Гиперпараметры. Обработка Выбросы Подвыборка Feature Learning. Случайный лес DM Labs 20 Что еще могло пойти не так?

Обработка данных. Что если все еще не взлетает. Данные Результат. Модель Сложность* Регуляризация Гиперпараметры. Обработка ВыбросыОбработка данных. Что если все еще не взлетает. Данные Результат. Модель Сложность* Регуляризация Гиперпараметры. Обработка Выбросы Подвыборка Feature Learning. Случайный лес DM Labs 21 Что еще могло пойти не так?

Гипотеза о задаче. Самое сложное.  Понять что вообще происходит.  Неправильные фичи могут ни кГипотеза о задаче. Самое сложное. Понять что вообще происходит. Неправильные фичи могут ни к чему не привести. Данные Результат. Модель Сложность* Регуляризация Гиперпараметры. Обработка Выбросы Подвыборка Feature Learning. Гипотезы о задаче Feature engineering Случайный лес DM Labs 22 «Спросить у эксперта»

Гипотеза о задаче. Данные Результат. Модель Сложность* Регуляризация Гиперпараметры. Обработка Выбросы Подвыборка Feature Learning. Гипотезы оГипотеза о задаче. Данные Результат. Модель Сложность* Регуляризация Гиперпараметры. Обработка Выбросы Подвыборка Feature Learning. Гипотезы о задаче Feature engineering Есть: • Мы перепробовали кучу моделей и кучу гипотез. Случайный лес DM Labs 23 Гипотезы о задаче

Гипотеза о задаче. Данные Результат. Модель Сложность* Регуляризация Гиперпараметры. Обработка Выбросы Подвыборка Feature Learning. Гипотезы оГипотеза о задаче. Данные Результат. Модель Сложность* Регуляризация Гиперпараметры. Обработка Выбросы Подвыборка Feature Learning. Гипотезы о задаче Feature engineering Пример: • Изображения: сверточные признаки, Haar- признаки • Временные ряды: fft разложения, моменты с лагом, MA • Пользователи: признаки из графа( betweenness, degree, centrality, page rank), гео-специфика • . . . Случайный лес DM Labs 24 Гипотезы о задаче

Kaggle. Как организовать команду? Данные Результат. Модель Сложность* Регуляризация Гиперпараметры. Обработка Выбросы Подвыборка Feature Learning. ГипотезыKaggle. Как организовать команду? Данные Результат. Модель Сложность* Регуляризация Гиперпараметры. Обработка Выбросы Подвыборка Feature Learning. Гипотезы о задаче Feature engineering Случайный лес DM Labs 25 Kaggle

Kaggle. Как организовать команду? Данные Результат. Модель Сложность* Регуляризация Гиперпараметры. Обработка Выбросы Подвыборка Feature Learning. ГипотезыKaggle. Как организовать команду? Данные Результат. Модель Сложность* Регуляризация Гиперпараметры. Обработка Выбросы Подвыборка Feature Learning. Гипотезы о задаче Feature engineering Случайный лес DM Labs 26 Kaggle

Kaggle. Техник :  1, 5 данные должны быть всегда доступны, сабмит всегда делался Шпион: Kaggle. Техник : 1, 5 данные должны быть всегда доступны, сабмит всегда делался Шпион: 2, 3, идеи про 4 изучает литературу, статьи, форумы. Генерирует идеи Спецназ: 3, 4 заняты основной работой, не парятся об 1, 2, 5 !!! Капитан: 1, 2, 3, 4, 5 координирует работу всех участников, следит за всем сразу. Данные Результат. Модель Сложность* Регуляризация Гиперпараметры. Обработка Выбросы Подвыборка Feature Learning. Гипотезы о задаче Feature engineering 1 2 3 4 5 Случайный лес DM Labs 27 Kaggle

Kaggle. Техник :  1, 5 … Шпион:  2, 3, идеи про 4 … Спецназ:Kaggle. Техник : 1, 5 … Шпион: 2, 3, идеи про 4 … Спецназ: 3, 4 … Капитан: 1, 2, 3, 4, 5 …Данные Результат. Модель Сложность* Регуляризация Гиперпараметры. Обработка Выбросы Подвыборка Feature Learning. Гипотезы о задаче Feature engineering 1 2 3 4 5 Случайный лес DM Labs 28 Kaggle

Как вообще решаются задачи. Где здесь результаты сообществ?  • Machine Learning • Data Mining •Как вообще решаются задачи. Где здесь результаты сообществ? • Machine Learning • Data Mining • Специфичных областей (видео, биология, поиск, . . . )Данные Результат. Модель Сложность* Регуляризация Гиперпараметры. Обработка Выбросы Подвыборка Feature Learning. Гипотезы о задаче Feature engineering DM Labs 29 Как вообще решают задачи?

Как вообще решаются задачи. Где здесь результаты сообществ?  • Machine Learning • Data Mining •Как вообще решаются задачи. Где здесь результаты сообществ? • Machine Learning • Data Mining • Специфичных областей (видео, биология, поиск, . . . )Данные Результат. Модель Сложность* Регуляризация Гиперпараметры. Обработка Выбросы Подвыборка Feature Learning. Гипотезы о задаче Feature engineering. MLDomain Data Miner’ ами себя зовут вообще все. Даже те кто выложил данные. . . DM Labs 30 Как вообще решают задачи?

Summary • . . . DM Labs 31 Summary Summary • . . . DM Labs 31 Summary

Прочие штуки. Стэкинг моделей: Если вы вдруг сделали вообще все, можно похимичить Модель 1 Модель 2Прочие штуки. Стэкинг моделей: Если вы вдруг сделали вообще все, можно похимичить Модель 1 Модель 2 Усреднение Model 1 Level 1 Model K Level 1…Модель K Стэкинг, линейные модели CPD- сшивание Усреднение Model 1 Level 1 Model K Level 1…Стэкинг, линейные модели CPD- сшивание Уровень 0 Уровень1 Уровень 2 DM Labs 32 Прочие штуки