Скачать презентацию Решении DM ML задач 2 Задача Случайный лес Скачать презентацию Решении DM ML задач 2 Задача Случайный лес

Data Mining solutions.ppt

  • Количество слайдов: 32

Решении DM/ML задач Решении DM/ML задач

2 Задача Случайный лес Задача DM Labs Нам дали данные. Нам поставили задачу. Мы 2 Задача Случайный лес Задача DM Labs Нам дали данные. Нам поставили задачу. Мы знаем какой должен быть результат. Данные Результат

3 Задача Случайный лес Задача DM Labs Нам дали данные. Нам поставили задачу. Мы 3 Задача Случайный лес Задача DM Labs Нам дали данные. Нам поставили задачу. Мы знаем какой должен быть результат. Данные Результат Давайте решим влоб! RF/SVM, вдруг сработает

4 Задача Случайный лес Задача DM Labs Нам дали данные. Нам поставили задачу. Мы 4 Задача Случайный лес Задача DM Labs Нам дали данные. Нам поставили задачу. Мы знаем какой должен быть результат. Данные Результат

5 Что пошло не так? Что произошло? Случайный лес Данные Мы что-то где-то упустили. 5 Что пошло не так? Что произошло? Случайный лес Данные Мы что-то где-то упустили. DM Labs Результат

6 Что пошло не так? Что произошло? Случайный лес Данные DM Labs Результат Мы 6 Что пошло не так? Что произошло? Случайный лес Данные DM Labs Результат Мы поставили гипотезу: применим RF влоб, вдруг сработает.

7 Модели Данные Случайный лес Модель Что если мы ошиблись с RF/SVM? Тоесть, все 7 Модели Данные Случайный лес Модель Что если мы ошиблись с RF/SVM? Тоесть, все заработало, но результат был плох? DM Labs Результат

8 Модели. Обучающие множества Случайный лес Модель. Данные Модель DM Labs Результат Что если 8 Модели. Обучающие множества Случайный лес Модель. Данные Модель DM Labs Результат Что если мы ошиблись с RF/SVM? Мы же не накосячили с тренировочным, валидационным и тестовым множествами, а также CV?

9 Что мы хотим от моделей? Случайный лес Модель. Данные Есть: Модель DM Labs 9 Что мы хотим от моделей? Случайный лес Модель. Данные Есть: Модель DM Labs Результат • Обученная модель • Результат ее работы на валидационном(тестовом) множестве (ошибка)

10 Что мы хотим от моделей? Случайный лес Модель. Данные Есть: Модель DM Labs 10 Что мы хотим от моделей? Случайный лес Модель. Данные Есть: Модель DM Labs Результат • Обученная модель • Результат ее работы на валидационном(тестовом) множестве (ошибка) Хотим: • Улучшить (обобщающую) точность

11 Что мы можем сделать с моделями? Случайный лес Модель. Данные Модель DM Labs 11 Что мы можем сделать с моделями? Случайный лес Модель. Данные Модель DM Labs Результат Хотим: • Улучшить (обобщающую) точность Чем можем управлять: • Гиперпараметры • Лучший их выбор (CV, boot) • Регуляризация • Отбор признаков на уровне модели • Вид модели • Веса наблюдений при обучени. . . • Целевая функция (потерь)

12 Что мы можем сделать с моделями? Случайный лес Модель. Данные Модель Сложность* Регуляризация 12 Что мы можем сделать с моделями? Случайный лес Модель. Данные Модель Сложность* Регуляризация Гиперпараметры DM Labs Результат Выбор гиперпараметров тратит много машинного времени. • GBM: #base-learners, lambda, RI, *prune, Loss, • SVM: kernel, width, cost, nu-SVM, . . . • GLMnet: a. ridge, AIC, response family • RF: … ? • Neural Net: … ?

13 Что еще могло пойти не так? Случайный лес Модель. Данные Модель Сложность* Регуляризация 13 Что еще могло пойти не так? Случайный лес Модель. Данные Модель Сложность* Регуляризация Гиперпараметры Где мы еще могли накосячить? DM Labs Результат

14 Что еще могло пойти не так? Случайный лес Модель. Данные Big Data Модель 14 Что еще могло пойти не так? Случайный лес Модель. Данные Big Data Модель Сложность* Регуляризация Гиперпараметры Где мы еще могли накосячить? DM Labs Machine Learning Результат

15 Что еще могло пойти не так? Случайный лес Модель. Данные Big Data Оно 15 Что еще могло пойти не так? Случайный лес Модель. Данные Big Data Оно вообще не посчиталось. Иногда – феерично. DM Labs Machine Learning Результат

16 Обработка данных. Случайный лес Данные Обработка данных Модель Сложность* Регуляризация Гиперпараметры Тесно связана 16 Обработка данных. Случайный лес Данные Обработка данных Модель Сложность* Регуляризация Гиперпараметры Тесно связана с моделью. DM Labs Результат

17 Обработка данных. Случайный лес Данные Модель Обработка данных Сложность* Регуляризация Гиперпараметры Хотим: DM 17 Обработка данных. Случайный лес Данные Модель Обработка данных Сложность* Регуляризация Гиперпараметры Хотим: DM Labs • Заставить что-то работать • Уменьшить количество переменныхданных • Увеличить скорость вычисленияобучения (!=) Результат

18 Возможности обработки данных Обработка данных. Случайный лес Данные DM Labs Модель Обработка данных 18 Возможности обработки данных Обработка данных. Случайный лес Данные DM Labs Модель Обработка данных Сложность* Регуляризация Результат Гиперпараметры Хотим: • Заставить что-то работать • Уменьшить количество переменныхданных • Увеличить скорость вычисленияобучения (!=) Чем можем управлять: • Убрать выбросы • Сделать подвыборку • На уровне переменных: • Сырые переменные • Проекции (PCA, ICA, RCA, deep*) • Построенные признаки (кластера)

19 Обработка данных. Feature Learning Обработка данных. Случайный лес Модель Выбросы Сложность* Подвыборка Регуляризация 19 Обработка данных. Feature Learning Обработка данных. Случайный лес Модель Выбросы Сложность* Подвыборка Регуляризация Feature Learning Данные Обработка DM Labs Гиперпараметры Результат В подвыборки можно вкладывать смысл: 5% юзеров, записей, уникальных юзеров, последних записей. . . Feature learning – основа deep learning. Unsupervised, обычно отдельно: http: //web. eecs. umich. edu/~honglak/nipsdlufl 10 -Analysis. Single. Layer. Unsupervised. Feature. Learning. pdf

20 Что еще могло пойти не так? Обработка данных. Случайный лес Выбросы Сложность* Регуляризация 20 Что еще могло пойти не так? Обработка данных. Случайный лес Выбросы Сложность* Регуляризация Feature Learning Что-то еще? Модель Подвыборка Данные Обработка Гиперпараметры DM Labs Результат

21 Что еще могло пойти не так? Обработка данных. Случайный лес Модель Выбросы Сложность* 21 Что еще могло пойти не так? Обработка данных. Случайный лес Модель Выбросы Сложность* Подвыборка Регуляризация Feature Learning Данные Обработка Гиперпараметры DM Labs Что если все еще не взлетает. Результат

22 «Спросить у эксперта» Гипотеза о задаче. Случайный лес Обработка Модель Выбросы Сложность* Feature 22 «Спросить у эксперта» Гипотеза о задаче. Случайный лес Обработка Модель Выбросы Сложность* Feature engineering Данные Гипотезы о задаче Подвыборка Регуляризация Feature Learning Гиперпараметры DM Labs Самое сложное. Понять что вообще происходит. Неправильные фичи могут ни к чему не привести. Результат

23 Гипотезы о задаче Гипотеза о задаче. Случайный лес Обработка Модель Выбросы Сложность* Feature 23 Гипотезы о задаче Гипотеза о задаче. Случайный лес Обработка Модель Выбросы Сложность* Feature engineering Данные Гипотезы о задаче Подвыборка Регуляризация Feature Learning DM Labs Гиперпараметры Результат Есть: • Мы перепробовали кучу моделей и кучу гипотез. Чем можем управлять: • Достать еще данных • Feature engineering • Посмотреть что делали другие: • Статьи • Продукты, PR компаний

24 Гипотезы о задаче Гипотеза о задаче. Случайный лес Обработка Модель Выбросы Сложность* Feature 24 Гипотезы о задаче Гипотеза о задаче. Случайный лес Обработка Модель Выбросы Сложность* Feature engineering Данные Гипотезы о задаче Подвыборка Регуляризация Feature Learning DM Labs Гиперпараметры Результат Пример: • Изображения: сверточные признаки, Haar-признаки • Временные ряды: fft разложения, моменты с лагом, MA • Пользователи: признаки из графа(betweenness, degree, centrality, page rank), гео-специфика • . . .

25 Kaggle Случайный лес Kaggle. Обработка Модель Выбросы Сложность* Feature engineering Данные Гипотезы о 25 Kaggle Случайный лес Kaggle. Обработка Модель Выбросы Сложность* Feature engineering Данные Гипотезы о задаче Подвыборка Регуляризация Feature Learning Гиперпараметры DM Labs Как организовать команду? Результат

26 Kaggle Случайный лес Kaggle. Обработка Модель Выбросы Сложность* Feature engineering Данные Гипотезы о 26 Kaggle Случайный лес Kaggle. Обработка Модель Выбросы Сложность* Feature engineering Данные Гипотезы о задаче Подвыборка Регуляризация Feature Learning Гиперпараметры DM Labs Как организовать команду? Результат

27 Kaggle Случайный лес Kaggle. 1 2 3 Обработка Модель Данные Гипотезы о задаче 27 Kaggle Случайный лес Kaggle. 1 2 3 Обработка Модель Данные Гипотезы о задаче Выбросы Сложность* Feature engineering Подвыборка Регуляризация Feature Learning DM Labs 4 Гиперпараметры Техник: 1, 5 данные должны быть всегда доступны, сабмит всегда делался Шпион: 2, 3, идеи про 4 изучает литературу, статьи, форумы. Генерирует идеи Спецназ: 3, 4 заняты основной работой, не парятся об 1, 2, 5 !!! Капитан: 1, 2, 3, 4, 5 координирует работу всех участников, следит за всем сразу 5 Результат

28 Kaggle Случайный лес Kaggle. 1 2 Обработка Модель Данные Гипотезы о задаче Выбросы 28 Kaggle Случайный лес Kaggle. 1 2 Обработка Модель Данные Гипотезы о задаче Выбросы Сложность* Feature engineering Подвыборка Регуляризация Feature Learning Гиперпараметры Техник: 1, 5 … Шпион: 2, 3, идеи про 4 … Спецназ: 3, 4 … Капитан: 1, 2, 3, 4, 5 … 3 4 DM Labs 5 Результат

29 Как вообще решают задачи? DM Labs Как вообще решаются задачи. Обработка Модель Выбросы 29 Как вообще решают задачи? DM Labs Как вообще решаются задачи. Обработка Модель Выбросы Сложность* Feature engineering Данные Гипотезы о задаче Подвыборка Регуляризация Feature Learning Гиперпараметры Результат Где здесь результаты сообществ? • Machine Learning • Data Mining • Специфичных областей (видео, биология, поиск, . . . )

30 Как вообще решают задачи? DM Labs Как вообще решаются задачи. Данные Гипотезы о 30 Как вообще решают задачи? DM Labs Как вообще решаются задачи. Данные Гипотезы о задаче main Do. Feature engineering Обработка Модель Выбросы Сложность* Подвыборка Feature Learning ML Регуляризация Результат Гиперпараметры Data Miner’ами себя зовут вообще все. Даже те кто выложил данные. . . Где здесь результаты сообществ? • Machine Learning • Data Mining • Специфичных областей (видео, биология, поиск, . . . )

31 Summary • . . . Summary DM Labs 31 Summary • . . . Summary DM Labs

32 Прочие штуки. DM Labs Стэкинг моделей: Если вы вдруг сделали вообще все, можно 32 Прочие штуки. DM Labs Стэкинг моделей: Если вы вдруг сделали вообще все, можно похимичить Усреднение Модель1 Модель 2 Модель K Усреднение Стэкинг, линейные модели CPD-сшивание Model 1 Level 1 Уровень 0 … Уровень1 Model K Level 1 Model 1 Level 1 … Уровень 2 Model K Level 1 …