
Data Mining solutions.ppt
- Количество слайдов: 32
Решении DM/ML задач
2 Задача Случайный лес Задача DM Labs Нам дали данные. Нам поставили задачу. Мы знаем какой должен быть результат. Данные Результат
3 Задача Случайный лес Задача DM Labs Нам дали данные. Нам поставили задачу. Мы знаем какой должен быть результат. Данные Результат Давайте решим влоб! RF/SVM, вдруг сработает
4 Задача Случайный лес Задача DM Labs Нам дали данные. Нам поставили задачу. Мы знаем какой должен быть результат. Данные Результат
5 Что пошло не так? Что произошло? Случайный лес Данные Мы что-то где-то упустили. DM Labs Результат
6 Что пошло не так? Что произошло? Случайный лес Данные DM Labs Результат Мы поставили гипотезу: применим RF влоб, вдруг сработает.
7 Модели Данные Случайный лес Модель Что если мы ошиблись с RF/SVM? Тоесть, все заработало, но результат был плох? DM Labs Результат
8 Модели. Обучающие множества Случайный лес Модель. Данные Модель DM Labs Результат Что если мы ошиблись с RF/SVM? Мы же не накосячили с тренировочным, валидационным и тестовым множествами, а также CV?
9 Что мы хотим от моделей? Случайный лес Модель. Данные Есть: Модель DM Labs Результат • Обученная модель • Результат ее работы на валидационном(тестовом) множестве (ошибка)
10 Что мы хотим от моделей? Случайный лес Модель. Данные Есть: Модель DM Labs Результат • Обученная модель • Результат ее работы на валидационном(тестовом) множестве (ошибка) Хотим: • Улучшить (обобщающую) точность
11 Что мы можем сделать с моделями? Случайный лес Модель. Данные Модель DM Labs Результат Хотим: • Улучшить (обобщающую) точность Чем можем управлять: • Гиперпараметры • Лучший их выбор (CV, boot) • Регуляризация • Отбор признаков на уровне модели • Вид модели • Веса наблюдений при обучени. . . • Целевая функция (потерь)
12 Что мы можем сделать с моделями? Случайный лес Модель. Данные Модель Сложность* Регуляризация Гиперпараметры DM Labs Результат Выбор гиперпараметров тратит много машинного времени. • GBM: #base-learners, lambda, RI, *prune, Loss, • SVM: kernel, width, cost, nu-SVM, . . . • GLMnet: a. ridge, AIC, response family • RF: … ? • Neural Net: … ?
13 Что еще могло пойти не так? Случайный лес Модель. Данные Модель Сложность* Регуляризация Гиперпараметры Где мы еще могли накосячить? DM Labs Результат
14 Что еще могло пойти не так? Случайный лес Модель. Данные Big Data Модель Сложность* Регуляризация Гиперпараметры Где мы еще могли накосячить? DM Labs Machine Learning Результат
15 Что еще могло пойти не так? Случайный лес Модель. Данные Big Data Оно вообще не посчиталось. Иногда – феерично. DM Labs Machine Learning Результат
16 Обработка данных. Случайный лес Данные Обработка данных Модель Сложность* Регуляризация Гиперпараметры Тесно связана с моделью. DM Labs Результат
17 Обработка данных. Случайный лес Данные Модель Обработка данных Сложность* Регуляризация Гиперпараметры Хотим: DM Labs • Заставить что-то работать • Уменьшить количество переменныхданных • Увеличить скорость вычисленияобучения (!=) Результат
18 Возможности обработки данных Обработка данных. Случайный лес Данные DM Labs Модель Обработка данных Сложность* Регуляризация Результат Гиперпараметры Хотим: • Заставить что-то работать • Уменьшить количество переменныхданных • Увеличить скорость вычисленияобучения (!=) Чем можем управлять: • Убрать выбросы • Сделать подвыборку • На уровне переменных: • Сырые переменные • Проекции (PCA, ICA, RCA, deep*) • Построенные признаки (кластера)
19 Обработка данных. Feature Learning Обработка данных. Случайный лес Модель Выбросы Сложность* Подвыборка Регуляризация Feature Learning Данные Обработка DM Labs Гиперпараметры Результат В подвыборки можно вкладывать смысл: 5% юзеров, записей, уникальных юзеров, последних записей. . . Feature learning – основа deep learning. Unsupervised, обычно отдельно: http: //web. eecs. umich. edu/~honglak/nipsdlufl 10 -Analysis. Single. Layer. Unsupervised. Feature. Learning. pdf
20 Что еще могло пойти не так? Обработка данных. Случайный лес Выбросы Сложность* Регуляризация Feature Learning Что-то еще? Модель Подвыборка Данные Обработка Гиперпараметры DM Labs Результат
21 Что еще могло пойти не так? Обработка данных. Случайный лес Модель Выбросы Сложность* Подвыборка Регуляризация Feature Learning Данные Обработка Гиперпараметры DM Labs Что если все еще не взлетает. Результат
22 «Спросить у эксперта» Гипотеза о задаче. Случайный лес Обработка Модель Выбросы Сложность* Feature engineering Данные Гипотезы о задаче Подвыборка Регуляризация Feature Learning Гиперпараметры DM Labs Самое сложное. Понять что вообще происходит. Неправильные фичи могут ни к чему не привести. Результат
23 Гипотезы о задаче Гипотеза о задаче. Случайный лес Обработка Модель Выбросы Сложность* Feature engineering Данные Гипотезы о задаче Подвыборка Регуляризация Feature Learning DM Labs Гиперпараметры Результат Есть: • Мы перепробовали кучу моделей и кучу гипотез. Чем можем управлять: • Достать еще данных • Feature engineering • Посмотреть что делали другие: • Статьи • Продукты, PR компаний
24 Гипотезы о задаче Гипотеза о задаче. Случайный лес Обработка Модель Выбросы Сложность* Feature engineering Данные Гипотезы о задаче Подвыборка Регуляризация Feature Learning DM Labs Гиперпараметры Результат Пример: • Изображения: сверточные признаки, Haar-признаки • Временные ряды: fft разложения, моменты с лагом, MA • Пользователи: признаки из графа(betweenness, degree, centrality, page rank), гео-специфика • . . .
25 Kaggle Случайный лес Kaggle. Обработка Модель Выбросы Сложность* Feature engineering Данные Гипотезы о задаче Подвыборка Регуляризация Feature Learning Гиперпараметры DM Labs Как организовать команду? Результат
26 Kaggle Случайный лес Kaggle. Обработка Модель Выбросы Сложность* Feature engineering Данные Гипотезы о задаче Подвыборка Регуляризация Feature Learning Гиперпараметры DM Labs Как организовать команду? Результат
27 Kaggle Случайный лес Kaggle. 1 2 3 Обработка Модель Данные Гипотезы о задаче Выбросы Сложность* Feature engineering Подвыборка Регуляризация Feature Learning DM Labs 4 Гиперпараметры Техник: 1, 5 данные должны быть всегда доступны, сабмит всегда делался Шпион: 2, 3, идеи про 4 изучает литературу, статьи, форумы. Генерирует идеи Спецназ: 3, 4 заняты основной работой, не парятся об 1, 2, 5 !!! Капитан: 1, 2, 3, 4, 5 координирует работу всех участников, следит за всем сразу 5 Результат
28 Kaggle Случайный лес Kaggle. 1 2 Обработка Модель Данные Гипотезы о задаче Выбросы Сложность* Feature engineering Подвыборка Регуляризация Feature Learning Гиперпараметры Техник: 1, 5 … Шпион: 2, 3, идеи про 4 … Спецназ: 3, 4 … Капитан: 1, 2, 3, 4, 5 … 3 4 DM Labs 5 Результат
29 Как вообще решают задачи? DM Labs Как вообще решаются задачи. Обработка Модель Выбросы Сложность* Feature engineering Данные Гипотезы о задаче Подвыборка Регуляризация Feature Learning Гиперпараметры Результат Где здесь результаты сообществ? • Machine Learning • Data Mining • Специфичных областей (видео, биология, поиск, . . . )
30 Как вообще решают задачи? DM Labs Как вообще решаются задачи. Данные Гипотезы о задаче main Do. Feature engineering Обработка Модель Выбросы Сложность* Подвыборка Feature Learning ML Регуляризация Результат Гиперпараметры Data Miner’ами себя зовут вообще все. Даже те кто выложил данные. . . Где здесь результаты сообществ? • Machine Learning • Data Mining • Специфичных областей (видео, биология, поиск, . . . )
31 Summary • . . . Summary DM Labs
32 Прочие штуки. DM Labs Стэкинг моделей: Если вы вдруг сделали вообще все, можно похимичить Усреднение Модель1 Модель 2 Модель K Усреднение Стэкинг, линейные модели CPD-сшивание Model 1 Level 1 Уровень 0 … Уровень1 Model K Level 1 Model 1 Level 1 … Уровень 2 Model K Level 1 …