Работа с моделями Практика 2, 26. 10. 2014
- Размер: 2.5 Mегабайта
- Количество слайдов: 18
Описание презентации Работа с моделями Практика 2, 26. 10. 2014 по слайдам
Работа с моделями Практика 2, 26. 10. 2014 Алексей Натёкин
Agenda 12: 10 -12: 40 лекция: различные множества данных 12: 40 -13: 00 задачи/команды 13: 00 -13: 15 перерыв 13: 15 -14: 00 командная работа, часть 1 14: 00 -14: 15 перерыв 14: 30 -15: 00 лекция с «развязыванием рук» (заказ пиццы на это время) 15: 00 -15: 15 перерыв 15: 15 -16: 00 командная работа 16: 00 -16: 15 перерыв 16: 15 -17: 00 командная работа 17: 00 -17: 15 перерыв 17: 15 -18: 00 обсуждение результатов, обсуждение хорошей структуры проектов 18: 00 -19: 00 консультации, . . . рассчет на то, что расписание съедет. . . 2 DM Labs
Схема DM+ML решений 3 DM Labs Результат Обработка (тактика)Гипотезы (стратегия) Задача на сегодня – начать работать с моделями: Часть 1: линейные и аддитивные модели, формулы Часть 2: (почти) все остальные модели Модель ( замес )
Recap: процесс подготовки данных 4 DM Labs Сбор данных Обработка сырых данных Документируются все действия над данными: чистки, заполнения, merge, subset, … Должна быть четкая процедура с 100% reproducibility ( и обоснованием) Анализ, модели, . . . • Данные просто уалось считать • Над ними ничего ни разу не запускали • Удобные для работы таблицы Желательны: • Адекватные заголовки ( Risk_Indicator вместо RI) • Code book ( описание данных)
Идеальный случай • Таблица • Понятно что и где • Понятны типы N ominal O rdinal Q uantitative 5 DM Labs
Частый случай 6 DM Labs
Процесс подготовки данных 7 DM Labs Сбор данных Обработка сырых данных Документируются все действия над данными: чистки, заполнения, merge, subset, … Должна быть четкая процедура с 100% reproducibility ( и обоснованием) Анализ, модели, . . . • Данные просто уалось считать • Над ними ничего ни разу не запускали • Удобные для работы таблицы Желательны: • Адекватные заголовки ( Risk_Indicator вместо RI) • Code book ( описание данных)
Некоторые подводные камни 8 DM Labs Результат. Модель ( замес )Обработка (тактика)Гипотезы (стратегия) Данные считываются верно? • Ошибки считывания, Escape последовательности • Число примеров/строк не согласуется с документацией В данных есть ошибки? • Кривой merge , битые ID • Текст перемешан с числами • Перемешанные переменные Данных достаточно? • Данные нерепрезентативны • Не хватает примеров/строк • Не хватает соответствующей информации (времени, id, … ) Данные актуальны? • Данные устарели • Временные интервалы несогласованы
Считывание данных • Самое простое: read. csv, read. csv 2 • read. table ? read. table 9 DM Labs
Скачивание данных Наименее глючный способ: Сам скачал, сам скомпоновал таблицу, сам потом записал. Позже попробуйте это с другими UCI ( есть функции unz() и др ) : https: //archive. ics. uci. edu/ml/machine-learning-databases/annealing/anneal. data https: //archive. ics. uci. edu/ml/machine-learning-databases/00300/Tennis-Major-Tournaments-Ma tch-Statistics. zip https: //archive. ics. uci. edu/ml/machine-learning-databases/00242/ENB 2012_data. xlsx 10 DM Labs
Считывание данных • Library(XML) • xml. Tree. Parse(my. url) html. Tree. Parse(my. url) read. HTMLTable ( my. url) 11 DM Labs
Считывание данных • library(RJSONIO) library(RCurl) • my. url <- “https: //api. vk. com/…” • json. obj <- get. URL(my. url, ssl. verifypeer = FALSE) jsondata <- from. JSON(json. obj) 12 DM Labs
Считывание данных На все остальное – есть свои пакеты : • xls, xlsx • gz, tar. gz • БД-коннекторы SQL, ODBC, … • Matlab, Octave (connector) • Spss, sas • wav, mp 3 • jpg, png, … • igraph, … • … 13 DM Labs
Cheatsheet работы с данными • str , head, tail summary, table • which any • apply, sapply, lapply, do. call • sort, order library(plyr) arrange(data, desc(var. x)) 14 DM Labs
Задачи • Почему чаще всего падала Mozilla? https: //github. com/ansymo/msr 2013 -bug_dataset • Что качали больше всего на Piratebay? http: //www. csg. uzh. ch/publications/data/piratebay. html • Активизировались ли топ-менеджеры Enron перед облавой ? http: //www. cs. cmu. edu/~. /enron/ • Кому бомбит в Афганистане? http: //securitydata. newamerica. net/drones/pakistan/analysis • Кто больше всего раскаивался перед казнью в США? http: //www. tdcj. state. tx. us/death_row/dr_executed_offenders. html 15 DM Labs
Задачи ( бонус) • Ваши проекты • Кто из вас наибольший меломан в vk? • У кого самое упоротое эссе на SAT тесте? https: //www. kaggle. com/c/asap-aes • Самые простые и сложные вопросы Jeopardy? http: //www. reddit. com/r/datasets/comments/1 uyd 0 t/200000_jeopardy_que stions_in_a_json_file/ • Довести до ума парсинг русской банковской таблички http: //www. nkcbank. ru/view. Catalog. do? menu. Key=254 16 DM Labs
Команды Минимальный набор: • 2 ноута с R • Как минимум 1 представитель hardcore группы • Один человек с визуализации данных • Не более 5 человек в одной команде Можно делать одно и то же разным командам Хинты: • Общайтесь! Знакомьтесь и внутри и между командами • Всегда есть дело: – Прогать – Отлаживать\ломать\тестировать\играться – Придумывать: решение, костыли, гипотезы, . . . • Stack overflow, r-bloggers, google 17 DM Labs
Алексей Натёкин +7 960 276 41 33 natekin@dmlabs. org 18 DM Labs Спасибо!