DataAnalysis-SoftDevelop-3-R.pptx
- Количество слайдов: 46
Язык R Основы обработки и интеллектуального анализа данных Разработка комплексов программ
Взаимосвязь переменных Метрическая шкала Бинарная шкала Метрическая шкала Коэффициент корреляции Пирсона t-критерий Стьюдента Ранговая шкала (<30) Коэффициент корреляции Спирмена Критерий Манна. Уитни t-критерий Стьюдента Хи-квадрат 1 3 Хи-квадрат 4 3 Бинарная шкала Номинальная шкала (> двух уровней) ? ANOVA (дисперсионный анализ) 1 2
Что будет Базы данных (MS Access) + C# + + R. NET Статистика Обработка данных Регрессия, кластеризация Машинное обучение (др. )
Что будет сегодня Базы данных (MS Access) + C# + + R. NET Статистика Обработка данных Регрессия, кластеризация Машинное обучение (др. )
Что такое R R становится универсальным языком в науке о данных
R – это… язык программирования для статистического анализа и визуализации его результатов, свободная программная среда вычислений с открытым исходным кодом. Официальный сайт проекта http: //www. r-project. org/
Немного истории был создан сотрудниками Оклендского университета Россом Ихака и Робертом Джентельменом имеет двух родителей: коммерческий язык программирования S/S-PLUS, из которого была позаимствована большая часть синтаксиса, и язык программирования Scheme, предоставивший многие семантические структуры возник в 1997 году и сразу стал пользоваться успехом у пользователей и разработчиков R. Ihaka R. Gentelman
R сейчас: рейтинг IEEE (2014 г. ) http: //spectrum. ieee. org/static/interactive-the-top-programming-languages#index
R сейчас: Data Science (ноябрь 2014) ……………………… http: //www. oreilly. com/data/free/files/2014 -data-science-salary-survey. pdf
R сейчас: Data Science (2015 г. ) http: //www. kdnuggets. com/2015/05/poll-r-rapidminer-python-big-data-spark. html
R сейчас: Data Science (2014 г. ) http: //www. kdnuggets. com/2014/08/four-main-languages-analytics-data-mining-data-science. html
R сейчас: академическая среда Tippmann, S. (2015). Programming tools: Adventures with R. Nature, 517(7532), 109 -110.
R сейчас: компании http: //www. revolutionanalytics. com/companies-using-r
Почему R R проще использовать для освоения необходимых навыков
Достоинства является свободным программным обеспечением поддерживает широкий спектр статистических и численных методов (классические статистические методы, линейные и нелинейные модели, методы классификации, кластеризации, анализ временных рядов…) хорошая расширяемость с помощью пакетов возможность создания качественной графики активное сообщество
Пакеты представляют собой библиотеки для работы специфических функций или специальных областей применения В базовую поставку R включен основной набор пакетов, а всего по состоянию на октябрь 2015 года доступно более 7250 пакетов
Пакеты: полезно знать манипуляции с данными: dplyr графика: ggplot 2 отчеты: knitr (R Markdown) работа со строками: sringr интерактивные приложения: shiny … шпаргалки RStudio https: //www. rstudio. com/resources/cheatsheets/
Графика в R быстрое создание качественных графиков широкие возможности для кастомизации формулы в заголовках и названиях осей повороты осей изменение цветовых схем … специальные типы графиков для узких задач
Примеры
Примеры http: //stackoverflow. com/questions/12830160/how-do-i-change-the-colour-of-an-outline-in-a-ggplot-bubble-plot
Примеры http: //www. milanor. net/blog/? p=594
Примеры
Примеры
Недостатки работа с памятью(большие данные) безопасность веб-приложения не язык «общего назначения» Why R? The pros and cons of the R language
Среда R
Платформы Среда R доступна в бинарном виде для многих компьютерных платформ, в том числе Linux, Windows, Mac OS X и Mac OS Classic Предоставляется также исходный код для компиляции на других платформах
Интерфейс Используется интерфейс командной строки
Но… доступны и несколько графических интерфейсов пользователя, например пакет RCommander
Импорт данных
Просмотр и редактирование
Анализ данных
Стандартные графики
Окно скриптов
Пример установки пакета Пакеты → Установить пакет(ы) Для R Commander ищем Rcmdr NB! для запуска R Commander каждый раз необходимо включать этот пакет: Пакеты → Включить пакет… → Rcmdr
RStudio среда для работы с R подсветка кода работа с пакетами просмотр графиков удобная работа со скриптами … + обучающие примеры + интересные материалы
Начало работы
Модель данных R Базовым объектом данных в R является вектор > 1 [1] 1 > # Сохраняем вектор > x <- c(168, 177, 178, 165, 170) > x # выводим вектор [1] 168 177 177 178 165 170 Работа с (многомерными) массивами, структурами данных, (разнородными) списками и матрицами Операции поэлементны
Доступ к элементу массива > z [, 1] [, 2] [, 3] [1, ] 19 22 25 [2, ] 20 23 26 [3, ] 21 24 27 > z[, 3] [1] 25 26 27 > z[1, 3] [1] 25
Управляющие структуры Условный оператор if (условие) {выполняется если условие верно} else {выполняется если условие не верно} Циклы for (k in 1: 5){действие} while (условие){действие} Функции fname=function(a) {описание} Неявные циклы apply() может применить функцию к элементу матрицы или массиву -- (!) настоятельно рекомендуется, работает значительно быстрее, чем циклы
Элементы синтаксиса регистрозависимость <- присваивание, например: x <- 7 # комментарий == равенство <=, >= сравнение с равенством <> неравенство {} блок
Некоторые функции !!! help(function) # справка mean(x) # среднее min(x) # минимальное значение det(M) # определитель матрицы inv(M) # обратная матрица plot(x, y) # график lm(y~x) # линейная регрессия library(package_name) # загрузка пакета …
Узнать об R больше
Курсы Coursera (R Programming (by Roger Peng), …) Data. Camp (R programming, Data Visualization, …) Udacity (Data Analysis with R, …) ed. X (Introduction to R Programming by Microsoft) Stepic (Анализ данных в R) Future. Learn (Big Data: Measuring and Predicting Human Behaviour) …
Книги Кабаков Р. И. R в действии // Анализ и визуализация данных на языке R. М: ДМК Пресс. – 2014. разные материалы на русском языке http: //ranalytics. blogspot. ru/p/blog-page_20. html#. Vg 5 -b. Pntl. Bc …и много-много книг от многочисленных «Введений в R» до специализированного применения R в узких областях
Некоторые ссылки Статистическое программирование на R: Часть 1. Купаемся в изобилии статистических возможностей http: //www. ibm. com/developerworks/ru/library/l-r 1/ The R Project for Statistics http: //www. r-project. org/ http: //ru. wikibooks. org/wiki/Язык_программирования_R Data Analysts Captivated by R’s Power http: //www. nytimes. com/2009/01/07/technology/businesscomputing/07 program. html? _r=0 R: Анализ и визуализация данных http: //ranalytics. blogspot. ru/ Tippmann, S. (2015). Programming tools: Adventures with R. Nature, 517(7532), 109 -110. http: //www. nature. com/news/programming-tools-adventures-with-r 1. 16609
Let’s practice
DataAnalysis-SoftDevelop-3-R.pptx