MLlib (Machine Learning Library).pptx
- Количество слайдов: 10
MLlib (Machine Learning Library) Это библиотека машинного обучения расширяющая Apache Spark
Легко использовать • Используется с помощью Java, Scala, Python и Spark. R • Mllib входит в состав Spark API и выполняется с помощью Num. Py в Python (начиная с Spark 0. 9). Можно использовать любой источник данных Hadoop (HDFS, Hbase или локальные файлы), что делает его лёгким для работы с Hadoop.
Легко использовать
Производительность • Крутые алгоритмы, что даёт 100 кратное ускорение по сравнению с Map. Reduce
Легко развернуть • Выполняется на существующих серверах и данных Hadoop • Если ты имеешь кластер Hadoop 2, ты можешь выполнить Spark и Mllib без какойлибо предустановки. Однако, Spark легко выполняется автономно или на EC 2 или Mesos.
Алгоритмы • logistic regression and linear support vector machine (SVM) • classification and regression tree • random forest and gradient-boosted trees • recommendation via alternating least squares (ALS) • clustering via k-means, bisecting k-means, Gaussian mixtures (GMM), and power iteration clustering • topic modeling via latent Dirichlet allocation (LDA) • survival analysis via accelerated failure time model • singular value decomposition (SVD) and QR decomposition
Алгоритмы (2) • principal component analysis (PCA) • linear regression with L 1, L 2, and elastic-net regularization • isotonic regression • multinomial/binomial naive Bayes • frequent itemset mining via FP-growth and association rules • sequential pattern mining via Prefix. Span • summary statistics and hypothesis testing • feature transformations • model evaluation and hyper-parameter tuning
Примеры
Пример кластеризации
• http: //spark. apache. org/mllib/ - сайт библиотеки • http: //spark. apache. org/docs/latest/ - ссылка на документацию Спасибо за внимание!
MLlib (Machine Learning Library).pptx