博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
Apache Spark机器学习.1.3 机器学习算法
阅读量:6482 次
发布时间:2019-06-23

本文共 765 字,大约阅读时间需要 2 分钟。

1.3 机器学习算法

本节将回顾机器学习所需的算法,介绍机器学习库,包括Spark的MLlib和IBM的SystemML,然后讨论它们与Spark的集成。

阅读本节之后,读者将会熟悉包括Spark MLlib在内的各种机器学习库,知道如何利用它们进行机器学习。

为完成机器学习项目,数据科学家经常使用机器学习工具(如R语言或MATLAB)上的一些成熟分类或回归算法开发和评估预测模型。要完成一个机器学习项目,除了数据集和计算平台,这些机器学习算法库也是十分必要的。

例如,R语言提供了专业人员使用的各类算法,所以得到了广泛流行和深入使用。R语言有1000多个程序包,数据科学家可能不需要全部的程序包,但需要几个关键的程序包:

数据加载:使用RODBC或RMySQL

数据操作:使用stringr或lubridate

数据可视化:使用ggplot2或leaflet

数据建模:使用Random Forest或survival

报告结果:使用shiny或markdown

根据近期ComputerWorld的调查,下载最多的R语言程序包如下:

程序包名称 下载次数

程序包名称 下载次数

Rcpp 162778

ggplot2 146008

plyr 123889

stringr 120387

colorspace 118798

digest 113899

reshape2 109869

RColorBrewer 100623

scales 92448

manipulate 88664

 

更多的信息,请访问:http://www.computerworld.com/article/2920117/business- intelligence/most-downloaded-r-packages-last-month.html。

转载地址:http://uwduo.baihongyu.com/

你可能感兴趣的文章
GraphicsLab Project之辉光(Glare,Glow)效果 【转】
查看>>
Linux Curl命令
查看>>
-27979 LoadRunner 错误27979 找不到请求表单 Action.c(73): Error -27979: Requested form not found...
查看>>
[LeetCode] Minimum Depth of Binary Tree
查看>>
,net运行框架
查看>>
Java 中 Emoji 的正则表达式
查看>>
Mixin Network第一届开发者大赛作品介绍- dodice, diceos和Fox.one luckycoin
查看>>
安卓Glide(4.7.1)使用笔记 01 - 引入项目
查看>>
中金易云:为出版社找到下一本《解忧杂货店》
查看>>
Flex布局
查看>>
Material Design之 AppbarLayout 开发实践总结
查看>>
Flutter之MaterialApp使用详解
查看>>
DataBinding最全使用说明
查看>>
原生Js交互之DSBridge
查看>>
Matlab编程之——卷积神经网络CNN代码解析
查看>>
三篇文章了解 TiDB 技术内幕 —— 说计算
查看>>
copy strong weak assign的区别
查看>>
OpenCV 入门
查看>>
css 3D transform变换
查看>>
ele表格合并行之后的selection选中
查看>>