java-spark的各种常用算子的写法_心得技巧

心得技巧

html5 HTML/Xhtml CSS XML/XSLT Dreamweaver教程 Frontpage教程心得技巧

上一篇: 浅谈杜教筛下一篇:Appium 爬取微信搜一搜 window...

java-spark的各种常用算子的写法

发布时间：2022-06-27 发布网站：脚本宝典

脚本宝典收集整理的这篇文章主要介绍了java-spark的各种常用算子的写法，脚本宝典觉得挺不错的，现在分享给大家，也给大家做个参考。

　　通常写spark的程序用scala比较方便，毕竟spark的源码就是用scala写的。然而，目前java开发者特别多，尤其进行数据对接、上线服务的时候，这时候，就需要掌握一些spark在java中的使用方法了

　　一、map

　　map在进行数据处理、转换的时候，不能更常用了

　　在使用Map之前首先要定义一个转换的函数格式如下：

　　Function<String, LabeledPoint> transForm=new Function<String, LabeledPoint>() {//String是某一行的输入类型 LabeledPoint是转换后的输出类型

　　@override

　　public LabeledPoint call(String row) throws Exception {//重写call方法

　　String[] rowArr=row.splIT(",");

　　int rowSize=rowArr.length;

　　double[] doubleArr=new double[rowSize-1];

　　//除了第一位的lable外其余的部分解析成double 然后放到数组中

　　for (int i=1; i < rowSize; i++) {

　　String each=rowArr[i];

　　doubleArr[i]=Double.parseDouble(each);

　　}

　　//用刚才得到的数据转成向量

　　Vector feature=Vectors.dense(doubleArr);

　　double label=Double.parseDouble(rowArr[0]);

　　//构造用于分类训练的数据格式 LabelPoint

　　LabeledPoint point=new LabeledPoint(label, feature);

　　return point;

　　}

　　};

　　需要特别注意的是：

　　1、call方法的输入应该是转换之前的数据行的类型返回值应是处理之后的数据行类型

　　2、如果转换方法中调用了自定义的类，注意该类名必须实现序列化比如

　　public class TreeEnSEMble implements Serializable {

　　}

　　3、转换函数中如果调用了某些类的对象，比如该方法需要调用外部的一个参数，或者数值处理模型（标准化，归一化等），则该对象需要声明是final

　　然后就是在合适的时候调用该转换函数了

　　JaVARDD rdd=oriData.toJavaRDD().map(transForm);

　　这种方式是需要将普通的rdd转成javaRDD才能使用的，转成javaRDD的这一步操作不耗时，不用担心

　　二、filter

　　在避免数据出现空值、0等场景中也非常常用，可以满足SQL中where的功能

　　这里首先也是要定义一个函数，该函数给定数据行返回布尔值实际效果是将返回为true的数据保留

　　Function<String, Boolean> boolFilter=new Function<String, Boolean>() {//String是某一行的输入类型 Boolean是对应的输出类型用于判断数据是否保留

　　@Override

　　public Boolean call(String row) throws Exception {//重写call方法

　　boolean flag=row!=null;

　　return flag;

　　}

　　};

　　通常该函数实际使用中需要修改的仅仅是row的类型也就是数据行的输入类型，和上面的转换函数不同，此call方法的返回值应是固定为Boolean

　　然后是调用方式

　　JavaRDD rdd=oriData.toJavaRDD().filter(boolFilter);

　　三、mapToPair

　　该方法和map方法有一些类似，也是对数据进行一些转换。不过此函数输入一行输出的是一个元组，最常用的方法是用来做交叉验证或者统计错误率召回率计算AUC等等

　　同样，需要先定义一个转换函数

　　Function<String, Boolean> transformer=new PairFunction<LabeledPoint, Object, Object>() {//LabeledPoint是输入类型后面的两个Object不要改动

　　@Override

　　public Tuple2 call(LabeledPoint row) throws Exception {//重写call方法通常只改动输入参数输出不要改动

　　double predicton=thismodel.PRedict(row.features());

　　double label=row.label();

　　return new Tuple2(predicton, label);

　　}

　　});

　　关于调用的类、类的对象，要求和之前的一致，类需要实现序列化，类的对象需要声明成final类型

　　相应的调用如下：

　　JavaPairRDD<Object, Object> predictionsAndLabels=oriData.mapToPair(transformer);

脚本宝典总结

以上是脚本宝典为你收集整理的java-spark的各种常用算子的写法全部内容，希望文章能够帮你解决java-spark的各种常用算子的写法所遇到的问题。

如果觉得脚本宝典网站内容还不错，欢迎将脚本宝典推荐好友。

本图文内容来源于网友网络收集整理提供，作为学习参考使用，版权属于原作者。
如您有任何意见或建议可联系处理。小编QQ：384754419，请注明来意。

标签：java php python spark String 参数参数序列化序列化开发开发源码源码程序员程序员

上一篇: 浅谈杜教筛下一篇:Appium 爬取微信搜一搜 window...

猜你在找的心得技巧相关文章

clion结合vcpkg以及GTest的使用 2022-07-07
EGF 2022-06-06
ExtJS 布局-Column布局（Column layout） 2022-06-05
颜色之ARGB与RGB、RGBA的区别与介绍 2022-04-15
rgba中的a是什么意思 CSS之RGBA颜色指南 2022-04-15
rootfs -根文件系统制作 2022-07-07
网页简单布局之结构与表现原则分享 2022-04-15
小项目中怎么防止Vue的闪现画面效果 2022-04-15
隐藏 Web 中的元素方法及优缺点教程详解 2022-04-15
告别硬编码让你的前端表格自动计算的实例代码 2022-04-15

全站导航更多