java-spark的各种常用算子的写法

发布时间:2022-06-27 发布网站:脚本宝典
脚本宝典收集整理的这篇文章主要介绍了java-spark的各种常用算子的写法脚本宝典觉得挺不错的,现在分享给大家,也给大家做个参考。

  通常写spark的程序用scala比较方便,毕竟spark的码就是用scala写的。然而,目前java开发者特别多,尤其进行数据对接、上线服务的时候,这时候,就需要掌握一些spark在java中的使用方法了

  一、map

  map在进行数据处理、转换的时候,不能更常用了

  在使用Map之前 首先要定义一个转换的函数 格式如下:

  Function<String, LabeledPoint> transForm=new Function<String, LabeledPoint>() {//String是某一行的输入类型 LabeledPoint是转换后的输出类型

  @override

  public LabeledPoint call(String row) throws Exception {//重写call方法

  String[] rowArr=row.splIT(",");

  int rowSize=rowArr.length;

  double[] doubleArr=new double[rowSize-1];

  //除了第一位的lable外 其余的部分解析成double 然后放到数组中

  for (int i=1; i < rowSize; i++) {

  String each=rowArr[i];

  doubleArr[i]=Double.parseDouble(each);

  }

  //用刚才得到的数据 转成向量

  Vector feature=Vectors.dense(doubleArr);

  double label=Double.parseDouble(rowArr[0]);

  //构造用于分类训练的数据格式 LabelPoint

  LabeledPoint point=new LabeledPoint(label, feature);

  return point;

  }

  };

  需要特别注意的是:

  1、call方法的输入应该是转换之前的数据行的类型 返回值应是处理之后的数据行类型

  2、如果转换方法中调用了自定义的类,注意该类名必须实现序列化 比如

  public class TreeEnSEMble implements Serializable {

  }

  3、转换函数中如果调用了某些类的对象,比如该方法需要调用外部的一个参数,或者数值处理模型(标准化,归一化等),则该对象需要声明是final

  然后就是在合适的时候调用该转换函数了

  JaVARDD rdd=oriData.toJavaRDD().map(transForm);

  这种方式是需要将普通的rdd转成javaRDD才能使用的,转成javaRDD的这一步操作不耗时,不用担心

  二、filter

  在避免数据出现空值、0等场景中也非常常用,可以满足SQL中where的功能

  这里首先也是要定义一个函数,该函数给定数据行 返回布尔值 实际效果是将返回为true的数据保留

  Function<String, Boolean> boolFilter=new Function<String, Boolean>() {//String是某一行的输入类型 Boolean是对应的输出类型 用于判断数据是否保留

  @Override

  public Boolean call(String row) throws Exception {//重写call方法

  boolean flag=row!=null;

  return flag;

  }

  };

  通常该函数实际使用中需要修改的仅仅是row的类型 也就是数据行的输入类型,和上面的转换函数不同,此call方法的返回值应是固定为Boolean

  然后是调用方式

  JavaRDD rdd=oriData.toJavaRDD().filter(boolFilter);

  三、mapToPair

  该方法和map方法有一些类似,也是对数据进行一些转换。不过此函数输入一行 输出的是一个元组,最常用的方法是用来做交叉验证 或者统计错误率 召回率 计算AUC等等

  同样,需要先定义一个转换函数

  Function<String, Boolean> transformer=new PairFunction<LabeledPoint, Object, Object>() {//LabeledPoint是输入类型 后面的两个Object不要改动

  @Override

  public Tuple2 call(LabeledPoint row) throws Exception {//重写call方法 通常只改动输入参数 输出不要改动

  double predicton=thismodel.PRedict(row.features());

  double label=row.label();

  return new Tuple2(predicton, label);

  }

  });

  关于调用的类、类的对象,要求和之前的一致,类需要实现序列化,类的对象需要声明成final类型

  相应的调用如下:

  JavaPairRDD<Object, Object> predictionsAndLabels=oriData.mapToPair(transformer);

脚本宝典总结

以上是脚本宝典为你收集整理的java-spark的各种常用算子的写法全部内容,希望文章能够帮你解决java-spark的各种常用算子的写法所遇到的问题。

如果觉得脚本宝典网站内容还不错,欢迎将脚本宝典推荐好友。

本图文内容来源于网友网络收集整理提供,作为学习参考使用,版权属于原作者。
如您有任何意见或建议可联系处理。小编QQ:384754419,请注明来意。