脚本宝典收集整理的这篇文章主要介绍了寒假学习进度4,脚本宝典觉得挺不错的,现在分享给大家,也给大家做个参考。
什么是RDD:
def main(args: Array[String]): Unit = { //准备环境 val sparkConf = new SparkConf().setMaster("local[*]").setAppName("spark") val sparkContext = new SparkContext(sparkConf) //内存中创建rdd,内存中存储的数据作为数据源 //parallelize:并行 val rdd1 = sparkContext.parallelize( List(1,2,3,4) ) //从底层代码实现来讲,makeRDD 方法其实就是 parallelize 方法 val rdd2 = sparkContext.makeRDD( List(1,2,3,4) ) rdd1.collect().foreach(println) rdd2.collect().foreach(println) //关闭环境 sparkContext.stop()}@H_360_132@
def main(args: Array[String]): Unit = { val sparkConf = new SparkConf().setMaster("local[*]").setAppName("spark") val sparkContext = new SparkContext(sparkConf) //spark读取文件操作底层代码就是使用hadoop的读取方式 //第二个参数可以指定最小分区数 val fileRDD: RDD[String] = sparkContext.textFile("data",2) //path路径可以使用通配符* // val fileRDD: RDD[String] = sparkContext.textFile("data/1*.txt") //分布式系统路径 // val fileRDD: RDD[String] = sparkContext.textFile("hdfs://hadoop102:8020/test") fileRDD.collect().foreach(println) sparkContext.stop()}
def main(args: Array[String]): Unit = { //准备环境 val sparkConf = new SparkConf().setMaster("local[*]").setAppName("spark") val sparkContext = new SparkContext(sparkConf) //rdd的并行和分区,第二个参数可以指定分区数 val dataRDD: RDD[Int] = sparkContext.makeRDD( List(1,2,3,4),4) //文件分区后进行输入在output目录下 dataRDD.saveAsTextFile("output") sparkContext.stop() //关闭环境 sparkContext.stop()}//spark读取文件操作底层代码就是使用hadoop的读取方式
以上是脚本宝典为你收集整理的寒假学习进度4全部内容,希望文章能够帮你解决寒假学习进度4所遇到的问题。
本图文内容来源于网友网络收集整理提供,作为学习参考使用,版权属于原作者。
如您有任何意见或建议可联系处理。小编QQ:384754419,请注明来意。