脚本宝典收集整理的这篇文章主要介绍了spark运行python代码,脚本宝典觉得挺不错的,现在分享给大家,也给大家做个参考。
spark运行python代码一般使用命令
spark-submIT test.py这样的形式来运行
如果代码中设置了参数的话,还需要在命令行中传入参数
其中spark默认使用的hDFs中的文档运行
如果要运行本地文件的话,可以加上file://
例如:
spark-submit wordcount.py file:///home/tst
这样的形式
再简单记录一下spark的textfile函数,该函数返回的是一个RDD
使用spark处理数据的时候首先都要有一个RDD,然后使用这个自带的一些方法
来处理,方法如下:
转换:
map
filter
flatmap
sample
groupByKey
reduceByKey
union
join
cogroup
crossPRoduct
mapvalues
sort
partitionBy
操作:
count
collect
reduce
lookup
save
在转换方法中的函数执行完后生成的还是一个RDD结构
而操作函数返回的就不是RDD了
以上是脚本宝典为你收集整理的spark运行python代码全部内容,希望文章能够帮你解决spark运行python代码所遇到的问题。
本图文内容来源于网友网络收集整理提供,作为学习参考使用,版权属于原作者。
如您有任何意见或建议可联系处理。小编QQ:384754419,请注明来意。