spark运行python代码_python教程

上一篇: python3.7 错误： ModuleNotFoun... 下一篇:Python：编译安装简明手册

spark运行python代码

发布时间：2019-06-29 发布网站：脚本宝典

脚本宝典收集整理的这篇文章主要介绍了spark运行python代码，脚本宝典觉得挺不错的，现在分享给大家，也给大家做个参考。

spark运行python代码一般使用命令
spark-submIT test.py这样的形式来运行
如果代码中设置了参数的话，还需要在命令行中传入参数
其中spark默认使用的hDFs中的文档运行
如果要运行本地文件的话，可以加上file://
例如：

      
      
      
      
      
 spark-submit wordcount.py file:///home/tst

这样的形式
再简单记录一下spark的textfile函数，该函数返回的是一个RDD
使用spark处理数据的时候首先都要有一个RDD，然后使用这个自带的一些方法
来处理，方法如下：

      
      
      
      
      
转换：
    map
    filter
    flatmap
    sample
    groupByKey
    reduceByKey
    union
    join
    cogroup
    crossPRoduct
    mapvalues
    sort
    partitionBy
操作：
    count
    collect
    reduce
    lookup
    save
在转换方法中的函数执行完后生成的还是一个RDD结构
而操作函数返回的就不是RDD了

脚本宝典总结

以上是脚本宝典为你收集整理的spark运行python代码全部内容，希望文章能够帮你解决spark运行python代码所遇到的问题。

如果觉得脚本宝典网站内容还不错，欢迎将脚本宝典推荐好友。

本图文内容来源于网友网络收集整理提供，作为学习参考使用，版权属于原作者。
如您有任何意见或建议可联系处理。小编QQ：384754419，请注明来意。

标签：div post-format-gallery python

上一篇: python3.7 错误： ModuleNotFoun... 下一篇:Python：编译安装简明手册

猜你在找的python教程相关文章

爆款游戏《贪吃蛇大作战》的 Python 实现 2019-06-09
Linux 修改Python命令 2019-08-05
【python学习--小白篇】python函数中不定长参数的写法 2019-06-30
2013年度Python模块 2019-08-05
【Python】Python环境的搭建 2019-06-08
Python线程专题纵览篇 2019-06-21
python的一些资料和说明 2019-06-25
Python开发环境搭建 2019-06-24
【Python3】Python运算符 2019-06-25
Python学习资源 2019-06-21