08 分布式计算MapReduce--词频统计

发布时间:2022-06-29 发布网站:脚本宝典
脚本宝典收集整理的这篇文章主要介绍了08 分布式计算MapReduce--词频统计脚本宝典觉得挺不错的,现在分享给大家,也给大家做个参考。

WordCount程序任务

程序

WordCount

输入

一个包含大量单词的文本文件

输出

文件中每个单词及其出现次数(频数),

并按照单词字母顺序排序,

每个单词和其频数占一行,单词和频数之间有间隔

1.用你最熟悉的编程环境,编写非分布式的词频统计程序。

  • 读文件
  • 分词(text.splIT列表)
  • 按单词统计(字典,key单词,value次数)
  • 排序(list.sort列表)
  • 输出

 

(1)读文件、分词(text.split列表)

08 分布式计算MapReduce--词频统计

 

 2、按单词统计(字典,key单词,value次数)、排序(list.sort列表)

08 分布式计算MapReduce--词频统计

 

3、主函数与输出

08 分布式计算MapReduce--词频统计

 

 

4、输出结果

08 分布式计算MapReduce--词频统计

 

 

2.用Mapreduce实现词频统计

脚本宝典总结

以上是脚本宝典为你收集整理的08 分布式计算MapReduce--词频统计全部内容,希望文章能够帮你解决08 分布式计算MapReduce--词频统计所遇到的问题。

如果觉得脚本宝典网站内容还不错,欢迎将脚本宝典推荐好友。

本图文内容来源于网友网络收集整理提供,作为学习参考使用,版权属于原作者。
如您有任何意见或建议可联系处理。小编QQ:384754419,请注明来意。