第八次作业 分布式计算MapReduce--词频统计

发布时间:2022-06-29 发布网站:脚本宝典
脚本宝典收集整理的这篇文章主要介绍了第八次作业 分布式计算MapReduce--词频统计脚本宝典觉得挺不错的,现在分享给大家,也给大家做个参考。

WordCount程序任务

程序

WordCount

输入

一个包含大量单词的文本文件

输出

文件中每个单词及其出现次数(频数),

并按照单词字母顺序排序,

每个单词和其频数占一行,单词和频数之间有间隔

1.用你最熟悉的编程环境,编写非分布式的词频统计程序。

  • 读文件
  • 分词(text.splIT列表)
  • 按单词统计(字典,key单词,value次数)
  • 排序(list.sort列表)
  • 输出

编程环境:Pycharm commUnity

代码:

#文本形式打开文件# file_data = oPEn("web.txt","w+")# file_data.write("hello python, hello hello cmn cmn cmn")file_data = open("web.txt", "rt")#打开文件seq=file_data.read()#读取文件内容#PRint(seq)file_data.close()#关闭文件seq=str(seq).replace(',','')#去除逗号seq=str(seq).replace('.','')#去除句号seq=str(seq).split()#将句子形成列表count_dict={}for word in seq:#使用for循环遍历句子    if word not in count_dict:#使用条件语句进行单词计数        count_dict[word]=1    else:        count_dict[word]+=1for key,value in count_dict.items():    print(f"{key}出现了{value}次")结果:

第八次作业 分布式计算MapReduce--词频统计

 

 

2.用Mapreduce实现词频统计

脚本宝典总结

以上是脚本宝典为你收集整理的第八次作业 分布式计算MapReduce--词频统计全部内容,希望文章能够帮你解决第八次作业 分布式计算MapReduce--词频统计所遇到的问题。

如果觉得脚本宝典网站内容还不错,欢迎将脚本宝典推荐好友。

本图文内容来源于网友网络收集整理提供,作为学习参考使用,版权属于原作者。
如您有任何意见或建议可联系处理。小编QQ:384754419,请注明来意。