脚本宝典收集整理的这篇文章主要介绍了第八次作业 分布式计算MapReduce--词频统计,脚本宝典觉得挺不错的,现在分享给大家,也给大家做个参考。
程序 |
WordCount |
输入 |
一个包含大量单词的文本文件 |
输出 |
文件中每个单词及其出现次数(频数), 并按照单词字母顺序排序, 每个单词和其频数占一行,单词和频数之间有间隔 |
1.用你最熟悉的编程环境,编写非分布式的词频统计程序。
代码:
#文本形式打开文件# file_data = oPEn("web.txt","w+")# file_data.write("hello python, hello hello cmn cmn cmn")file_data = open("web.txt", "rt")#打开文件seq=file_data.read()#读取文件内容#PRint(seq)file_data.close()#关闭文件seq=str(seq).replace(',','')#去除逗号seq=str(seq).replace('.','')#去除句号seq=str(seq).split()#将句子形成列表count_dict={}for word in seq:#使用for循环遍历句子 if word not in count_dict:#使用条件语句进行单词计数 count_dict[word]=1 else: count_dict[word]+=1for key,value in count_dict.items(): print(f"{key}出现了{value}次")结果:
以上是脚本宝典为你收集整理的第八次作业 分布式计算MapReduce--词频统计全部内容,希望文章能够帮你解决第八次作业 分布式计算MapReduce--词频统计所遇到的问题。
本图文内容来源于网友网络收集整理提供,作为学习参考使用,版权属于原作者。
如您有任何意见或建议可联系处理。小编QQ:384754419,请注明来意。