收藏一个python通过uft8 编码来提取中文的例子

发布时间:2019-06-24 发布网站:脚本宝典
脚本宝典收集整理的这篇文章主要介绍了收藏一个python通过uft8 编码来提取中文的例子脚本宝典觉得挺不错的,现在分享给大家,也给大家做个参考。

Python-提取文件中所有中文小程序
问题描述:

   从一个txt文件中提取所有中文

思路:

打开txt文件
读取txt文件中的文本
用正则匹配获取中文
将其内容写入到另一个文本中
python实现:
import imp
import Sys
imp.reload(sys)
sys.setdefaultencoding('utf-8') #设置默认编码,只能是utf-8,下面u4e00-u9fa5要求的
import re
pchinese=re.COMpile('([u4e00-u9fa5]+)+?') #判断是否为中文的正则表达式
f=oPEn("data.txt") #打开要提取的文件
fw=open("getdata.txt","w")#打开要写入的文件
for line in f.readlines(): #循环读取要读取文件的每一行
m=pchinese.findall(str(line)) #使用正则表达获取中文
if m:
str1='|'.join(m)#同行的中文用竖杠区分
str2=str(str1)
fw.wrITe(str2)#写入文件
fw.write("n")#不同行的要换行
f.close()
fw.close()#打开的文件记得关闭哦!

未验证    

脚本宝典总结

以上是脚本宝典为你收集整理的收藏一个python通过uft8 编码来提取中文的例子全部内容,希望文章能够帮你解决收藏一个python通过uft8 编码来提取中文的例子所遇到的问题。

如果觉得脚本宝典网站内容还不错,欢迎将脚本宝典推荐好友。

本图文内容来源于网友网络收集整理提供,作为学习参考使用,版权属于原作者。
如您有任何意见或建议可联系处理。小编QQ:384754419,请注明来意。