脚本宝典收集整理的这篇文章主要介绍了php – 确定文本可能语言的算法,脚本宝典觉得挺不错的,现在分享给大家,也给大家做个参考。
当然,像n-gram估计器这样的东西实现起来并不难,但它也需要一个参考数据库.
要解决的实际问题如下.我运行一个wordpress博客,目前被垃圾邮件淹没.该博客采用德语,几乎所有引用垃圾邮件都是英语.我的想法是立即垃圾邮件似乎是英语的所有引用.但是,我不能使用标记词,因为我不想垃圾邮件或引用.
我的解决方案
使用这个问题的答案,我实现了一个解决方案,它通过简单的禁用词比率检测德语.任何评论必须包含至少25%的德语停用词,如果它有链接.因此,您仍然可以评论类似“酷文章”的内容,它根本没有停用词,但如果您放置链接,则应该费心去编写正确的语言.
不幸的是,NLTK的停用词不正确.该列表包含德语中不存在的单词.所以我使用了snowball列表.使用Perl regexp optimizer我将整个列表压缩成一个正则表达式,并使用preg_match_all()计算停用词.整个过滤器是25行,是从列表中生成正则表达式的PErl代码的三分之一.让我们看看它在野外的表现.
谢谢你的帮助.
以上是脚本宝典为你收集整理的php – 确定文本可能语言的算法全部内容,希望文章能够帮你解决php – 确定文本可能语言的算法所遇到的问题。
本图文内容来源于网友网络收集整理提供,作为学习参考使用,版权属于原作者。
如您有任何意见或建议可联系处理。小编QQ:384754419,请注明来意。