在PHP中查找重复的单词而不指定单词本身

发布时间:2022-04-30 发布网站:脚本宝典
脚本宝典收集整理的这篇文章主要介绍了在PHP中查找重复的单词而不指定单词本身脚本宝典觉得挺不错的,现在分享给大家,也给大家做个参考。
我一直在为我想做的项目考虑一些事情,我不是一个先进的用户而且我只是在学习.不知道是否可行:

假设我们有100个htML文档,其中包含许多表和文本.

问题一是:是否可以分析所有这些文本并找到重复的单词并计算它?

是的,这可能与某些功能有关,但问题在于:如果我们不知道会发现的话会怎么样?也就是说,我们必须告诉代码一个词的含义.

例如,假设一个单词是七个字符的联合,那么想法就是找到其他类似的模式并提及它.最好的方法是什么

非常感谢你提前.

例:

搜索:下一个短语上的五个字符模式:

文字一:

文字二:

结果

Takes 1 
break 1
water 1
Ocean 2

在此先感谢您的帮助.

解决方法@H_304_35@
function get_word_counts($phrases) {
   $counts = array();
    foreach ($phrases as $phrase) {
        $words = explode(' ',$phrase);
        foreach ($words as $word) {
          $word = PReg_replace("#[^a-zA-Z\-]#","",$word);
            $counts[$word] += 1;
        }
    }
    return $counts;
}

$phrases = array("IT takes an ocean of water not to break!","An ocean is a body of saline water,or so I am told.");

$counts = get_word_counts($phrases);
arsort($counts);
print_r($counts);

OUTPUT

Array
(
    [of] => 2
    [ocean] => 2
    [water] => 2
    [or] => 1
    [saline] => 1
    [body] => 1
    [so] => 1
    [I] => 1
    [told] => 1
    [a] => 1
    [am] => 1
    [An] => 1
    [an] => 1
    [takes] => 1
    [not] => 1
    [to] => 1
    [It] => 1
    [break] => 1
    [is] => 1
)

编辑根据@Jack的评论更新以处理基本标点符号.

脚本宝典总结

以上是脚本宝典为你收集整理的在PHP中查找重复的单词而不指定单词本身全部内容,希望文章能够帮你解决在PHP中查找重复的单词而不指定单词本身所遇到的问题。

如果觉得脚本宝典网站内容还不错,欢迎将脚本宝典推荐好友。

本图文内容来源于网友网络收集整理提供,作为学习参考使用,版权属于原作者。
如您有任何意见或建议可联系处理。小编QQ:384754419,请注明来意。