php – Profiling Regex Lexer

发布时间:2022-04-30 发布网站:脚本宝典
脚本宝典收集整理的这篇文章主要介绍了php – Profiling Regex Lexer脚本宝典觉得挺不错的,现在分享给大家,也给大家做个参考。
我用 PHP创建了@L_777_1@路由器,它接受DSL(基于Rails 3路由)并将其转换为Regex.它有可选的段(用(嵌套)括号表示).以下是当前的lexing算法:

PRivate function tokenize($pattern)
{
    $rules = array(
        self::OPEN_PAREN_TYPE  => '/^(\()/',self::CLOSE_PAREN_TYPE => '/^(\))/',self::VARIABLE_TYPE    => '/^:([a-z0-9_]+)/',self::TEXT_TYPE        => '/^([^:()]+)/',);

    $cursor = 0;
    $tokens = array();
    $buffer = $pattern;
    $buflen = strlen($buffer);

    while ($cursor < $buflen)
    {
        $chunk = substr($buffer,$cursor);

        $matched = false;
        foreach ($rules as $type => $rule)
        {
            if (preg_match($rule,$chunk,$matches))
            {
                $tokens[] = array(
                    'type'  => $type,'value' => $matches[1],);

                $matched = true;
                $cursor += strlen($matches[0]);
            }
        }

        if (!$matched)
        {
            throw new \Exception(sprintf('Problem parsing route "%s" at char "%d".',$pattern,$cursor));
        }
    }

    return $tokens;
}

我缺少哪些明显的加速?有什么方法可以放弃preg_ *,或者将正则表达式组合成一种模式等等

这是xhprof调用图(基准测试使用~255个独特的测试路径):

知道最好的解决方案是不要为每个请求调用这个(我计划使用APC进行缓存等),但是对于使用没有启用APC的库的人来说,尽可能高效.

编辑:

我还写了一个快速的状态机版本,它似乎表现更好.我仍然愿意接受前面的建议,因为我相信第一个代码更优雅.

private function tokenize2($pattern)
{
    $buffer = '';
    $invariable = false;

    $tokens = array();
    foreach (str_split($pattern) as $char)
    {
        swITch ($char)
        {
            case '(':
                if ($buffer)
                {
                    $tokens[] = array(
                        'type'  => $invariable ? self::VARIABLE_TYPE : self::TEXT_TYPE,'value' => $buffer,);
                    $buffer = '';
                    $invariable = false;
                }

                $tokens[] = array(
                    'type' => self::OPEN_PAREN_TYPE,);
                break;
            case ')':
                if ($buffer)
                {
                    $tokens[] = array(
                        'type'  => $invariable ? self::VARIABLE_TYPE : self::TEXT_TYPE,);
                    $buffer = '';
                    $invariable = false;
                }

                $tokens[] = array(
                    'type' => self::CLOSE_PAREN_TYPE,);
                break;
            case ':':
                if ($buffer)
                {
                    $tokens[] = array(
                        'type'  => $invariable ? self::VARIABLE_TYPE : self::TEXT_TYPE,);
                    $buffer = '';
                    $invariable = false;
                }

                $invariable = true;
                break;
            default:
                if ($invariable && !(ctype_alnum($char) || '_' == $char ))
                {
                    $invariable = false;
                    $tokens[] = array(
                        'type'  => self::VARIABLE_TYPE,);

                    $buffer = '';
                    $invariable = false;
                }

                $buffer .= $char;
                break;
        }
    }

    if ($buffer)
    {
        $tokens[] = array(
        'type'  => $invariable ? self::VARIABLE_TYPE : self::TEXT_TYPE,);
        $buffer = '';
    }

    return $tokens;

我最后只是出于性能原因使用状态机,并使用apc缓存整个lexing过程(因为……为什么不这样做).

如果有人有任何贡献,我会很乐意回答.

解决方法

有趣的代码:).

我不太确定你用“用APC缓存整个lexing过程”所说的话,所以我可能会建议你已经做了什么.

你能缓存输入的URL,结果高于实际的lexing过程吗?您不希望在此处应用任何基于权限的限制,因此缓存是全局的.路线的数量往往有限,即使是在一个大型网站上,也有一些非常热点.完全绕过lexing并在任何以前使用的路线上击中缓存.

脚本宝典总结

以上是脚本宝典为你收集整理的php – Profiling Regex Lexer全部内容,希望文章能够帮你解决php – Profiling Regex Lexer所遇到的问题。

如果觉得脚本宝典网站内容还不错,欢迎将脚本宝典推荐好友。

本图文内容来源于网友网络收集整理提供,作为学习参考使用,版权属于原作者。
如您有任何意见或建议可联系处理。小编QQ:384754419,请注明来意。
标签:php