如何使用php最好地删除XHTML认为无效的unicode字符?

发布时间:2022-04-30 发布网站:脚本宝典
脚本宝典收集整理的这篇文章主要介绍了如何使用php最好地删除XHTML认为无效的unicode字符?脚本宝典觉得挺不错的,现在分享给大家,也给大家做个参考。
经营一个旨在支持国际数学小组的论坛.我最近把它改为unicode以更好地支持国际角色.在调试此转换时,我发现并非所有unicode字符都被视为有效的X HTML(相关网站似乎是 http://www.w3.org/TR/unicode-xml/).论坛软件在将帖子呈现给浏览器之前经历的步骤之一是XHTML验证/清理步骤.在那个阶段应该删除XHTML不喜欢的任何unicode字符似乎是一个合理的想法.

所以我的问题是:

(顺便说一下,论坛是用PHP编写的.)

我想故障安全将是一个简单的str_replace(如果这也是最好的,我是否要做任何额外的事情以确保它与unicode正常工作?)但这将涉及我必须通过XHTML DTD(或上面-referenced W3 page)仔细找出str_replace的搜索部分列出的字符,所以如果这是最好的方法,有人已经这样做,以便我可以窃取,错误,复制,它?

(顺便说一下,导致问题的字符是U 000C,’formFeed’,(根据W3页面)是有效的HTML但无效的XHTML!)

@H_304_12@ 我找到了一个可以做你想要的功能
phpedit.net.

我将发布归档函数,在PHPEdIT.net上归功于ltp:

/**
 * Removes invalid XML
 *
 * @access public
 * @param string $value
 * @return string
 */
function stripInvalidXml($value)
{
    $ret = "";
    $current;
    if (empty($value)) 
    {
        return $ret;
    }

    $length = strlen($value);
    for ($i=0; $i < $length; $i++)
    {
        $current = ord($value{$i});
        if (($current == 0x9) ||
            ($current == 0xA) ||
            ($current == 0xD) ||
            (($current >= 0x20) && ($current <= 0xD7FF)) ||
            (($current >= 0xE000) &amp;& ($current <= 0xFFFD)) ||
            (($current >= 0X10000) && ($current <= 0x10FFFF)))
        {
            $ret .= chr($current);
        }
        else
        {
            $ret .= " ";
        }
    }
    return $ret;
}

脚本宝典总结

以上是脚本宝典为你收集整理的如何使用php最好地删除XHTML认为无效的unicode字符?全部内容,希望文章能够帮你解决如何使用php最好地删除XHTML认为无效的unicode字符?所遇到的问题。

如果觉得脚本宝典网站内容还不错,欢迎将脚本宝典推荐好友。

本图文内容来源于网友网络收集整理提供,作为学习参考使用,版权属于原作者。
如您有任何意见或建议可联系处理。小编QQ:384754419,请注明来意。