PHP:将curl_exec输出转换为UTF8

发布时间:2022-04-30 发布网站:脚本宝典
脚本宝典收集整理的这篇文章主要介绍了PHP:将curl_exec输出转换为UTF8脚本宝典觉得挺不错的,现在分享给大家,也给大家做个参考。
我只想使用UTF8.问题是我不知道每个网页的字符集.如何检测并转换为UTF8?
<?PHP
$url = "http://vkontakte.ru";
$ch = curl_init($url);
$options = array(
    CURLOPT_RETURNtransfer => true,);
curl_setopt_array($ch,$options);
$data = curl_exec($ch);

// $data = magic($data);

PRint $data;

见:http://paulisageek.com/tmp/curl-utf8

什么是魔()?

通过Gumbo和PEkka的建议,我写了curl_exec_utf8
/** The same as curl_exec except tries ITs best to convert the output to utf8 **/
function curl_exec_utf8($ch) {
    $data = curl_exec($ch);
    if (!is_string($data)) return $data;

    unset($charset);
    $content_type = curl_getinfo($ch,CURLINFO_CONTENT_TYPE);

    /* 1: HTTP Content-type: header */
    preg_match( '@([\w/+]+)(;\s*charset=(\S+))?@i',$content_type,$matches );
    if ( isset( $matches[3] ) )
        $charset = $matches[3];

    /* 2: <Meta> element in the page */
    if (!isset($charset)) {
        preg_match( '@<Meta\s+http-equiv="Content-Type"\s+content="([\w/]+)(;\s*charset=([^\s"]+))?@i',$data,$matches );
        if ( isset( $matches[3] ) )
            $charset = $matches[3];
    }

    /* 3: <XMl> element in the page */
    if (!isset($charset)) {
        preg_match( '@<\?xML.+encoding="([^\s"]+)@si',$matches );
        if ( isset( $matches[1] ) )
            $charset = $matches[1];
    }

    /* 4: PHP's heuristic detection */
    if (!isset($charset)) {
        $encoding = mb_detect_encoding($data);
        if ($encoding)
            $charset = $encoding;
    }

    /* 5: Default for HTML */
    if (!isset($charset)) {
        if (strstr($content_type,"text/html") === 0)
            $charset = "ISO 8859-1";
    }

    /* Convert it if it is anything but UTF-8 */
    /* You can change "UTF-8"  to "UTF-8//IGNORE" to 
       ignore conversion errors and still output something reasonable */
    if (isset($charset) && strtoupper($charset) != "UTF-8")
        $data = iconv($charset,'UTF-8',$data);

    return $data;
}

正则表达式大部分来自http://nadeausoftware.com/articles/2007/06/php_tip_how_get_web_page_content_type

脚本宝典总结

以上是脚本宝典为你收集整理的PHP:将curl_exec输出转换为UTF8全部内容,希望文章能够帮你解决PHP:将curl_exec输出转换为UTF8所遇到的问题。

如果觉得脚本宝典网站内容还不错,欢迎将脚本宝典推荐好友。

本图文内容来源于网友网络收集整理提供,作为学习参考使用,版权属于原作者。
如您有任何意见或建议可联系处理。小编QQ:384754419,请注明来意。