PHP 与 UTF-8 的最佳实践

《PHP中的字符串、编码、UTF-8》一文中描述了一些列的基础知识,比较枯燥,现在来说点有用的——PHP
字符串处理的最佳实践,本文是“PHP、字符串、编码、UTF-8”相关知识的第二部分。先说结论——
PHP 中的各个方面使用 UTF-8
澳门新浦京手机版,编码。

iconv函数库能够完成各种字符集间的转换,是php编程中不可缺少的基础函数库。

多字节字符串

1).PHP假设字符串中的每一个字符都是八位字符,占用一个字节的内存。但是,你有可能会遇到多字节字符串。2).这里所说的多字节字符串是指不在传统的128个ASCII字符集中的字符。如果使用PHP原生的字符串函数处理这些多字节Unicode字符串,会得到意外的错误。3).安装mbstring扩展来处理这些问题。例如使用处理多字节的字符串函数mb_strlen()函数来替代原生的strlen()函数。

PHP 语言层面是不支持 Unicode字符集的,但是可以通过 UTF-8
编码能处理大部分问题。

用法如下:

字符编码

1).一定要知道数据的字符编码。2).使用UTF-8字符编码存储数据。3).使用UTF-8字符编码输出数据。4).mbstring扩展不仅可以处理Unicode字符串,还可以在不同的字符编码之间转换多字节字符串。

最佳实践就是明确知道输入编码(不知道就检测),内部统一转换为 UTF-8
编码,输出编码也统一是 UTF-8编码。

复制代码 代码如下:
$string = “欢迎访问脚本之家!”;
iconv(“utf8″,”gbk”,$string)//将字符串string  编码由utf8转变成gbk;

输出UTF-8数据

1).在php.ini中作如下配置

default_charset = "UTF-8";

2)例如header函数明确指定字符集,在PHP返回的响应中,Content-Type首部默认也使用了这个默认值

<?phpheader('Content-Type: application/json;charset=utf-8');

3).只要PHP已经明确返回了输出,就不能使用header.建议在HTML文档的头部也加入响应的meta标签

<meta charset="UTF-8"/>

PHP专题系列目录地址:

PHP 层面如何处理 UTF-8

当操作 Unicode 字符集的时候,请务必安装 mbstring
扩展,并使用相应的函数代替原生的字符串函数。举个例子,一个文件编码为
UTF-8 的 PHP 代码,假如使用 strlen() 函数是错误的,请使用 mb_strlen()
函数代替。

mbstring
扩展大部分的函数都需要基于一个编码(内部编码)来处理,请务必统一使用
UTF-8 编码,这个大部分可以在 PHP.INI 中配置。

从 PHP 5.6 开始,default_charset 配置可以替换
mbstring.http_input,mbstring.http_output 。
另外一个重要的配置就是 mbstring.language,这个默认值是
Neutral(UTF-8)。

注意文件编码和 mbstring 扩展的内部编码不是同一个概念。

概括的说来:

  • PHP.INI 中涉及到 mbstring 扩展的部分尽量使用 UTF-8。
  • 请用 mbstring 扩展函数代替原生字符串操作函数。
  • 在使用相关函数的时候,请务必了解你操作的字符的编码是什么,在使用对应函数的时候,显示的写上
    UTF-8 编码参数,比如 htmlentities() 函数的第三个参数显示写上 UTF-8。

扩展如下:

文件 IO 操作 如何处理 UTF-8

这里举个例子,假如你要打开一个文件,但是不知道文件内容是什么编码的,那么如何处理呢?

最佳实践就是,在打开的时候统一转换成
UTF-8,修改内容后就再转回原来的编码并保存到文件。看代码吧:

if ( mb_internal_encoding()!="UTF-8") {
        mb_internal_encoding("UTF-8");
}

$file = "file.txt"; //一个编码为gbk的中文文件
$str= file_get_contents($file);
//不管来源是什么编码,统一显示的时候转换为 UTF-8
 if (mb_check_encoding($str,"GBK")) 
    $str =  mb_convert_encoding($str,"UTF-8",“GBK”); 

$str ="修改内容";
$str =  mb_convert_encoding($str,$srcbm,"UTF-8"); //原样转回去
file_put_contents($file,$str);

复制代码 代码如下:
echo $str= ‘欢迎访问脚本之家!’;
echo ‘
‘;
echo iconv(‘GB2312’, ‘UTF-8’, $str); //将字符串的编码从GB2312转到UTF-8
echo ‘
‘;
echo iconv_substr($str, 1, 1, ‘UTF-8’); //按字符个数截取而非字节
print_r(iconv_get_encoding()); //得到当前页面编码信息
echo iconv_strlen($str, ‘UTF-8’); //得到设定编码的字符串长度
//也有这样用的
$content = iconv(“UTF-8″,”gbk//TRANSLIT”,$content);

Mysql 和 UTF-8 的最佳实践

这个相对简单,首先保证你的 Mysql 都是 UTF-8。然后 Mysql
客户端连接的时候也保持 UTF-8,具体到 PHP 中,就是 imysql 或者 PDO
扩展连接 Mysql 的时候都设置 UTF-8
作为连接编码,二边保持一致,一般就不会遇到问题。

有兴趣可以看看这篇文章

备注:

浏览器和 UTF-8 的最佳实践

这个也比较简单,就是你的输出内容假如是网页,那么你的字符串处理输出最总请保持为
UTF-8 ;同时 PHP.INI 中也明确设定 default_charset 为 UTF-8;HTML 的
Meta Tag 也明确标识为 UTF-8。

现在万事大吉了吗,并没有,虽然服务器和浏览器让用户使用 UTF-8
编码,但是用户的行为并没有约束性,他可能输入的是其他编码的字符,或者上传的文件名是其他编码的字符,那么怎么办呢?可以通过
mb_http_input() 和 mb_check_encoding()
函数来检测用户的编码,然后内部转换为
UTF-8。确保在任何一个层面,最终处理的是 UTF-8
编码。换句话说,需要手段能够知晓你的输入是什么编码的,处理完成后控制输出的编码是
UTF-8。

不建议使用 mbstring.encoding_translation 指令 和 mb_detect_encoding()
函数。折磨我半天。

1、iconv不是php的默认函数,也是默认安装的模块。需要安装才能用的。

操作系统和 UTF-8 的最佳实践

由于操作系统的原因,PHP 处理 Unicode 文件名的时候会有不同的处理机制。

在 Linux 中,文件名始终是 UTF-8 编码的,而在中文 Windows
环境下,文件名始终是 GBK 编码的,记住这一点就可以了。

通过例子说明下:

//命令行程序函数,运行在中文版 Windows 10 操作系统 ,文件编码为 UTF-8

function filenameexample() {
    $filename = "测试.txt" ;
    $gbk_filename = iconv("UTF-8","GBK",$filename);
    file_put_contents($gbk_filename, "测试");
    echo file_get_contents($gbk_filename);
}

function scandirexample() {
    $arr = scandir("./tmp");
    foreach ($arr as $v) {
        if ($v == "." || $v =="..")
            continue ;
        $filename = iconv( "GBK","UTF-8",$v ) ;
        $content = file_get_contents("./tmp/" . $v );
    }
}

假如不想写写兼容 Windows 和 linux 的程序,可以对文件名进行 urlencode
编码,比如:

 function urlencodeexample() {
    $filename = "测试2.txt" ;
    $urlencodefilename = urlencode($filename) ;
    file_put_contents($urlencodefilename, "测试");
    echo file_get_contents($urlencodefilename);
 }

在用 PHP 通过 header()
函数下载文件的时候,也要考虑浏览器和操作系统(大部分人使用的是
Windows),对于 Chrome 来说,输出的文件名编码可以是 UTF-8,Chrome
会自动将文件名转换为 GBK 编码。

而对于低版本的 IE
来说,它继承了操作系统的环境,所以下载文件名假如是中文必须转码为 UTF-8
编码,否则下载的时候用户看到的是乱码文件名。通过代码来说明:

$agent=$_SERVER["HTTP_USER_AGENT"];
if(strpos($agent,'MSIE')!==false  {
    $filename = iconv("UTF-8","GBK","附件.txt");
    header("Content-Disposition: attachment; filename="$filename"");
}

如果是windows2000+php,你可以修改php.ini文件,将extension=php_iconv.dll前的”;”去掉,同时你要copy你的原php安装文件下的iconv.dll到你的winnt/system32下(如果你的dll指向的是这个目录,我本地的没有操作这一步)
在linux环境下,用静态安装的方式,在configure时加多一项
–with-iconv就可以了,phpinfo看得到iconv的项。(Linux7.3+Apache4.06+php4.3.2);

到此php中的iconv 介绍完毕

2、用iconv函数把抓取来过的utf-8编码的页面转成gb2312,
发现只有用iconv函数把抓取过来的数据一转码数据就会无缘无故的少一些。原因是这样的:
复制代码 代码如下:
string iconv ( string in_charset, string out_charset, string str )

注意:第二个参数,除了可以指定要转化到的编码以外,还可以增加两个后缀://TRANSLIT
和 //IGNORE,其中 //TRANSLIT
会自动将不能直接转化的字符变成一个或多个近似的字符,//IGNORE
会忽略掉不能转化的字符,而默认效果是从第一个非法字符截断。
被截断了,当然就会少了;

可以这样修改iconv(“UTF-8″,”GB2312//IGNORE”,$string) 
会忽略掉不能转化的字符;

附加:

PHP中的mb_convert_encoding与iconv函数介绍

mb_convert_encoding这个函数是用来转换编码的,和iconv函数差不多。

英文一般不会存在编码问题,只有中文数据才会有这个问题。比如你用Zend
Studio或Editplus写程序时,用的是gbk编码,如果数据需要入数据库,而数据库的编码为utf8时,这时就要把数据进行编码转换,不然进到数据库就会变成乱码。

mb_convert_encoding的用法见官方:

做一个GBK To UTF-8

复制代码 代码如下:
header(“content-Type: text/html; charset=Utf-8”);
//设置字符的编码是utp-8
echo mb_convert_encoding(“我的”, “UTF-8”, “GBK”);
?>

再来个GB2312 To Big5

复制代码 代码如下:
header(“content-Type: text/html; charset=big5”);
echo mb_convert_encoding(“朋友”, “big5”, “GB2312”);
?>

不过要使用上面的函数需要安装但是需要先enable mbstring
扩展库,道理还是一样的,修改php.ini。
PHP中的另外一个函数iconv也是用来转换字符串编码的,与上函数功能相似。

下面还有一些详细的例子:

复制代码 代码如下:
iconv — Convert string to requested character encoding
(PHP 4 >= 4.0.5, PHP 5)
mb_convert_encoding — Convert character encoding
(PHP 4 >= 4.0.6, PHP 5)

用法:

string mb_convert_encoding ( string str, string to_encoding [, mixed
from_encoding] )

需要先enable mbstring 扩展库,在 php.ini里将;
extension=php_mbstring.dll 前面的 ; 去掉
mb_convert_encoding
可以指定多种输入编码,它会根据内容自动识别,但是执行效率比iconv差太多,那为何还要讲解
这个 mb_convert_encoding()函数呢?答案如下:

发现iconv在转换字符”—”到gb2312时会出错,如果没有ignore参数,所有该字符后面的字符串都无法被保存。不管怎么样,这个”—”都无法转换成功,无法输出。
另外mb_convert_encoding没有这个bug.

一般情况下用
iconv,只有当遇到无法确定原编码是何种编码,或者iconv转化后无法正常显示时才用mb_convert_encoding
函数.

发表评论

电子邮件地址不会被公开。 必填项已用*标注