澳门新浦京电子游戏4项技巧使你不再为PHP中文编码苦恼

在PHP中,我们可以利用header方法来指定PHP页面的页面编码,可以是UTF,也可以是GBK编码,具体方法如下:

  PHP程序设计中中文编码问题曾经困扰很多人,导致这个问题的原因其实很简单,每个国家(或区域)都规定了计算机信息交换用的字符编码集,如美国的扩展
ASCII 码,中国的 GB2312-80,日本的 JIS
等。作为该国家/区域内信息处理的基础,字符编码集起着统一编码的重要作用。字符编码集按长度分为
SBCS(单字节字符集),DBCS(双字节字符集)两大类。早期的软件(尤其是操作系统),为了解决本地字符信息的计算机处理,出现了各种本地化版本(L10N),为了区分,引进了
LANG, Codepage
等概念。但是由于各个本地字符集代码范围重叠,相互间信息交换困难;
软件各个本地化版本独立维护成本较高。因此有必要将本地化工作中的共性抽取出来,作一致处理,将特别的本地化处理内容降低到最少。这也就是所谓的国际化(118N)。各种语言信息被进一步规范为
Locale 信息。处理的底层字符集变成了几乎包含了所有字形的 Unicode。

字符编码集按长度分为
SBCS(单字节字符集),DBCS(双字节字符集)两大类。早期的软件(尤其是操作系统),为了解决本地字符信息的计算机处理,出现了各种本地化版本(L10N),为了区分,引进了
LANG, Codepage
等概念。但是由于各个本地字符集代码范围重叠,相互间信息交换困难;
软件各个本地化版本独立维护成本较高。因此有必要将本地化工作中的共性抽取出来,作一致处理,将特别的本地化处理内容降低到最少。这也就是所谓的国际化(118N)。各种语言信息被进一步规范为
Locale 信息。处理的底层字符集变成了几乎包含了所有字形的 Unicode。

php页面为utf编码
header(“Content-type: text/html; charset=utf-8″);

  现在大部分具有国际化特征的软件核心字符处理都是以 Unicode
为基础的,在软件运行时根据当时的ocale/Lang/Codepage
设置确定相应的本地字符编码设置,并依此处理本地字符。在处理过程中需要实现
Unicode 和本地字符集的相互转换,甚或以 Unicode
为中间的两个不同本地字符集的相互转换。这种方式在网络环境下被进一步延伸,任何网络两端的字符信息也需要根据字符集的设置转换成可接受的内容。

现在大部分具有国际化特征的软件核心字符处理都是以
Unicode 为基础的,在软件运行时根据当时的ocale/Lang/Codepage
设置确定相应的本地字符编码设置,并依此处理本地字符。在处理过程中需要实现
Unicode 和本地字符集的相互转换,甚或以 Unicode
为中间的两个不同本地字符集的相互转换。这种方式在网络环境下被进一步延伸,任何网络两端的字符信息也需要根据字符集的设置转换成可接受的内容。

php页面为gbk编码
header(“Content-type: text/html; charset=gb2312″);

  数据库中的字符集编码问题

数据库中的字符集编码问题

php页面为big5编码
header(“Content-type: text/html; charset=big5″);

  流行的关系数据库系统都支持数据库字符集编码,也就是说在创建数据库时可以指定它自己的字符集设置,数据库的数据以指定的编码形式存储。当应用程序访问数据时,在入口和出口处都会有字符集编码的转换。对于中文数据,数据库字符编码的设置应当保证数据的完整性。GB2312、GBK、UTF-8
等都是可选的数据库字符集编码; 当然我们也可以选择 ISO8859-1
(8-bit),只是我们得在应用程序写数据之前先将 16Bit 的一个汉字或 Unicode
拆分成两个 8-bit
的字符,读数据之后也需要将两个字节合并起来,同时还要判别其中的 SBCS
字符,因此我们并不推荐采用 ISO8859-1
作为数据库字符集编码。这样不但没有充分利用数据库自身的字符集编码支持,而且同时也增加了编程的复杂度。编程时,可以先用数据库管理系统提供的管理功能检查其中的中文数据是否正确。

流行的关系数据库系统都支持数据库字符集编码,也就是说在创建数据库时可以指定它自己的字符集设置,数据库的数据以指定的编码形式存储。当应用程序访问数据时,在入口和出口处都会有字符集编码的转换。对于中文数据,数据库字符编码的设置应当保证数据的完整性。GB2312、GBK、UTF-8
等都是可选的数据库字符集编码; 当然我们也可以选择 ISO8859-1
(8-bit),只是我们得在应用程序写数据之前先将 16Bit 的一个汉字或 Unicode
拆分成两个 8-bit
的字符,读数据之后也需要将两个字节合并起来,同时还要判别其中的 SBCS
字符,因此我们并不推荐采用 ISO8859-1
作为数据库字符集编码。这样不但没有充分利用数据库自身的字符集编码支持,而且同时也增加了编程的复杂度。编程时,可以先用数据库管理系统提供的管理功能检查其中的中文数据是否正确。

通常情况以上代码放在php页面的首页

  PHP 程序在查询数据库之前,首先执行 mysql_query(“SET NAMES xxxx”);
其中 xxxx 是你网页的编码(charset=xxxx),如果网页中 charset=utf8,则
xxxx=utf8,如果网页中 charset=gb2312,则xxxx=gb2312,几乎所有 WEB
程序,都有一段连接数据库的公共代码,放在一个文件里,在这文件里,加入
mysql_query(“SET NAMES xxxx”) 就可以了。

PHP 程序在查询数据库之前,首先执行 mysql_query(“SET NAMES xxxx”); 其中
xxxx 是你网页的编码(charset=xxxx),如果网页中 charset=utf8,则
xxxx=utf8,如果网页中 charset=gb2312,则xxxx=gb2312,几乎所有 WEB
程序,都有一段连接数据库的公共代码,放在一个文件里,在这文件里,加入
mysql_query(“SET NAMES xxxx”) 就可以了。

用header或meta实现PHP页面编码的区别

一、页面编码

1. 使用 <META http-equiv=”content-type” content=”text/html;
charset=xxx”> 标签设置页面编码

这个标签的作用是声明客户端的浏览器用什么字符集编码显示该页面,xxx可以为GB2312,GBK,UTF-8(和MySQL不同,MySQL是
UTF8)等等。因此,大部分页面可以采用这种方式来告诉浏览器显示这个页面的时候采用什么编码,这样才不会造成编码错误而产生乱码。但是有的时候我们会
发现有了这句还是不行,不管xxx是哪一种,浏览器采用的始终都是一种编码,这个情况我后面会谈到。

请注意,<meta>是属于html信息的,仅仅是一个声明,它起作用表明服务器已经把HTML信息传到了浏览器。

2. header(“content-type:text/html; charset=xxx”);

这个函数header()的作用是把括号里面的信息发到http标头。

如果括号里面的内容为文中所说那样,那作用和<META>标签基本相同,大家对照第一个看发现字符都差不多的。但是不同的是如果有这段
函数,浏览器就会永远采用你所要求的xxx编码,绝对不会不听话,因此这个函数是很有用的。为什么会这样呢?那就得说说HTTPS标头和HTML信息的差
别了:

https标头是服务器以HTTP协议传送HTML信息到浏览器前所送出的字串。

因为meta标签是属于html信息的,所以header()发送的内容先到达浏览器,通俗点就是header()的优先级高于meta(不知道可
不可以这样讲)。加入一个php页面既有header(“content-type:text/html;
charset=xxx”),又有<META http-equiv=”content-type”
content=”text/html;
charset=xxx”>,浏览器就只认前者http标头而不认meta了。当然这个函数只能在php页面内使用。

同样也留有一个问题,为什么前者就绝对起作用,而后者有时候就不行呢?这就是接下来要谈的Apache的原因了。

3. AddDefaultCharset

Apache 根目录的 conf 文件夹里,有整个Apache的配置文档httpd.conf。

用文本编辑器打开httpd.conf,第708行(不同版本可能不同)有AddDefaultCharset
xxx,xxx为编码名称。这行代码的意思:设置整个服务器内的网页文件https标头里的字符集为你默认的xxx字符集。有这行,就相当于给每个文件都
加了一行header(“content-type:text/html;
charset=xxx”)。这下就明白为什么明明meta设置了是utf-8,可浏览器始终采用gb2312的原因。

如果网页里有header(“content-type:text/html;
charset=xxx”),就把默认的字符集改为你设置的字符集,所以这个函数永远有用。如果把AddDefaultCharset
xxx前面加个“#”,注释掉这句,而且页面里不含header(“content-type…”),那这个时候就轮到meta标签起作用了。

总结:

来个排序

header(“content-type:text/html; charset=xxx”)
AddDefaultCharset xxx
<META http-equiv=”content-type” content=”text/html;
charset=xxx”>
如果你是web程序员,给你的每个页面都加个header(“content-type:text/html;
charset=xxx”),保证它在任何服务器都能正确显示,可移植性强。

至于那句AddDefaultCharset
xxx,要不要注释就仁者见仁了。反正我是注释掉了,不过我写页子也要写header(),便于放到服务器上能正常显示。

  SET NAMES 显示客户端发送的 SQL 语句中使用什么字符集。因此,SET NAMES
‘utf-8’ 语句告诉服务器”将来从这个客户端传来的信息采用字符集
utf-8″。它还为服务器发送回客户端的结果指定了字符集(例如,如果你使用一个
SELECT 语句,它表示列值使用了什么字符集)。

SET NAMES 显示客户端发送的 SQL 语句中使用什么字符集。因此,SET NAMES
‘utf-8’ 语句告诉服务器”将来从这个客户端传来的信息采用字符集
utf-8″。它还为服务器发送回客户端的结果指定了字符集(例如,如果你使用一个
SELECT 语句,它表示列值使用了什么字符集)。

二、数据库编码

PHP 程序在查询数据库之前,首先执行 mysql_query(“SET NAMES xxxx”);其中
xxxx 是你网页的编码(charset=xxxx),如果网页中 charset=utf8,则
xxxx=utf8,如果网页中
charset=gb2312,则xxxx=gb2312,几乎所有WEB程序,都有一段连接数据库的公共代码,放在一个文件里,在这文件里,加入
mysql_query(“set names”)就可以了。

SET NAMES 显示客户端发送的 SQL 语句中使用什么字符集。因此,SET NAMES
‘utf-8′语句告诉服务器“将来从这个客户端传来的信息采用字符集utf-8”。它还为服务器发送回客户端的结果指定了字符集。(例如,如果你使用一
个SELECT语句,它表示列值使用了什么字符集。)

PHP页面编码统一

MySQL数据库编码、html页面编码、PHP或html文件本身编码要全部一致。
1、MySQL数据库编码:建立数据库时指定编码(如gbk_chinese_ci),建立数据表、建立字段、插入数据时不要指定编码,会自动继承数据库的编码。
数据库连接时,也有编码,可以在连接完数据库后,执行
mysql_query(‘SET NAMES gbk’);//将gbk换成你的编码,如utf8。

2、html页面的编码,指的是这一行的设置:
<meta http-equiv=”Content-Type” content=”text/html; charset=gbk”
/>

3、PHP或html文件本身的编码:用editplus打开php文件或html文件,另存时,选择的编码,如果数据库和页面编码是gbk,则这儿的编码选择ansi;如果数据库和页面编码是utf-8,则这儿也选择utf-8。

4、另外要注意的是,Javascript或Flash中传递的数据是utf-8编码,如果数据库和页面编码是gbk,要进行转码,然后写入数据库。
iconv(‘utf-8′, ‘gbk’, $content);

5、在PHP程序中,可以加上一行,来指定PHP源程序的编码:
header(‘Content-type: text/html; charset=gbk’);

  定位问题时常用的技巧

定位问题时常用的技巧

  定位中文编码问题通常采用最笨的也是最有效的办法―在你认为有嫌疑的程序处理后打印字符串的内码。通过打印字符串的内码,你可以发现什么时候中文字符被转换成
Unicode,什么时候Unicode 被转回中文内码,什么时候一个中文字成了两个
Unicode
字符,什么时候中文字符串被转成了一串问号,什么时候中文字符串的高位被截掉了……

定位中文编码问题通常采用最笨的也是最有效的办法?在你认为有嫌疑的程序处理后打印字符串的内码。通过打印字符串的内码,你可以发现什么时候中文字符被转换成
Unicode,什么时候Unicode 被转回中文内码,什么时候一个中文字成了两个
Unicode
字符,什么时候中文字符串被转成了一串问号,什么时候中文字符串的高位被截掉了……

  取用合适的样本字符串也有助于区分问题的类型。如:”aa啊 aa?@aa”
等中英相间,GB、GBK特征字符均有的字符串。一般来说,英文字符无论怎么转换或处理,都不会失真(如果遇到了,可以尝试着增加连续的英文字母长度)。

取用合适的样本字符串也有助于区分问题的类型。如:”aa啊 aa?@aa”
等中英相间,GB、GBK特征字符均有的字符串。一般来说,英文字符无论怎么转换或处理,都不会失真(如果遇到了,可以尝试着增加连续的英文字母长度)。

  解决各种应用的乱码问题

解决各种应用的乱码问题

  1) 使用标签设置页面编码

1) 使用标签设置页面编码

  这个标签的作用是声明客户端的浏览器用什么字符集编码显示该页面,xxx
可以为 GB2312、GBK、UTF-8(和 MySQL 不同,MySQL 是
UTF8)等等。因此,大部分页面可以采用这种方式来告诉浏览器显示这个页面的时候采用什么编码,这样才不会造成编码错误而产生乱码。但是有的时候我们会发现有了这句还是不行,不管
xxx 是哪一种,浏览器采用的始终都是一种编码,这个情况我后面会谈到。

这个标签的作用是声明客户端的浏览器用什么字符集编码显示该页面,xxx 可以为
GB2312、GBK、UTF-8(和 MySQL 不同,MySQL 是
UTF8)等等。因此,大部分页面可以采用这种方式来告诉浏览器显示这个页面的时候采用什么编码,这样才不会造成编码错误而产生乱码。但是有的时候我们会发现有了这句还是不行,不管
xxx 是哪一种,浏览器采用的始终都是一种编码,这个情况我后面会谈到。

  请注意, 是属于 HTML 信息的,仅仅是一个声明,仅表明服务器已经把 HTML
信息传到了浏览器。

请注意, 是属于 HTML 信息的,仅仅是一个声明,仅表明服务器已经把 HTML
信息传到了浏览器。

  2) header(“content-type:text/html; charset=xxx”);

2) header(“content-type:text/html; charset=xxx”);

  这个函数 header() 的作用是把括号里面的信息发到 http
标头。如果括号里面的内容为文中所说那样,那作用和
标签基本相同,大家对照第一个看发现字符都差不多的。但是不同的是如果有这段函数,浏览器就会永远采用你所要求的
xxx
编码,绝对不会不听话,因此这个函数是很有用的。为什么会这样呢?那就得说说
http 标头和 HTML信息的差别了:

这个函数 header() 的作用是把括号里面的信息发到 http
标头。如果括号里面的内容为文中所说那样,那作用和
标签基本相同,大家对照第一个看发现字符都差不多的。但是不同的是如果有这段函数,浏览器就会永远采用你所要求的
xxx
编码,绝对不会不听话,因此这个函数是很有用的。为什么会这样呢?那就得说说
http 标头和 HTML信息的差别了:

  http 标头是服务器以 http 协议传送 HTML
信息到浏览器前所送出的字串。而 标签是属于 HTML 信息的,所以 header()
发送的内容先到达浏览器,通俗点就是 header() 的优先级高于
(不知道可不可以这样讲)。假如一个PHP页面既有header(“content-type:text/html;
charset=xxx”),又有,浏览器就只认前者 http 标头而不认 meta
了。当然这个函数只能在PHP页面内使用。

http 标头是服务器以 http 协议传送 HTML 信息到浏览器前所送出的字串。而
标签是属于 HTML 信息的,所以 header() 发送的内容先到达浏览器,通俗点就是
header() 的优先级高于
(不知道可不可以这样讲)。假如一个PHP页面既有header(“content-type:text/html;
charset=xxx”),又有,浏览器就只认前者 http 标头而不认 meta
了。当然这个函数只能在PHP页面内使用。

  同样也留有一个问题,为什么前者就绝对起作用,而后者有时候就不行呢?这就是接下来要谈的Apache
的原因了。

同样也留有一个问题,为什么前者就绝对起作用,而后者有时候就不行呢?这就是接下来要谈的Apache
的原因了。

  3) AddDefaultCharset

3) AddDefaultCharset

  Apache 根目录的 conf 文件夹里,有整个 Apache 的配置文档 httpd.conf。

Apache 根目录的 conf 文件夹里,有整个 Apache 的配置文档 httpd.conf。

  用文本编辑器打开 httpd.conf,第 708 行(不同版本可能不同)有
AddDefaultCharset
xxx,xxx为编码名称。这行代码的意思:设置整个服务器内的网页文件 http
标头里的字符集为你默认的 xxx字符集。有这行,就相当于给每个文件都加了一行
header(“content-type:text/html; charset=xxx”)。这下就明白为什么明明
设置了是 utf-8,可浏览器始终采用 gb2312 的原因。

用文本编辑器打开 httpd.conf,第 708 行(不同版本可能不同)有
AddDefaultCharset
xxx,xxx为编码名称。这行代码的意思:设置整个服务器内的网页文件 http
标头里的字符集为你默认的 xxx字符集。有这行,就相当于给每个文件都加了一行
header(“content-type:text/html; charset=xxx”)。这下就明白为什么明明
设置了是 utf-8,可浏览器始终采用 gb2312 的原因。

  如果网页里有 header(“content-type:text/html;
charset=xxx”),就把默认的字符集改为你设置的字符集,所以这个函数永远有用。如果把
AddDefaultCharset xxx 前面加个”#”,注释掉这句,而且页面里不含
header(“content-type…”),那这个时候就轮到 meta 标签起作用了。

如果网页里有 header(“content-type:text/html;
charset=xxx”),就把默认的字符集改为你设置的字符集,所以这个函数永远有用。如果把
AddDefaultCharset xxx 前面加个”#”,注释掉这句,而且页面里不含
header(“content-type…”),那这个时候就轮到 meta 标签起作用了。

  下面列出以上的优先顺序:

下面列出以上的优先顺序:

  .. header(“content-type:text/html; charset=xxx”)

.. header(“content-type:text/html; charset=xxx”)

  .. AddDefaultCharset xxx

.. AddDefaultCharset xxx

  ..

..

  如果你是 web
程序员,建议给你的每个页面都加个header(“content-type:text/html;
charset=xxx”),这样就可以保证它在任何服务器都能正确显示,可移植性也比较强。

如果你是 web
程序员,建议给你的每个页面都加个header(“content-type:text/html;
charset=xxx”),这样就可以保证它在任何服务器都能正确显示,可移植性也比较强。

  4)PHP.ini 中的 default_charset 配置:

4)PHP.ini 中的 default_charset 配置:

  php.ini 中的 default_charset = “gb2312”
定义了PHP的默认语言字符集。一般推荐注释掉此行,让浏览器根据网页头中的
charset
来自动选择语言而非做一个强制性的规定,这样就可以在同台服务器上提供多种语言的网页服务。

php.ini 中的 default_charset = “gb2312”
定义了PHP的默认语言字符集。一般推荐注释掉此行,让浏览器根据网页头中的
charset
来自动选择语言而非做一个强制性的规定,这样就可以在同台服务器上提供多种语言的网页服务。

  结束语

结束语

  其实PHP开发中的中文编码并没有想像的那么复杂,虽然定位和解决问题没有定规,各种运行环境也各不尽然,但后面的原理是一样的。了解字符集的知识是解决字符问题的基础。不过,随着中文字符集的变化,不仅仅是PHP编程,中文信息处理中的问题还是会存在一段时间的。

其实PHP开发中的中文编码并没有想像的那么复杂,虽然定位和解决问题没有定规,各种运行环境也各不尽然,但后面的原理是一样的。了解字符集的知识是解决字符问题的基础。不过,随着中文字符集的变化,不仅仅是PHP编程,中文信息处理中的问题还是会存在一段时间的。

发表评论

电子邮件地址不会被公开。 必填项已用*标注