gb2312 -> UTF-8 的函数

Tony · 2004-12-09, 07:56 PM

以下是一段gb2312 -> UTF-8 的函数，西西，我抄了
unicode -> UTF-8 的算法，所以实际比GB2312->unicode
没多多少东西,请大家注意调用gb2utf8()时不能中英文混用

程序需要的GB2312.txt文件

gb2utf8.php
<?

//Program writen by sadly www.phpx.com

function gb2utf8($gb)
{
if(!trim($gb))
return $gb;
$filename="gb2312.txt";
$tmp=file($filename);
$codetable=array();
while(list($key,$value)=each($tmp))
$codetable[hexdec(substr($value,0,6))]=substr($value,7,6);

$utf8="";
while($gb)
{
if (ord(substr($gb,0,1))>127)
{
$this=substr($gb,0,2);
$gb=substr($gb,2,strlen($gb));
$utf8.=u2utf8(hexdec($codetable[hexdec(bin2hex($this))-0x8080]));
}
else
{
$gb=substr($gb,1,strlen($gb));
$utf8.=u2utf8(substr($gb,0,1));
}
}

$ret="";
for($i=0;$i<strlen($utf8);$i+=3)
$ret.=chr(substr($utf8,$i,3));

return $ret;
}

function u2utf8($c)
{
for($i=0;$i<count($c);$i++)
$str="";
if ($c < 0x80) {
$str.=$c;
}
else if ($c < 0x800) {
$str.=(0xC0 | $c>>6);
$str.=(0x80 | $c & 0x3F);
}
else if ($c < 0x10000) {
$str.=(0xE0 | $c>>12);
$str.=(0x80 | $c>>6 & 0x3F);
$str.=(0x80 | $c & 0x3F);
}
else if ($c < 0x200000) {
$str.=(0xF0 | $c>>18);
$str.=(0x80 | $c>>12 & 0x3F);
$str.=(0x80 | $c>>6 & 0x3F);
$str.=(0x80 | $c & 0x3F);
}
return $str;
}
?>

调用举例:通过GD输出 "中国" 两个汉字
example.php

<?
//Header("Content-type: image/gif");
$im = imagecreate(400,300);
$bkg = ImageColorAllocate($im, 0,0,0);
$clr = ImageColorAllocate($im, 255,255,255);
$fnt = "d:/winnt/fonts/simhei.ttf";
include("gb2utf8.php");
$str = gb2utf8("中国");
ImageTTFText($im, 20, 0, 10, 20, $clr, $fnt, $str);
ImageGif($im);
ImageDestroy($im);
?>

Tony · 2004-12-09, 08:00 PM

很早以前找到一个把GB码转化为UTF-8的函数，配合一个GB到UNICODE的对照表（gb2312.txt），用于在GD中输出汉字。后来发现在欲输出的内容中含有西文字符时，会出现混乱。后来找到了修改后的代码，解决了问题。现将两个函数做一对比分析如下。

首先，这是一个UNICODE到UTF-8编码转换的函数，这一部分修改前后没有变化：
function u2utf8($c)
{
for($i=0;$i<count($c);$i++)
$str="";
if ($c < 0x80) {
$str.=$c;
}
else if ($c < 0x800) {
$str.=(0xC0 | $c>>6);
$str.=(0x80 | $c & 0x3F);
}
else if ($c < 0x10000) {
$str.=(0xE0 | $c>>12);
$str.=(0x80 | $c>>6 & 0x3F);
$str.=(0x80 | $c & 0x3F);
}
else if ($c < 0x200000) {
$str.=(0xF0 | $c>>18);
$str.=(0x80 | $c>>12 & 0x3F);
$str.=(0x80 | $c>>6 & 0x3F);
$str.=(0x80 | $c & 0x3F);
}
return $str;
}

这里完全是按照UTF-8编码的规则，通过判断字符属于不同的UNICODE编码段范围，进行不同的移位和位与操作，以转化为UTF-8编码。关于该规则可参考http://www.utf8.org/上的说明。

这是修改前的GB转化为UTF-8编码的函数，其中调用了上面的u2utf8函数。
function gb2utf8($gb) /* Program writen by sadly www.phpx.com */
{
if(!trim($gb))
return $gb;
$filename="gb2312.txt";
$tmp=file($filename);
$codetable=array();
while(list($key,$value)=each($tmp))
$codetable[hexdec(substr($value,0,6))]=substr($value,7,6);
$utf8="";
while($gb)
{
if (ord(substr($gb,0,1))>127)
{
$this=substr($gb,0,2);
$gb=substr($gb,2,strlen($gb));
$utf8.=u2utf8(hexdec($codetable[hexdec(bin2hex($this))-0x8080]));
}
else
{
$gb=substr($gb,1,strlen($gb));
$utf8.=u2utf8(substr($gb,0,1));
}
}

$ret="";
for($i=0;$i<strlen($utf8);$i+=3)
$ret.=chr(substr($utf8,$i,3));

return $ret;
}
函数中while循环部分，把汉字逐个按照“对照表”转化为UNICODE，再通过u2utf8函数转化为UTF-8。但从中可以看出，while循环结束后，又用一个for循环，把每三个字节合成了一个UTF-8字符（见http://www.utf8.org/上的规则说明，每个汉字的UTF-8编码为三字节），没有考虑到其中的西文字符（西文字符的UTF-8编码为一字节）。所以，如果欲输出的内容中不论是开始时出现西文字符，或是汉字当中穿插西文字符，转化为UTF-8后，都会被按照“每三个字节截取”的方式截开，导致乱码。

以下是修改后的函数：
function gb2utf8($gb) /* Program writen by sadly modified by agun */
{
if(!trim($gb))
return $gb;
$filename="gb2312.txt";
$tmp=file($filename);
$codetable=array();
while(list($key,$value)=each($tmp))
$codetable[hexdec(substr($value,0,6))]=substr($value,7,6);

$ret="";
$utf8="";
while($gb)
{
if (ord(substr($gb,0,1))>127)
{
$this=substr($gb,0,2);
$gb=substr($gb,2,strlen($gb));
$utf8=u2utf8(hexdec($codetable[hexdec(bin2hex($this))-0x8080]));
for($i=0;$i<strlen($utf8);$i+=3)
$ret.=chr(substr($utf8,$i,3));
}
else
{
$ret.=substr($gb,0,1);
$gb=substr($gb,1,strlen($gb));
}
}
return $ret;
}

修改后的函数将 GB转化为UNICODE、UNICODE转化为UTF-8、几个字节合成一个UTF-8字符，这三个步骤在一个循环里完成，尤其是几个字节合成一个UTF-8字符这一步骤，放在判断了字符属于西文还是属于汉字的条件分支里，据此决定截取一个字节还是三个字节。于是结果正确了！

2004-12-09, 07:56 PM	#1
No1 Tony 坛主注册日期: 2003-10-22 帖子: 11,053 积分:6 精华:24 现金:14348金币资产:29325305金币	gb2312 -> UTF-8 的函数以下是一段gb2312 -> UTF-8 的函数，西西，我抄了 unicode -> UTF-8 的算法，所以实际比GB2312->unicode 没多多少东西,请大家注意调用gb2utf8()时不能中英文混用程序需要的GB2312.txt文件 gb2utf8.php <? //Program writen by sadly www.phpx.com function gb2utf8($gb) { if(!trim($gb)) return $gb; $filename="gb2312.txt"; $tmp=file($filename); $codetable=array(); while(list($key,$value)=each($tmp)) $codetable[hexdec(substr($value,0,6))]=substr($value,7,6); $utf8=""; while($gb) { if (ord(substr($gb,0,1))>127) { $this=substr($gb,0,2); $gb=substr($gb,2,strlen($gb)); $utf8.=u2utf8(hexdec($codetable[hexdec(bin2hex($this))-0x8080])); } else { $gb=substr($gb,1,strlen($gb)); $utf8.=u2utf8(substr($gb,0,1)); } } $ret=""; for($i=0;$i<strlen($utf8);$i+=3) $ret.=chr(substr($utf8,$i,3)); return $ret; } function u2utf8($c) { for($i=0;$i<count($c);$i++) $str=""; if ($c < 0x80) { $str.=$c; } else if ($c < 0x800) { $str.=(0xC0 \| $c>>6); $str.=(0x80 \| $c & 0x3F); } else if ($c < 0x10000) { $str.=(0xE0 \| $c>>12); $str.=(0x80 \| $c>>6 & 0x3F); $str.=(0x80 \| $c & 0x3F); } else if ($c < 0x200000) { $str.=(0xF0 \| $c>>18); $str.=(0x80 \| $c>>12 & 0x3F); $str.=(0x80 \| $c>>6 & 0x3F); $str.=(0x80 \| $c & 0x3F); } return $str; } ?> 调用举例:通过GD输出 "中国" 两个汉字 example.php <? //Header("Content-type: image/gif"); $im = imagecreate(400,300); $bkg = ImageColorAllocate($im, 0,0,0); $clr = ImageColorAllocate($im, 255,255,255); $fnt = "d:/winnt/fonts/simhei.ttf"; include("gb2utf8.php"); $str = gb2utf8("中国"); ImageTTFText($im, 20, 0, 10, 20, $clr, $fnt, $str); ImageGif($im); ImageDestroy($im); ?>

2004-12-09, 08:00 PM	#2
No1 Tony 坛主注册日期: 2003-10-22 帖子: 11,053 积分:6 精华:24 现金:14348金币资产:29325305金币声望: 395	回复: gb2312 -> UTF-8 的函数很早以前找到一个把GB码转化为UTF-8的函数，配合一个GB到UNICODE的对照表（gb2312.txt），用于在GD中输出汉字。后来发现在欲输出的内容中含有西文字符时，会出现混乱。后来找到了修改后的代码，解决了问题。现将两个函数做一对比分析如下。首先，这是一个UNICODE到UTF-8编码转换的函数，这一部分修改前后没有变化： function u2utf8($c) { for($i=0;$i<count($c);$i++) $str=""; if ($c < 0x80) { $str.=$c; } else if ($c < 0x800) { $str.=(0xC0 \| $c>>6); $str.=(0x80 \| $c & 0x3F); } else if ($c < 0x10000) { $str.=(0xE0 \| $c>>12); $str.=(0x80 \| $c>>6 & 0x3F); $str.=(0x80 \| $c & 0x3F); } else if ($c < 0x200000) { $str.=(0xF0 \| $c>>18); $str.=(0x80 \| $c>>12 & 0x3F); $str.=(0x80 \| $c>>6 & 0x3F); $str.=(0x80 \| $c & 0x3F); } return $str; } 这里完全是按照UTF-8编码的规则，通过判断字符属于不同的UNICODE编码段范围，进行不同的移位和位与操作，以转化为UTF-8编码。关于该规则可参考http://www.utf8.org/上的说明。这是修改前的GB转化为UTF-8编码的函数，其中调用了上面的u2utf8函数。 function gb2utf8($gb) /* Program writen by sadly www.phpx.com / { if(!trim($gb)) return $gb; $filename="gb2312.txt"; $tmp=file($filename); $codetable=array(); while(list($key,$value)=each($tmp)) $codetable[hexdec(substr($value,0,6))]=substr($value,7,6); $utf8=""; while($gb) { if (ord(substr($gb,0,1))>127) { $this=substr($gb,0,2); $gb=substr($gb,2,strlen($gb)); $utf8.=u2utf8(hexdec($codetable[hexdec(bin2hex($this))-0x8080])); } else { $gb=substr($gb,1,strlen($gb)); $utf8.=u2utf8(substr($gb,0,1)); } } $ret=""; for($i=0;$i<strlen($utf8);$i+=3) $ret.=chr(substr($utf8,$i,3)); return $ret; } 函数中while循环部分，把汉字逐个按照“对照表”转化为UNICODE，再通过u2utf8函数转化为UTF-8。但从中可以看出，while循环结束后，又用一个for循环，把每三个字节合成了一个UTF-8字符（见http://www.utf8.org/上的规则说明，每个汉字的UTF-8编码为三字节），没有考虑到其中的西文字符（西文字符的UTF-8编码为一字节）。所以，如果欲输出的内容中不论是开始时出现西文字符，或是汉字当中穿插西文字符，转化为UTF-8后，都会被按照“每三个字节截取”的方式截开，导致乱码。以下是修改后的函数： function gb2utf8($gb) / Program writen by sadly modified by agun */ { if(!trim($gb)) return $gb; $filename="gb2312.txt"; $tmp=file($filename); $codetable=array(); while(list($key,$value)=each($tmp)) $codetable[hexdec(substr($value,0,6))]=substr($value,7,6); $ret=""; $utf8=""; while($gb) { if (ord(substr($gb,0,1))>127) { $this=substr($gb,0,2); $gb=substr($gb,2,strlen($gb)); $utf8=u2utf8(hexdec($codetable[hexdec(bin2hex($this))-0x8080])); for($i=0;$i<strlen($utf8);$i+=3) $ret.=chr(substr($utf8,$i,3)); } else { $ret.=substr($gb,0,1); $gb=substr($gb,1,strlen($gb)); } } return $ret; } 修改后的函数将 GB转化为UNICODE、UNICODE转化为UTF-8、几个字节合成一个UTF-8字符，这三个步骤在一个循环里完成，尤其是几个字节合成一个UTF-8字符这一步骤，放在判断了字符属于西文还是属于汉字的条件分支里，据此决定截取一个字节还是三个字节。于是结果正确了！