gb2312 和 unicode 之间的编码转换

  • A+
所属分类:PHP编程

gb2312unicode 间的编码转换下面的例子是将 gb2312 转换为 "全"这种形式

gb2312 和 unicode 间的编码转换

下面的例子是将 gb2312 转换为 "全"这种形式

php4.3.1以后的iconv函数很好用的,只是需要自己写一个uft8到unicode的转换函数

查表(gb2312.txt)也行

  1. <?
  2. $text = "脚本之家";
  3. preg_match_all("/[\x80-\xff]?./",$text,$ar);
  4. foreach($ar[0] as $v)
  5. echo "&#".utf8_unicode(iconv("GB2312","UTF-8",$v)).";";
  6. ?>
  7. <?
  8. // utf8 -> unicode 
  9. function utf8_unicode($c) {
  10. switch(strlen($c)) {
  11. case 1:
  12. return ord($c);
  13. case 2:
  14. $n = (ord($c[0]) & 0x3f) << 6;
  15. $n += ord($c[1]) & 0x3f;
  16. return $n;
  17. case 3:
  18. $n = (ord($c[0]) & 0x1f) << 12;
  19. $n += (ord($c[1]) & 0x3f) << 6;
  20. $n += ord($c[2]) & 0x3f;
  21. return $n;
  22. case 4:
  23. $n = (ord($c[0]) & 0x0f) << 18;
  24. $n += (ord($c[1]) & 0x3f) << 12;
  25. $n += (ord($c[2]) & 0x3f) << 6;
  26. $n += ord($c[3]) & 0x3f;
  27. return $n;
  28. }
  29. }
  30. ?>

下面的例子是利用php将"全"这中编码转换为gb2312.

  1. <?php
  2. $str = "TTL全天候自动聚焦";
  3. $str = preg_replace("|&#([0-9]{1,5});|""\".u2utf82gb(\\1).\"", $str);
  4. $str = "\$str=\"$str\";";
  5. eval($str);
  6. echo $str;
  7. function u2utf82gb($c){
  8. $str="";
  9. if ($c < 0x80) {
  10. $str.=$c;
  11. else if ($c < 0x800) {
  12. $str.=chr(0xC0 | $c>>6);
  13. $str.=chr(0x80 | $c & 0x3F);
  14. else if ($c < 0x10000) {
  15. $str.=chr(0xE0 | $c>>12);
  16. $str.=chr(0x80 | $c>>6 & 0x3F);
  17. $str.=chr(0x80 | $c & 0x3F);
  18. else if ($c < 0x200000) {
  19. $str.=chr(0xF0 | $c>>18);
  20. $str.=chr(0x80 | $c>>12 & 0x3F);
  21. $str.=chr(0x80 | $c>>6 & 0x3F);
  22. $str.=chr(0x80 | $c & 0x3F);
  23. }
  24. return iconv('UTF-8', 'GB2312', $str);
  25. }
  26. ?>

或者是

  1. function unescape($str) {
  2. $str = rawurldecode($str);
  3. preg_match_all("/(?:%u.{4})|&#x.{4};|&#\d+;|.+/U",$str,$r);
  4. $ar = $r[0];
  5. print_r($ar);
  6. foreach($ar as $k=>$v) {
  7. if(substr($v,0,2) == "%u")
  8. $ar[$k] = iconv("UCS-2","GB2312",pack("H4",substr($v,-4)));
  9. elseif(substr($v,0,3) == "&#x")
  10. $ar[$k] = iconv("UCS-2","GB2312",pack("H4",substr($v,3,-1)));
  11. elseif(substr($v,0,2) == "&#") {
  12. echo substr($v,2,-1)."<br>";
  13. $ar[$k] = iconv("UCS-2","GB2312",pack("n",substr($v,2,-1)));
  14. }
  15. }
  16. return join("",$ar);
  17. }
  18. $str = "TTL全天候自动聚焦";
  19. echo unescape($str); //out TTL全天候自动聚焦 

利用javascript来转换

  1. <style>
  2. BODY {
  3. FONT-SIZE: 9pt; PADDING-RIGHT: 0px; PADDING-LEFT: 0px; PADDING-BOTTOM: 0px; PADDING-TOP: 0px;
  4. }
  5. input {
  6. FONT-SIZE: 9pt; height: 13pt;
  7. }
  8. </style>
  9. <script language="JavaScript1.2">
  10. /* 
  11. This following code are designed and writen by Windy_sk <seasonx@163.net> 
  12. You can use it freely, but u must held all the copyright items! 
  13. */
  14. function Str2Unicode(str){
  15. var arr = new Array();
  16. for(var i=0;i<str.length;i++){
  17. arr[i]="&#" + str.charCodeAt(i) + ";";
  18. }
  19. return(arr.toString().replace(/,/g,""));
  20. }
  21. function Unicode2oStr(str){
  22. var re=/&#[\da-fA-F]{1,5};/ig;
  23. var arr=str.match(re);
  24. if(arr==null)return("");
  25. for(var i=0;i<arr.length;i++){
  26. arr[i]=String.fromCharCode(arr[i].replace(/[&#;]/g,""));
  27. }
  28. return(arr.toString().replace(/,/g,""))
  29. }
  30. function modi_str(){
  31. if(document.all.text.method.checked){
  32. if(document.all.text.decode.value!=""){
  33. document.all.text.encode.value = Str2Unicode(document.all.text.decode.value);
  34. }else{
  35. document.all.text.decode.value = Unicode2oStr(document.all.text.encode.value);
  36. }
  37. }else{
  38. if(document.all.text.encode.value!=""){
  39. document.all.text.decode.value = Unicode2oStr(document.all.text.encode.value);
  40. }else{
  41. document.all.text.encode.value = Str2Unicode(document.all.text.decode.value);
  42. }
  43. }
  44. }
  45. </script>
  46. <title>Unicode</title>
  47. <form name=text>
  48. 文本原型:<br>
  49. <textarea name="decode" cols="100" rows="10"></textarea>
  50. <br>
  51. 转换代码:<br>
  52. <textarea name="encode" cols="100" rows="10"></textarea>
  53. <br>
  54. <input type="checkbox" name="method" checked> 正向转换
  55. <input type=button onclick="modi_str()" value=" 确 定 ">
  56. <input type=reset value=" 清 空 ">
  57. <input type=button onclick="document.all.text.method.checked?document.all.text.encode.select():document.all.text.decode.select()" value=" 全 选 ">
  58. </form>

下面是一个显示所有全角半角的字体的查看例子

  1. <style>
  2. BODY {
  3. FONT-SIZE: 9pt; PADDING-RIGHT: 0px; PADDING-LEFT: 0px; PADDING-BOTTOM: 0px; PADDING-TOP: 0px;
  4. }
  5. input {
  6. FONT-SIZE: 9pt; height: 13pt;
  7. }
  8. </style>
  9. <script>
  10. function showUni(min,max){
  11. show.document.open();
  12. show.document.writeln("<style>body{font-size:9pt;word-break:break-all;}</style>");
  13. show.document.writeln(min + " - " + max + "<br><br>");
  14. var i=0;
  15. for(i=min;i<=max;i++){
  16. show.document.write("&#" + i + ";");
  17. }
  18. show.document.close();
  19. }
  20. </script>
  21. <input type=button value="半角" onclick=showUni(32,126)>
  22. <input type=button value="全角" onclick=showUni(65281,65374)>
  23. <input type=button value="中文1" onclick=showUni(19968,40869)>
  24. <input type=button value="中文2" onclick=showUni(63744,64045)>
  25. <input type=button value="日文平" onclick=showUni(12353,12435)>
  26. <input type=button value="日文片" onclick=showUni(12449,12534)>
  27. <input type=button value="韩文" onclick=showUni(44032,55203)>
  28. <br>自定义:<input name=min> - <input name=max>
  29. <input type=button value="察看" onclick=showUni(parseInt(document.all.min.value),parseInt(document.all.max.value))>
  30. <br>
  31. <iframe src="about:blank" id=show width=100% height=70% scroll=no></iframe>

下面是一个查表(gb2312),转换gb2312到utf8的例子, 现在有iconv函数,这个已经没有太大的意义了,

  1. <?
  2. function gb2utf8($gb){
  3. if(!trim($gb)) return $gb;
  4. $filename="gb2312.txt";
  5. $tmp=file($filename);
  6. $codetable=array();
  7. while(list($key,$value)=each($tmp))
  8. $codetable[hexdec(substr($value,0,6))]=substr($value,7,6);
  9. $utf8="";
  10. while($gb) {
  11. if (ord(substr($gb,0,1))>127) {
  12. $this=substr($gb,0,2);
  13. $gb=substr($gb,2,strlen($gb)-2);
  14. $utf8.=u2utf8(hexdec($codetable[hexdec(bin2hex($this))-0x8080]));
  15. }else{
  16. $this=substr($gb,0,1);
  17. $gb=substr($gb,1,strlen($gb)-1);
  18. $utf8.=u2utf8($this);
  19. }
  20. }
  21. return $utf8;
  22. }
  23. function u2utf8($c){
  24. $str="";
  25. if ($c < 0x80) {
  26. $str.=$c;
  27. else if ($c < 0x800) {
  28. $str.=chr(0xC0 | $c>>6);
  29. $str.=chr(0x80 | $c & 0x3F);
  30. else if ($c < 0x10000) {
  31. $str.=chr(0xE0 | $c>>12);
  32. $str.=chr(0x80 | $c>>6 & 0x3F);
  33. $str.=chr(0x80 | $c & 0x3F);
  34. else if ($c < 0x200000) {
  35. $str.=chr(0xF0 | $c>>18);
  36. $str.=chr(0x80 | $c>>12 & 0x3F);
  37. $str.=chr(0x80 | $c>>6 & 0x3F);
  38. $str.=chr(0x80 | $c & 0x3F);
  39. }
  40. return $str;
  41. }
  42. ?>