标题: 与汉字编码相关的东西!, 十六进制编码的汉字
性别:男-离线 z6482

Rank: 1
组别 百姓
级别 在野武将
功绩 0
帖子 24
编号 339479
注册 2009-9-17


发表于 2009-9-23 23:28 资料 短消息 只看该作者
与汉字编码相关的东西!

这些天用FPE或者UE看了一些曹操传相关的文件,发现汉字和它的编码还是有必要整理一下的。我在论坛里还没有找到相关的文章,于是就去别处找了一点关于汉字编码的资料,方便查找。
首先说说编码表:
我找到的是一个excel文档,里面有如下几项:unicode十六进制 、unicode十进制、 gbk十六进制 、gbk十进制 、区位码、 汉字
其实对我们修改曹操传里面的汉字来说只需要gbk十六进制 这一项和对应汉字就行了,但是为了保持资料的完整性我还是把其他的都留了下来,如果大家不需要自己删去不要的就行了。
例如:“一”所对应的上述几项分别为“4e00 、19968 、d2bb、 53947、 5027、 一”我们只需要将d2bb写到相应的位置就会出现汉字“一”了。很简单句不多说了,在excel里只需要ctrl+F查找汉字就可以找到我们要的汉字那一行,然后就可以找到相应的十六进制编码了。
附:关于汉字编码的知识
1、机内码      
国标码:是指我国1981年公布的“中华人民共和国国家标准信息交换汉字编码”,代号为“GB2312-80”。由连续的两个字节组成。

2.机内码:在计算机内表示汉字的代码是汉字机内码,汉字机内码由国标码演化而来,把表示国标码的两个字节的最高位分别加“1”,就变成汉字机内码

3.输入码:汉字输入码是指直接从键盘输入的各种汉字输入方法的编码,属于外码。

4.字型点阵码:用点阵方式来构造汉字字型,然后存储在计算机内,构成汉字字模库。目的是为了能显示和打印汉字。

(1)区位码先转换成十六进制数表示
(2)(区位码的十六进制表示)+2020H=国标码;
(3)国标码+8080H=机内码

汉字的机内码是指在计算机中表示一个汉字的编码。机内码与区位码稍有区别。汉字区位码的区码和位码的取值均在1~94之间,如直接用区位码作为机内码,就会与基本ASCII码混淆。为了避免机内码与基本ASCII码的冲突,需要避开基本ASCII码中的控制码(00H~1FH),还需与基本ASCII码中的字符相区别。为了实现这两点,可以先在区码和位码分别加上20H,在此基础上再加80H(此处“H”表示前两位数字为十六进制数)。经过这些处理,用机内码表示一个汉字需要占两个字节,分别  称为高位字节和低位字节,这两位字节的机内码按如下规则表示:
    高位字节=区码+20H+80H(或区码+A0H)
    低位字节=位码+20H+80H(或位码+AOH)
    由于汉字的区码与位码的取值范围的十六进制数均为01H~5EH(即十进制的01~94),所以汉字的高位字节与低位字节的取值范围则为A1H~FEH(即十进制的161~254)。
    例如,汉字“啊”的区位码为1601,区码和位码分别用十六进制表示即为1001H,它的机内码的高位字节为B0H,低位字节为A1H,机内码就是B0A1H。

   2603 =     1A03H     区位码

                + A0A0H

    =             BAA3H     机内码

汉字的编码知识
信息编码各国有各国不同的编码,国际上统一使用的编码为ASCII(美国标准信息交换代码),我国使用的有国标码BG(中文),和BIG5(中文繁体)两种。

给出相关链接,有兴趣的可以去看原帖http://zhidao.baidu.com/question/33312942.html
按上述说法我们在UE里面看到的应该就是机内码了。



[ 本帖最后由 z6482 于 2009-9-23 03:32 编辑 ]


附件: [汉字编码表] 汉字编码对照表.rar (2009-9-23 23:28, 730.28 K)
该附件被下载次数 402


顶部

正在浏览此帖的会员 - 共 1 人在线




当前时区 GMT+8, 现在时间是 2025-2-8 12:02
京ICP备2023018092号 轩辕春秋 2003-2023 www.xycq.org.cn

Powered by Discuz! 5.0.0 2001-2006 Comsenz Inc.
Processed in 0.010187 second(s), 9 queries , Gzip enabled

清除 Cookies - 联系我们 - 轩辕春秋 - Archiver - WAP