为了正常的体验网站,请在浏览器设置里面开启Javascript功能!

中文字符集gbk和gb2312有何异同

2017-12-28 4页 doc 16KB 19阅读

用户头像

is_215732

暂无简介

举报
中文字符集gbk和gb2312有何异同中文字符集gbk和gb2312有何异同 中文字符集gbk和gb2312有何异 同 中文字符集gbk和gb2312有何异同?2010年06月03日星期四09:57最近发现一个问题,mysql的表编码是gb2312,在录入"喆"这样的汉字时出现错误,把表及字段编码改为gbk编码后,就不会出现错误了。现在把gb2312和gbk编码做一下说明,以下内容是从互联网搜索到的。 GBK是又一个汉字编码标准,全称《汉字内码扩展规范》(GBK),英文名称Chinese Internal Code Specification,中华人民共和国...
中文字符集gbk和gb2312有何异同
中文字符集gbk和gb2312有何异同 中文字符集gbk和gb2312有何异 同 中文字符集gbk和gb2312有何异同?2010年06月03日星期四09:57最近发现一个问题,mysql的表编码是gb2312,在录入"喆"这样的汉字时出现错误,把表及字段编码改为gbk编码后,就不会出现错误了。现在把gb2312和gbk编码做一下说明,以下是从互联网搜索到的。 GBK是又一个汉字编码标准,全称《汉字内码扩展规范》(GBK),英文名称Chinese Internal Code Specification,中华人民共和国全国信息技术标准化技术委员会1995年12月1日制订,国家技术监督局标准化司、电子工业部科技与质量监督司1995年12月15日联合以技监标函[1995]229号文件的形式,将它确定为技术规范指导性文件,发布和实施。这一版的GBK规范为1.0版。GB即"国标",K是"扩展"的汉语拼音第一个字母。GBK向下与GB 2312编码兼容,向上支持ISO 10646.1国际标准,是前者向后者过渡过程中的一个承上启下的标准。ISO 10646是国际标准化组织ISO公布的一个编码标准,即Universal Multilpe-Octet Coded Character Set(简称UCS),大陆译为《通用多八位编码字符集》,台湾译为《广用多八位编码字符集》,它与Unicode组织的Unicode编码完全兼容。ISO 10646.1是该标准的第一部分《体系结构与基本多文种平面》。我国1993年以GB 13000.1国家标准的形式予以认可(即GB 13000.1等同于ISO 10646.1)。ISO 10646是一个包括世界上各种语言的面形式以及附加符号的编码体系。其中的汉字部分称为"CJK统一汉字"(C指中国,J指日本,K指朝鲜)。而其中的中国部分,包括了源自中国大陆的GB 2312、GB 12345、《现代汉语通用字表》等法定标准的汉字和符号,以及源自台湾的CNS 11643标准中第1、2字面(基本等同于BIG-5编码)、第14字面的汉字和符号。(一)、字汇GBK规范收录了ISO 10646.1中的全部CJK汉字和符号,并有所补充。具体包括:1.GB 2312中的全部汉字、非汉字符号。2.GB 13000.1中的其它CJK汉字。以上合计20902个GB化汉字。3.《简化字总表》中未收入GB 13000.1的52个汉字。4.《康熙字典》及《辞海》中未收入GB 13000.1的28个部首及重要构件。5.13个汉字结构符。6.BIG-5中未被GB 2312收入、但存在于GB 13000.1中的139个图形符号。7.GB 12345增补的6 个拼音符号。8.汉字"?"。9.GB 12345增补的19个竖排标点符号(GB 12345较GB 2312增补竖排标点符号29个,其中10个未被GB 13000.1收入,故GBK亦不收)。10.从GB 13000.1的CJK兼容区挑选出的21个汉字。11.GB 13000.1收入的31个IBM OS/2专用符号。(二)、码位分配及顺序GBK亦采用双字节表示,总体编码范围为8140-FEFE,首字节在81-FE之间,尾字节在40-FE之间,剔除xx7F一条线。总计23940个码位,共收入21886个汉字和图形符号,其中汉字(包括部首和构件)21003个,图形符号883个。全部编码分为三大部分:1.汉字区。包括:a.GB 2312汉字区。即GBK/2:B0A1-F7FE。收录GB 2312汉字6763个,按原顺序排列。b.GB 13000.1扩充汉字区。包括:(1)GBK/3:8140-A0FE。收录GB 13000.1中的CJK汉字6080个。(2)GBK/4:AA40-FEA0。收录CJK汉字和增补的汉字8160个。CJK汉字在前,按UCS代码大小排列;增补的 包括部首和构件)在后,按《康熙字典》的页码/字位排列。2.图形符号区。汉字( 包括:a.GB 2312非汉字符号区。即GBK/1:A1A1-A9FE。其中除GB 2312的符号外,还有10个小写罗马数字和GB 12345增补的符号。计符号717个。b.GB 13000.1扩充非汉字区。即GBK/5:A840-A9A0。BIG-5非汉字符号、结构符和"?"排列在此区。计符号166个。3.用户自定义区(使用者加字区):分为(1)(2)(3)三个小区。(1)AAA1-AFFE,码位564个。(2)F8A1-FEFE,码位658个。(3)A140-A7A0,码位672个。第(3)区尽管对用户开放,但限制使用,因为不排除未来在此区域增补新字符的可能性。(三)、字形GBK对字形作了如下的规定:1.原则上与GB 13000.1 G列(即源自中国大陆法定标准的汉字)下的字形/笔形保持一致。2.在CJK汉字认同规则的总框架内,对所有的GBK编码汉字实施"无重码正形"("GB化");即在不造成重码的前提下,尽量采用中国新字形。3.对于超出CJK汉字认同规则的、或认同规则尚未明确规定的汉字,在GBK码位上暂安放旧字形。这样,在许多情况下GBK收入了同一汉字的新旧两种字形。4.非汉字符号的字形,凡GB 2312已经包括的,与GB 2312保持一致;超出GB 2312的部分,与GB 13000.1保持一致。5.带声调的拼音字母取半型形式。GB 2312码是中华人民共和国国家标准汉字信息交换用编码,全称《信息交换用汉字编码字符集基本集》,标准号为GB 2312-80(GB是"国标"二字的汉语拼音缩写),由中华人民共和国国家标准总局发布,1981年5月1日实施。习惯上称国标码、GB码,或区位码。它是一个简化字汉字的编码,通行于中国大陆地区。新加坡等地也使用这一编码。GB 2312-80收录简化汉字及一般符号、序号、数字、拉丁字母、日文假名、希腊字母、俄文字母、汉语拼音符号、汉语注音字 母,共7445个图形字符。其中汉字以外的图形字符682个,汉字6763个。GB 2312-80规定,"对任意一个图形字符都采用两个字节(Byte)表示。每个字节均采用GB 1988-80及GB 2311-80中的七位编码表示。两个字节中前面的字节为第一字节,后面的字节为第二字节。"习惯上称第一字节为"高字节",第二字节为"低字节"。GB 2312-80将代码表分为94个区(Section),对应第一字节;每个区94个位(Position),对应第二字节。两个字节的值,分别为区号值和位号值各加32(20H)。GB 2312-80规定,01~09区(原规定为1~9区,为表示区位码方便起见,今改称01~09区)为符号、数字区,16~87区为汉字区。而10~15区、88~94区是有待于"进一步标准化"的"空白位置"区域。但第10区推荐与第3区的94个图形字符(即GB 1988-80中的94个图形字符)相同,字形宽度为其宽度的一半。GB 2312-80把收录的汉字分成两级。第一级汉字是常用汉字,计3755个,置于16~55区,按汉语拼音字母/笔形顺序排列;第二级汉字是次常用汉字, 笔画顺序排列。字音以普通话审音委员会计3008个,置于56~87区,按部首/ 发表的《普通话异读词三次审音总表初稿》(1963年出版)为准,字形以中华人民共和国文化部、中国文字改革委员会公布的《印刷通用汉字字形表》(1964年出版)为准。
/
本文档为【中文字符集gbk和gb2312有何异同】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。 本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。 网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。

历史搜索

    清空历史搜索