2023年7月18日发(作者:)
第20卷第2期2003年6月晋 中 师 范 高 等 专 科 学 校 学 报Journal of Jinzhong Teachers CollegeVol.20 No.2Jun. 2003浅析汉字编码的标准傅小丽(晋中师范高等专科学校,山西晋中 030600)摘 要:分析汉字编码标准的意义及作用,同时对输入汉字时的一些技巧作简要介绍。关键词:字符编码;标准;国标码中图分类号:H127 文献标识码:B 文章编号:1009-7058(2003)02-0125-02 一、制定汉字编码标准的必要性在计算机中,任何一个字符信息(如英文字母、数字符号、标点符号、汉字等)都是用一个二进制数表示的,而且必须是一一对应的、有序而便于检索的。在一个汉字处理系统中,汉字使用哪些字符,对这些字符如何表示、处理、存储、传输都有相应的编码。如果不同的汉字处理系统,字符集不同,编码方式也不完全相同,那么在一个系统下编辑的文字一般就不能直接在另一个系统中处理。假使能转换,也会因字符集不同使很多字符无法表示,很多文件不能交流。例如:在大陆使用的是简体中文字,而台湾则使用的是繁体中文字,如果使用的系统只能处理其中一种就会出现上述问题。另外,汉字数目繁多,仅常用的就有5000多个,因此不能只用一个键完成汉字的输入。输入汉字时,需使用汉字的输入码,即用几个键位组合来实现汉字的输入。这种输入码只有和某一汉字处理系统中所能表示的汉字对应起来,才能将输入的汉字转换为机器所能表示的汉字,计算机方可进行处理。由此可以看出,同一种汉字输入法,对于使用不同字符集的汉字处理系统,必然导致使用时不能准确输入,或者在同一系统下,对于使用不同字符集的输入法,也会导致使用时不能准确输入。不仅汉字的输入如此,汉字的输出是通过将汉字的机内码转换为汉字的字形码再输出,因此也存在同样的问题。[收稿日期]2002-10-15要解决上述问题,最有效的办法,就是制定统一标准,即制定汉字编码标准。二、常用汉字编码标准(一)GB、GBFT及GB2312-80、GB12345-90GB是/国标0两字汉语拼音的简写,表示汉字内码的国家标准。它是根据国家汉字信息编码交换字符集标准制定的编码方案,分为基本集和辅助集。5信息交换用汉字编码字符集)))基本集6和5信息交换用汉字编码字符集)))辅助集6分别制定于1980年和1990年,相应的国家标准代号为GB2312-80和GB12345-90。GB2312-80中规定了信息交换用的6763个汉字和682个非汉字图形符号的代码。6763个汉字按其使用频度、组词能力及用途大小,分成一级常用汉字3755个和二级常用汉字3008个。GB12345-90标准是为方便简繁体汉字的信息转换与交流,GB码又推出的繁体标准,所以又常称为GBFT(国标繁体)。GB12345-90包含了717个图形符号和6866个汉字。除了新增加的35个图形符号和103个多对一的汉字外,其图形符号均等同于GB2312-80中的图形符号,汉字均是GB2312-80中简化汉字的繁体形式,其内码范围与GB2312-80相同。这是我国最早的汉字编码方案,随着社会的发展该标准所包含的字符已不能满足需求,但后来的[作者简介]傅小丽(1959-)女,山西河津人,晋中师范高等专科学校公共计算机部,副教授。125傅小丽浅析汉字编码的标准新标准中所包含的字符都是在此标准的基础上发展的。五笔字型输入法86版所使用的字符集符合该标准。(二)CJK及GB13000.1C、J、K即中、日、韩文字英文的简称。5CJK统一汉字编码字符集6即国家标准GB13000.1,它的字符集完全等同于国际标准5通用多八位编码字符集(UPS)6[这是国际标准化组织(ISO)1993年正式颁布的一项重要国际标准。该标准汇集全世界已规范的文种文字(包括中国文字)以多八位(octet)形式实施统一编码,形成一个统一字符集,供计算机处理多文种信息使用]。GB13000.1字符集中最重要的且经常采用的是其双字节形式的基本多文种平面。在它的65536个码位空间中,定义了几乎所有国家和地区的语言文字和符号。GB13000.1是GB2312-80、GB12345-90及Big5等字符集的超集。(三)GBK汉字内码扩展规范,简称GBK。其中/GB0是国家标准,/K0是/扩展0一词汉语拼音的第一个字母,是我国于1995年12月颁布的国家标准。该标准基本上采用了原来GB2312-80所有的汉字及码位,在字汇一级支持ISO10646.1及国家标准GB13000.1的全部CJK汉字,其非汉字符号同时涵盖了大部分常用的Big5非汉字符号,总共收录了883个符号、21003个汉字,并提供了1894个造字码位。由于GBK的编码在与GB2312-80的兼容部分采用了完全相同的码序与字样,所以市面上所有合乎GB2312-80的文件、档案及程序都可以在合乎GBK规范的系统上正常运行。目前M-icrosoft简体中文版Windows就是以GBK为内码。又由于GBK同时也涵盖了Unicode所有CJK汉字,所以也可以和Unicode做一一对应。中文Windows98就是以GBK作为字符集的。全拼输入法5.0版也是以该标准为字符集的,同时兼容GB2312的字符集,因此当我们打开全拼输入法设置对话框时,就会看到搜索字符集选项以选择不同的字符集。如果我们用五笔字型输入法86版不能输入一些汉字时,可使用全拼输入法5.0实现。(四)GB18030-2000GB18030-2000编码标准全称为5信息交换用126汉字编码字符集基本集的扩充6,是由信息产业部和国家质量技术监督局在2000年6月17日联合发布的,并作为一项国家标准在2001年9月1日后正式执行。在字汇一级,该标准收录的字符分别以单字节、双字节和四字节编码。单字节部分收录了GB11383的单字节全部128个字符及单字节编码的欧元符号;双字节部分收录了GB13000.1的全部CJK统一汉字字符、CJK兼容区挑出来的21个汉字、GB13000.1中收录而GB2312中未收录的我国台湾地区使用的图形字符139个及其它字符31个、GB2312中的非汉字符号、GB12345的竖排标点符号19个、GB2312未收录的10个小写罗马数字、GB2312未收录的带音调的汉语拼音字母5个及
发布者:admin,转转请注明出处:http://www.yc00.com/web/1689640624a273016.html
评论列表(0条)