2024年5月24日发(作者:)
’
科技经er'q场
。,技术平台
初探
Unicode
编
席春梅
码
(青海师范大学物理系。青海西宁810008)
摘
要:随着信息技术的发展,文字的国际性被进一步强调了,所以使用一个统一的国际编码迫在眉睫,Unlcode编码便应
运而生,它是一种重要的交互和显示的通用字符编码标准。本文主要介绍Unicode字符编码、Unicode编码形式及Unicode
与UTF一8之f.-I的编码转换原理。
关键词:Unicode;编码形式;UTF;编码转换
1
Unicode产生的背景
Transformation
1946年2月14日,在美国宾夕法尼亚大学的莫尔电机学
院,世界上的第一台计算机诞生了。在它诞生之初,编码问题并
不是很重要。因为当时计算机基本上是在英语语系的闰家内使
用,所以编码只要考虑英语二十六个字母就行了。因此美国制定
了使用七位编码ASCII‘码(0—127).这很快就成为了世界性的标
准,也是现在所有字符集的基础,通常被称为基本拉丁字符集。事
实上ASCII码仅仅定义了用于书写美国英语的全部字符,它甚
至缺少一些写英语所必须的符号,如版权符号等。
随着计算机在全球的发展以及在各个行业的普及,编码的
问题已日益重要,原有的ASCII码已经不够用了,于是人们通
过把有符号数一一变为无符号数,使得编码范围从0-127变为
Format,是Unicode代码点(code
point)的实际表示
方式,它也可以认为是一种特殊的外鄙数据编码,但能够与
Unicode代码点做一一对应。现分别介绍这几种编码形式。
3.1UTF一8编码
UTF一8是基于字节的编码,压缩的Unicode编码方式:使用
UTF-8编码的意义在于:与原有的基于ASCII码的应用程序或
运行库形式上兼容。它也因此成为了最重要最主流的unicode
变种。
UTF-8编码方案的特点如下:
①从0到7F之间的码位用相同数值的单字节表示它的
UTF一8值。
②凡是码位大于U+OOTF的字符用一个字节序列表示。其
中每一个字节最高位都是l;字节序列中的第一个字节的值总在
OxC0-OxFD之间,并指明本字符编码有多少个字节,随后的字节
总在Ox90-OxBF之间。
③UCS体系中的所有字符都可被编码,可以编人所有可能
的231个UCS代码。
④u1'F一8字符序列理论最多达到6个字节,对UCS一203MP
平面)字符最多能达到3个字节。
⑤BiB
Endian
ucS-4字节串的排列顺序是预定的。
⑥字节OxFE和OxFF在UTF一8编码中从未用到。
3.2UTF一16编码
UTF—16是Unicode标准默认的编码方式。它把一个字符码
位映射到一个或两个16位整数。它长度相对同定,只要不处理
大于\U20(X)00范围的字符,每个Unicode代码点使用16位即2
字节表尔,超出部分使用两个UTF—16即4字节表示。按照高低
位字节顺序,又分为UTF—16BE,U,rF—16LE(BE指BisEndian,而
LE指LittleEndian)。它采取的方法如下:
0-255,把附加的字符指定给128以上来扩展ASCII码。为此.
ISO组织做r很多工作,它定义了很多基于ASCII的字符集标
准(IS08859一l—IS08859—15),这些字符集都是ASCII码的超
集,扩充部分包含一门或几门可以合并的语言中的字符,而这也
成为了撰写某些多语言文档的瓶颈。
Intemet的出现和发展,使得越来越多的计算机行业意识到
全球市场的重要性,并且努力使自己的产品围际化,使之能很容
易的处理各种语言的信息。如汉语、阿拉伯语等。因此人们需要
一种比以前更灵活,更有效的伞球统一的编码系统。在这种情况
下,Unicode联盟于1988年开始着手开发一个统一的包含世界
上大部分语种的国际通用字符集一Unicode。Unicode.org官方对
Unicode的定义是:Unicode
provides
a
ber
unique
numfor
every
character。可见,Unicode所做的是为每个字符定义了一个相应的
数字表示。
2
Unicode字符编码概述
Unicode(统一码、万国码、单一码)是一种在计算机}使用
的字符编码。它为每种语言中的每个字符设定了统一并且唯一
的二进制编码,以满足跨语言、跨平台进行文本转换、处理的要
求。也就是说,Unicode能够用于世界上各种语言的书面形式以
及附加符号的表示、传输、交换、处理、存储、输入及显示,给每一
个字符一个唯一特定数值。
Unicode标准已经被很多公司采用,例如HP,IBM,Microsoft,
Sun等.而且Unicode是实现ISO/IEC10646的正规方式。许多操
作系统,所有最新的浏览器和许多其他产品都支持它。Unicode
标准的出现和支持它的工具的存在,是近来全球软件技术最重
要的发展趋势。到了现在,Unicode标准已经不单是一个编码标
准,还是记录人类语言文字资料的一个巨大的数据库,同时从事
人类文化遗产的发掘和保护工作。
3
Unicode编码形式
Unieode标准定义的字符可采用不同的编码形式,按其基本
长度所用位分为UTF一8/16/32。UTF表示Unicode(orUCS)
①在BMP内的字符(码位值从O到FFFF之间的字符)以相
同的数值作为uTF—16编码;
馐)00组01一10平面内的字符({玛位值从10000到IOFFFF
之间),使用Surrogate.编码方式,以两个16位数值作为它的U
TF—16编码:第一个16位取值从D800到DBFF之间:第二个16
位取值从DC00到DFFF之间。在BMP中OxDS00一OxDFFF之间
的区域专门空出作为UCS一2编码的扩展,因此UTF一16又称为
UCS一2E。但是因U1下一16的西文字符为双字节,与现有大多使
用单字节ASCII码的软件不兼容,很少用。
3.3
UTF一32编码
u盯一32长度始终固定,每个Unicode代码点使用32位即4
字节表示。在定位问题上,最简单的就是u,I'F一32,它根本不需要
进行字符定位。按照高低位字节顺序,又分为
U耵乙32BE/UTF一32LE。
4
Unicode与UTF一8之间的编码转换原理
向为电子信息技术。作者简介:席春梅(1985一),女,青海省民和县人。青海师范大学物理系计算机应用专业2007级研究生,主要研究
2008年第9期
17
O
万福房地产开发公司网络设计方案
章三平杨永红
(南昌市工业技术研究院,江西南昌330047)
摘
要:房地产开发企业如何采用internet技术建立公司办公系统和电子商务应用网站。服务于企业的业务过程优化再
造,全面提升信息系统的技术内涵,达到对外充分适应、快速反应,对内高效沟通、快速决策。
关键词:电子商务;办公网络化;intranet网;设计方案
引言
对房地产开发企业来说,如何为员工提供高质量的网络服
务,解决内部办公的网络化和互联网的访问接人及电子商务应
用。是一个极其费神的事。事实上。企业要真正实现电子商务。可
大致按如下三步走:内部网络的建设、应用系统的建设及网站的
建设。
1建立内部网
具体设定的环境如下:
公司要实现电子商务.首先要建立一个采用intemet技术建
立的公司内联Jnlzanet网。公司为一幢3层楼房,一层为30个数
据点,二层为40点,三层为20点。要求主干为千兆以太网。主干
交换机用光纤连接.实现百兆交换到桌面。
intranet是传统企业网与intemet相结合的新犁企业网络。
它以tep/ip协议作为基础。以web为核心应用,构成统一和便利
的信息交换平台将网络延伸到异地分支机构及每个职员的身
边,提供家庭办公和移动办公的能力,使职员能随时访问公司网
络,获取需要的信息。企业业务的开展跨越了空间的限制,网络
成为可伸缩和延展的业务支撑平台,将计算能力和信息带到企
业业务开展所需要的每个地点。
该网络解决方案是以华为quidway
r2509/2511路由器为基
础的解决方案.该方案的主要功能是为家庭办公和移动办公服
务,它既可以通过isp的拨号接入服务器,也可以异步拨号线互
连8到16个家庭办公和移动办公用户。主要特点是华为路由器
产品内置功能强大的可编程防火墙,防止非法访问,确保网络安
图1华为网络建设方案
华为quidway
r2509/251
1路由器具有2个多协议口、异步串
口,同时r2509有8个异步串口,r2511有16个异步串口。异步
串I=I可作为中小型i8p的拨号接入服务器,也可通过异步拨号
线,互连8/16个低速局域网或家庭办公、移动办公用户。2个多
协议口、异步串口可接高速同步线路,连接远程分支机构局域
网,或互连其它isp访问internet。
全和高可靠性,灵活的适应性和可扩展性,电话、图像和数据的
综合应用,并以低成本和低维护费用满足用户的需求。
鉴于UTF_8编码的普遍性,有必要在此介绍下它与
Umeode的编码转换原理。
表1Unicode与UTF-8编码格式对照表
IJnicode鳙码(十六进mJ)
u+00000000’I卜0000007F
5小结
在u,rF编码下,根据相对固定的算法,从当前位置就能够
知道当前字节是否是一个代码点的开始还是结束,从而相对简
单的进行字符定位。虽然uTF—16、urI'F一32也有缺点(浪费空
间),但通过u’rF一8就解决了空间这个问题。所以,正如文章开
头所说,UTF一8编码现在已经变成了最主流的Unicode编码形
UTP-t蠕码(二进制)
0xxxx】“x
U+00∞00e0一U+0000
u十0000
07PP儿0xx“x10XXXXXX
1llOxxxx10xxxⅪtx
0800一U+0000
PP尸F
oooo—U+oolF
0000~U+0"399
10xxx:tx
叶0001
U+0020
PP即
】11lO“x10XXXⅪ(XIOx'xX:X107fXXXXX
11
式了。国际化势不可挡,而正是Unicode编码带领人类进入了计
算机时代国际化的新纪元。
10XXXXXX
Fl邗
PP尸P
ll
10xx10xxx船cx
10X'XX:tX
10xlfJgxxx
10XX:(XXX
U+04000000‘u+7PPF1111110x
10x:txxxx
10x砬xxx
10xxxxxx
10xxx鼎x
参考文献:
当要将Unieode编码转换成uTF一8编码时,首先按照表l
中的第一列,确定对该字符进行编码时需要的字节的个数,然后
按照表1中的第二列,填充相应的标记位.最后按由低位到高位
的次序依次取出该字符Unieode编码的二进制位放入x表示的
相应空位中,即可得到UTF-8编码。而要将UTF-8编码转换成
Unicode编码时,首先根据UrrF一8编码的大小确定该编码由几
个字节组成,然后根据表1中的第二列剔除所有字节中的标记
位,最后将剩余的有效位依次组合在一起,即可得到Unicode编
码。
【11鹿文鹏.薛若娟.Unicode与uTF一8编码转换方法研究Ⅱ1.计算机时
代.2005(09).
【21邱发林,李伟,周绍景.Unicode及中文到Unicode的转换Ⅱ】.计算机与
信息技术.2006(3).
【3】方文.Unicode字符编码方式叽.上海微型计算机.2000∞
【4】4中华人民共和国国家标准GBl300011,ISO/IEC
1064611-19931信
息技术通用多八位编码字符集(Ucs)第一部分:体系结构与基本多文种
平面【s】.
2008年第9期
18
发布者:admin,转转请注明出处:http://www.yc00.com/web/1716538252a2728232.html
评论列表(0条)