初探Unicode编码

初探Unicode编码


2024年5月24日发(作者:)

科技经er'q场

。,技术平台

初探

Unicode

席春梅

(青海师范大学物理系。青海西宁810008)

要:随着信息技术的发展,文字的国际性被进一步强调了,所以使用一个统一的国际编码迫在眉睫,Unlcode编码便应

运而生,它是一种重要的交互和显示的通用字符编码标准。本文主要介绍Unicode字符编码、Unicode编码形式及Unicode

与UTF一8之f.-I的编码转换原理。

关键词:Unicode;编码形式;UTF;编码转换

1

Unicode产生的背景

Transformation

1946年2月14日,在美国宾夕法尼亚大学的莫尔电机学

院,世界上的第一台计算机诞生了。在它诞生之初,编码问题并

不是很重要。因为当时计算机基本上是在英语语系的闰家内使

用,所以编码只要考虑英语二十六个字母就行了。因此美国制定

了使用七位编码ASCII‘码(0—127).这很快就成为了世界性的标

准,也是现在所有字符集的基础,通常被称为基本拉丁字符集。事

实上ASCII码仅仅定义了用于书写美国英语的全部字符,它甚

至缺少一些写英语所必须的符号,如版权符号等。

随着计算机在全球的发展以及在各个行业的普及,编码的

问题已日益重要,原有的ASCII码已经不够用了,于是人们通

过把有符号数一一变为无符号数,使得编码范围从0-127变为

Format,是Unicode代码点(code

point)的实际表示

方式,它也可以认为是一种特殊的外鄙数据编码,但能够与

Unicode代码点做一一对应。现分别介绍这几种编码形式。

3.1UTF一8编码

UTF一8是基于字节的编码,压缩的Unicode编码方式:使用

UTF-8编码的意义在于:与原有的基于ASCII码的应用程序或

运行库形式上兼容。它也因此成为了最重要最主流的unicode

变种。

UTF-8编码方案的特点如下:

①从0到7F之间的码位用相同数值的单字节表示它的

UTF一8值。

②凡是码位大于U+OOTF的字符用一个字节序列表示。其

中每一个字节最高位都是l;字节序列中的第一个字节的值总在

OxC0-OxFD之间,并指明本字符编码有多少个字节,随后的字节

总在Ox90-OxBF之间。

③UCS体系中的所有字符都可被编码,可以编人所有可能

的231个UCS代码。

④u1'F一8字符序列理论最多达到6个字节,对UCS一203MP

平面)字符最多能达到3个字节。

⑤BiB

Endian

ucS-4字节串的排列顺序是预定的。

⑥字节OxFE和OxFF在UTF一8编码中从未用到。

3.2UTF一16编码

UTF—16是Unicode标准默认的编码方式。它把一个字符码

位映射到一个或两个16位整数。它长度相对同定,只要不处理

大于\U20(X)00范围的字符,每个Unicode代码点使用16位即2

字节表尔,超出部分使用两个UTF—16即4字节表示。按照高低

位字节顺序,又分为UTF—16BE,U,rF—16LE(BE指BisEndian,而

LE指LittleEndian)。它采取的方法如下:

0-255,把附加的字符指定给128以上来扩展ASCII码。为此.

ISO组织做r很多工作,它定义了很多基于ASCII的字符集标

准(IS08859一l—IS08859—15),这些字符集都是ASCII码的超

集,扩充部分包含一门或几门可以合并的语言中的字符,而这也

成为了撰写某些多语言文档的瓶颈。

Intemet的出现和发展,使得越来越多的计算机行业意识到

全球市场的重要性,并且努力使自己的产品围际化,使之能很容

易的处理各种语言的信息。如汉语、阿拉伯语等。因此人们需要

一种比以前更灵活,更有效的伞球统一的编码系统。在这种情况

下,Unicode联盟于1988年开始着手开发一个统一的包含世界

上大部分语种的国际通用字符集一Unicode。Unicode.org官方对

Unicode的定义是:Unicode

provides

a

ber

unique

numfor

every

character。可见,Unicode所做的是为每个字符定义了一个相应的

数字表示。

2

Unicode字符编码概述

Unicode(统一码、万国码、单一码)是一种在计算机}使用

的字符编码。它为每种语言中的每个字符设定了统一并且唯一

的二进制编码,以满足跨语言、跨平台进行文本转换、处理的要

求。也就是说,Unicode能够用于世界上各种语言的书面形式以

及附加符号的表示、传输、交换、处理、存储、输入及显示,给每一

个字符一个唯一特定数值。

Unicode标准已经被很多公司采用,例如HP,IBM,Microsoft,

Sun等.而且Unicode是实现ISO/IEC10646的正规方式。许多操

作系统,所有最新的浏览器和许多其他产品都支持它。Unicode

标准的出现和支持它的工具的存在,是近来全球软件技术最重

要的发展趋势。到了现在,Unicode标准已经不单是一个编码标

准,还是记录人类语言文字资料的一个巨大的数据库,同时从事

人类文化遗产的发掘和保护工作。

3

Unicode编码形式

Unieode标准定义的字符可采用不同的编码形式,按其基本

长度所用位分为UTF一8/16/32。UTF表示Unicode(orUCS)

①在BMP内的字符(码位值从O到FFFF之间的字符)以相

同的数值作为uTF—16编码;

馐)00组01一10平面内的字符({玛位值从10000到IOFFFF

之间),使用Surrogate.编码方式,以两个16位数值作为它的U

TF—16编码:第一个16位取值从D800到DBFF之间:第二个16

位取值从DC00到DFFF之间。在BMP中OxDS00一OxDFFF之间

的区域专门空出作为UCS一2编码的扩展,因此UTF一16又称为

UCS一2E。但是因U1下一16的西文字符为双字节,与现有大多使

用单字节ASCII码的软件不兼容,很少用。

3.3

UTF一32编码

u盯一32长度始终固定,每个Unicode代码点使用32位即4

字节表示。在定位问题上,最简单的就是u,I'F一32,它根本不需要

进行字符定位。按照高低位字节顺序,又分为

U耵乙32BE/UTF一32LE。

4

Unicode与UTF一8之间的编码转换原理

向为电子信息技术。作者简介:席春梅(1985一),女,青海省民和县人。青海师范大学物理系计算机应用专业2007级研究生,主要研究

2008年第9期

17

O

万福房地产开发公司网络设计方案

章三平杨永红

(南昌市工业技术研究院,江西南昌330047)

要:房地产开发企业如何采用internet技术建立公司办公系统和电子商务应用网站。服务于企业的业务过程优化再

造,全面提升信息系统的技术内涵,达到对外充分适应、快速反应,对内高效沟通、快速决策。

关键词:电子商务;办公网络化;intranet网;设计方案

引言

对房地产开发企业来说,如何为员工提供高质量的网络服

务,解决内部办公的网络化和互联网的访问接人及电子商务应

用。是一个极其费神的事。事实上。企业要真正实现电子商务。可

大致按如下三步走:内部网络的建设、应用系统的建设及网站的

建设。

1建立内部网

具体设定的环境如下:

公司要实现电子商务.首先要建立一个采用intemet技术建

立的公司内联Jnlzanet网。公司为一幢3层楼房,一层为30个数

据点,二层为40点,三层为20点。要求主干为千兆以太网。主干

交换机用光纤连接.实现百兆交换到桌面。

intranet是传统企业网与intemet相结合的新犁企业网络。

它以tep/ip协议作为基础。以web为核心应用,构成统一和便利

的信息交换平台将网络延伸到异地分支机构及每个职员的身

边,提供家庭办公和移动办公的能力,使职员能随时访问公司网

络,获取需要的信息。企业业务的开展跨越了空间的限制,网络

成为可伸缩和延展的业务支撑平台,将计算能力和信息带到企

业业务开展所需要的每个地点。

该网络解决方案是以华为quidway

r2509/2511路由器为基

础的解决方案.该方案的主要功能是为家庭办公和移动办公服

务,它既可以通过isp的拨号接入服务器,也可以异步拨号线互

连8到16个家庭办公和移动办公用户。主要特点是华为路由器

产品内置功能强大的可编程防火墙,防止非法访问,确保网络安

图1华为网络建设方案

华为quidway

r2509/251

1路由器具有2个多协议口、异步串

口,同时r2509有8个异步串口,r2511有16个异步串口。异步

串I=I可作为中小型i8p的拨号接入服务器,也可通过异步拨号

线,互连8/16个低速局域网或家庭办公、移动办公用户。2个多

协议口、异步串口可接高速同步线路,连接远程分支机构局域

网,或互连其它isp访问internet。

全和高可靠性,灵活的适应性和可扩展性,电话、图像和数据的

综合应用,并以低成本和低维护费用满足用户的需求。

鉴于UTF_8编码的普遍性,有必要在此介绍下它与

Umeode的编码转换原理。

表1Unicode与UTF-8编码格式对照表

IJnicode鳙码(十六进mJ)

u+00000000’I卜0000007F

5小结

在u,rF编码下,根据相对固定的算法,从当前位置就能够

知道当前字节是否是一个代码点的开始还是结束,从而相对简

单的进行字符定位。虽然uTF—16、urI'F一32也有缺点(浪费空

间),但通过u’rF一8就解决了空间这个问题。所以,正如文章开

头所说,UTF一8编码现在已经变成了最主流的Unicode编码形

UTP-t蠕码(二进制)

0xxxx】“x

U+00∞00e0一U+0000

u十0000

07PP儿0xx“x10XXXXXX

1llOxxxx10xxxⅪtx

0800一U+0000

PP尸F

oooo—U+oolF

0000~U+0"399

10xxx:tx

叶0001

U+0020

PP即

】11lO“x10XXXⅪ(XIOx'xX:X107fXXXXX

11

式了。国际化势不可挡,而正是Unicode编码带领人类进入了计

算机时代国际化的新纪元。

10XXXXXX

Fl邗

PP尸P

ll

10xx10xxx船cx

10X'XX:tX

10xlfJgxxx

10XX:(XXX

U+04000000‘u+7PPF1111110x

10x:txxxx

10x砬xxx

10xxxxxx

10xxx鼎x

参考文献:

当要将Unieode编码转换成uTF一8编码时,首先按照表l

中的第一列,确定对该字符进行编码时需要的字节的个数,然后

按照表1中的第二列,填充相应的标记位.最后按由低位到高位

的次序依次取出该字符Unieode编码的二进制位放入x表示的

相应空位中,即可得到UTF-8编码。而要将UTF-8编码转换成

Unicode编码时,首先根据UrrF一8编码的大小确定该编码由几

个字节组成,然后根据表1中的第二列剔除所有字节中的标记

位,最后将剩余的有效位依次组合在一起,即可得到Unicode编

码。

【11鹿文鹏.薛若娟.Unicode与uTF一8编码转换方法研究Ⅱ1.计算机时

代.2005(09).

【21邱发林,李伟,周绍景.Unicode及中文到Unicode的转换Ⅱ】.计算机与

信息技术.2006(3).

【3】方文.Unicode字符编码方式叽.上海微型计算机.2000∞

【4】4中华人民共和国国家标准GBl300011,ISO/IEC

1064611-19931信

息技术通用多八位编码字符集(Ucs)第一部分:体系结构与基本多文种

平面【s】.

2008年第9期

18


发布者:admin,转转请注明出处:http://www.yc00.com/web/1716538252a2728232.html

相关推荐

发表回复

评论列表(0条)

  • 暂无评论

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信