2024年1月19日发(作者:)
“兰卡斯特汉语语料库”介绍1
许家金
(北京外国语大学 中国外语教育研究中心,北京 100089,北京)
提要:本文介绍“兰卡斯特汉语语料库”(简称LCMC)的取样方案、文本构成、标注体系和应用方面的概况。该语料库是依照英国英语语料库FLOB的取样方案和规模创建的可比汉语语料库,适合开展英、汉语对比研究,同时也适合汉语研究。
关键词:汉语语料库;LCMC;对比研究
1.0 前言
“兰卡斯特汉语语料库”(The Lancaster Corpus of Mandarin Chinese,简称LCMC)系旅英学者肖忠华博士创建的现代汉语平衡语料库。该语料库严格按照FLOB(Freiburg-LOB Corpus of British English)模式编制,它的建成有助于开展基于语料库的汉语单语或汉英(英汉)双语对比研究及汉语研究。
2.0 LCMC语料库概况
LCMC语料库是一个100万词次(按每1.6个汉字对应一个英文单词折算)的现代汉语书面语通用型平衡语料库。起先建立时,它是作为英国经社研究委员会资助项目Contrasting Tense and Aspect in English and Chinese的部分成果。肖忠华最初的设想是要将其建成同FLOB和FROWN对应的现代汉语语料库。筹建这样的一个语料库的另一个动因是:尽管已经有很多汉语语料库存在,但却没有一个完全免费对公众开放的平衡的汉语语料库2。
2.1 取样模式与文本收集
考虑到LCMC主要做对比研究之用,肖忠华创建语料库之初就确定了对比的对象。一方面,在短期内想要建成像BNC那样的逾亿词次的语料库并不现实。另一方面,要建立同LOB和Brown平行的语料库的问题在于很难找到1961年前后材料的电子文本。于是,最后对比目标被锁定在语料出版年份主要是1991、1992年的100万词次的FLOB上。鉴于同时还有与FLOB对应的美国英语语料库Frown的存在,LCMC建成以后也可与美国英语进行比较。最后,确定下来的方案是按FLOB的构建模式,从15个文体类型(见表1)中选取500篇2,000词左右的样本。样本的出版日期基本在1991年前后。
LCMC的筹建基本上是严格按照FLOB的取样模式进行,只在两个方面做了微调。
第一、FLOB的取样范畴中,肖忠华将FLOB中第N类样本的“西部和历险小说”改成“武侠小说”。一方面由于中国没有所谓的“西部小说”,另一方面,“武侠小说”和“西部和历险小说”从内容性质上同属一类,且在中国这一类小说中数量众多,因此有充足理由将其收入LCMC中。
表1:LCMC取样范畴表
代码 取样类型
A
B
C
新闻报道
社论
新闻评论
1代码J
K
L
取样类型
学术、科技一般小说
侦探小说
D
E
F
G
H
宗教
技术、商贸
通俗社会生活
传记和杂文
其他:报告和公文等
M
N
P
R
科幻小说
武侠小说
爱情小说
幽默
第二、由于受到文本来源的制约,肖忠华将样本的出版年代扩大至1991年前后各两年(即1989到1993年)的跨度范围(详见表2)。他认为前后两年的幅度并不会影响整个语料的同质性。为保证取样内容的同质性,LCMC中选取的都是中国大陆的出版物。该语料库是书面语语料库,选取文本时碰到图表一般使用
表2:LCMC的取样时间跨度
取样类型
1989199022.7%14.8%5.9%17.6%23.7%25%10.4%——7.5%——8.3%——13.8%6.9%——199172.7%51.9%88.2%41.2%44.7%64.9%100%72.5%79.3%62.5%100%48.3%55.2%44.4%19922.3%3.70%5.9%11.8%10.5%16.9%——17.5%13.8%16.7%——31.1%20.7%22.2%19932.3%22.2%——23.5%21.1%25%6.5%——1.3%6.9%12.5%——3.4%6.9%33.3%A ——B 7.4%C ——D 5.9%E ——F 6.8%G 1.3%H ——J 1.2%K ——L ——M ——N 3.4%P 10.3%R ——29.5 13.6%在计算LCMC语料库的规模时,经测算,采用了1汉字:1英文单词 = 1:1.6的计算方法。于是将FLOB的2,000字的样本大小折合成每个文本3,200个汉字。当所选文本长度不足3,200汉字时,则选取同一类型的其他文本补足。如果超过3,200字(比如一本书)则选取开头、中间、结尾凑足3,200字。在样本的最末处,为保证句子的完整而不将句子人为切断,因而样本会比3,200字略多或略少。
2.2 编码和标注(mark-up)方式
LCMC采用Unicode (UTF-8)而没有采用简体中文的GB2312和繁体中文的Big5编码,原因有二:1、为保证与非中文操作系统和其他中文编码形式的兼容性;2、这样的话语料可以为一些通用索引软件(像Xaira、WordSmith Tools4、AntConc等)读取。为了给非英语操作系统用户避免读取困难,肖忠华特意制作了完整的拼音版LCMC(也采取UTF-8编码),与汉字版LCMC同时推出。
汉字版和拼音版的LCMC中的15个文本类型分别存为一个单独的文件并采取XML格式存储。每个文件包括一个头文件和文本本身。文本采取了五重标注。见表3。
2
表3:文本的XML标注
标注层 代码 代码意义 属性TYPEID
ID
——n
POS——含义
根据表1的取样范畴
根据表1的取样代码
取样代码加上文本编号(从01开始)
——
从0001算起
依据LCMC标注集的语法标注
——
1 text
文本类型
2 file
语料库中的位置3 p
4 s
w
5
c
gap
段落
句子
单词
标点或其他符号省略
这样分层标注以后,非常有利于用户在检索时选择整个语料库或者一个子库甚至某个文件进行分析。词性标注(POS tagging)可以帮助检索某些汉字的特定词性的使用情况。利用词性代码的组合还可以检索特定的语法结构,比如动宾结构。
2.3 语料深加工
对于LCMC语料库,肖忠华还做了两重处理:即所有样本文句都依词断开(tokenization,这是成熟汉语语料库必需的工作)并标注词性(见图1)。对于汉语文本来说切分至关重要,因为汉语没有类似英文的空格作为单词分隔符。LCMC所采用的自动切分工具是由中科院计算所开发的“汉语词汇分析系统”(ICTCLAS)。这一系统的核心是由一个有词性和词频信息的8万字的词库。这一系统是基于最大匹配的计算方法,包含汉字切分、词性标注和未登录词的识别等模块。切分正确率可以达到97.58%。但这一系统对词性的标注却不够精准。比如说它无法区分介词“在”和表示体态的“在”。于是最后肖忠华对语料进行了大量的手工校对,词性标注正确率基本可以达到98%以上。因为要研究汉语并对比汉英的时体标记,肖忠华对“了”、“过”、“着”、“在”进行了细致的校对。最后完成的语料全部保存为XML格式文件。
POS="a">洒脱 POS="q">片 POS="n">天地 POS="v">找 POS="n">同事
图1: LCMC段落标注示例
LCMC语料库要求用户有可读取XML的检索工具像Xaira。在WordSmith Tools 4.0/5.0和AntConc隐藏或忽略标注码也可用于检索LCMC。该语料库完全免费提供,在线检索网址为:/corplang/cgi-bin/。网站上提供了全库检索和分语体检索方式。后者可用于进行语体变异的对比研究。
3.0 相关研究成果
自从语料库建成以来,利用LCMC进行的研究产出了一系列研究成果,包括肖忠华本人进行的汉语单语研究,如Xiao & McEnery(2004)有关汉语体标记的研究。和英汉对比 3
研究,如英汉体标记对比研究(McEnery, Xiao & Mo 2003;Xiao 2003),以及英汉否定对比研究(Xiao, McEnery & Qian 2006)。其他学者将LCMC作为汉语书面语参照语料的研究有胡显耀(2007)和许家金(2008)等。
4.0 语料的局限
LCMC的语料规模和取样方法属于百万词级的“布朗家族”(Brown family),现在看来规模仍然太小。对研究汉语中的高频语言现象(比如,“的”字结构、时体标记、否定词、指示词等)尚能适用;对相对不常见的语言现象(如汉语中动结构)则几乎检索不到结果。另外,就LCMC中语料产生的时间来看,都在1991年前后,距今已过去16年多,很多新词(短信、博客等)及新的用法其中也无法查到。因此在开展研究之前我们应当认识到语料自身的局限。
参考文献
[1] McEnery, A. & Z. Xiao. Lancaster Corpus of Mandarin Chinese. Published by the European
Language Resources Association (Catalogue No. W0039) and the Oxford Text Archive (Catalogue
No. 2474) [DB/OL], 2003.
[2] McEnery, A., Z. Xiao & L. Mo. Aspect marking in English and Chinese: Using the Lancaster Corpus
of Mandarin Chinese for contrastive language study [J]. Literary and Linguistic Computing, 2003(4):
361-378.
[3] Xiao, Z. Use of parallel and comparable corpora in language study [J/OL]. English Education in
China, 2003,(1).
[4] Xiao, Z. & A. McEnery. Aspect in Mandarin Chinese: A Corpus-based Study [M]. Amsterdam: John
Benjamins, 2004.
[5] Xiao, Z., A. McEnery & Y. Qian. Passive constructions in English and Chinese: A corpus-based
contrastive study [J]. Languages in Contrast, 2006,(1): 109-149.
[6] 胡显耀. 基于语料库的汉语翻译小说词语特征研究 [J]. 外语教学与研究,2007,38 (3): 214-220.
[7] 许家金. 汉语自然会话中话语标记“那(个)”的功能分析 [J]. 语言科学,2008(待刊).
Introducing the Lancaster Corpus of Mandarin Chinese (LCMC)
XU Jiajin
(National Research Center for Foreign Language Education, Beijing Foreign Studies University, Beijing
100089, China)
收稿日期:2006-07-23; 本刊修订稿:2007-11-21
作者简介:
许家金:博士,北京外国语大学中国外语教育研究中心讲师。研究方向:应用语言学、话语分析、语用学、语料库语言学。
1
本研究为北京外国语大学校级课题(06012)“基于语料库的话语研究”的部分成果。感谢肖忠华博士提供LCMC语料库及相关资料。
2 “国家语委语料库(219.238.40.213:8080/)”虽说是通用型平衡语料库,但不能完全免费使用;北京语言大学的汉语语料库(202.112.195.8)语料产出时间较早,且不能完全免费使用;北京大学汉语语言学研究中心语料库(现代汉语子库)”(/YuLiao_)规模最大,逾亿字,但取样极不均衡,多半为文学作品;台湾“中央研究院”Sinica Corpus也是可免费使用的平衡汉语语料库。但是它只能代表台湾地区的汉语,无法反映中国大陆的汉语状况。详情可访问Sinica Corpus 4
官方网站/ftms-bin/。
3 PH语料库包含的是1990年1月至1991年3月新华社出版的新闻。该语料库规模为3,260,416字。通过ftp:///pub/chinese/可获得该语料库。
4 使用时需转换成UTF-16。
5
发布者:admin,转转请注明出处:http://www.yc00.com/web/1705646269a1415461.html
评论列表(0条)