2024年6月19日发(作者:)
《
语料检索的速成教程:AntConc生鲜入门
》
作者:李亮(广东外语外贸大学 词典学中心)
2012年8月27日 Email: 492130980@
【步骤1】AntConc这款免费软件,诞生于2002年4月16日(当时是1.0版),到2012
年8月就刚好10年4个月了,适合处理不超过200MB的英语语料,因为当你处理200MB
的txt文件的时候,要占用1GB的物理内存呢,而100万英语单词的“中国英语学习
者语料库”(CLEC库)才6.6MB,足够处理30个“CLEC库”了,也就是3千万单
词的英语语料库;作者是长年居住在日本早稻田大学的英国俊男(1970年出生),本科
是物理专业,硕博士阶段就转向语言学了,读博期间开发了针对博士论文的AntConc;
【步骤2】AntConc有七大功能,你一看(下面截图的7个菜单项目)就眩晕的话,不
妨听我打一些比方;整体上说,一个所谓的语料库检索软件,就是来计算“3大关系”:
(1)一大堆的文章到底有多少单词?(2)这些单词的两侧经常有哪些单词?(3)同
一个词在这一大堆文章中的出现频率,是否跟在另一大堆文章中的出现频率有显著差
异?
【步骤3】无论你是学英语或是教英语的人士,你都是一个社会普通成员,必然有自己
的人际交往圈子,也必然有擦肩而过的身边人,擦肩而过的人也许跟你认识就打个招呼,
也许跟你不认识,所以就算你打招呼,对方也只能难堪地笑笑或盯着你;一个人,其实
跟书本上的单词,跟生活中的单词挺相似的境遇,都是接触面挺宽,亲密人并不多;
【步骤4】AntConc就像一个私家侦探,你随时可以抓来一大堆英语文章,把这些文章
中的熟悉单词和陌生单词都做个“清单”和“谱系图”和“交际分析”;
【步骤5】AntConc的7大菜单,其实相当于在回答这7大问题:
擦肩而过的身边人有哪些?(Concordance)
左右两侧距人群边缘多远?(Concordance Plot)
百米以内的身边人有哪些?(File View)
经常擦肩的身边人有哪些?(Clusters)
固定交往的身边人有哪些?(Collocates)
生活独立的成年人有多少?(Word List)
多处兼职的身边人有哪些?(Keyword List)
【步骤6】诚然,打比方只是一种“切入”,到底有多么确切,也见仁见智;下图是在
阿富汗与巴基斯坦边境地区被小培养为恐怖分子的三个小男孩,他们怀抱的是“AK47”
(诞生于1947年,是苏联人研制的稳定耐用的优秀的自动步枪);而“AK47”在整体
上虽然你应该把它看作一个单词,但是,AntConc的默认状态却是只认“AK”呢!
【步骤7】我们当前所处的时代是“2010s”,根据维基百科,它意味着2010年1月1
日到2019年12月31日之间的整整10年,我是“70后(70s)”,你也是“70s”或者“60s”
或“80s”啦,“We are 70s”这三个词,AntConc会告诉你“它”只看到“We are s”
这三个词,它这么抬高“s”这个后缀字母的地位,你也许极为不赞成,但这就是AntConc
的默认状态!
【步骤8】"2012"是一部关于全球毁灭的灾难电影,讲述在2012年世界末日到来时,
主人公以及世界各国人民挣扎求生的经历,当你用AntConc来计算“2012 is a good film”
这个句子有多少个单词,AntConc会告诉你“只有4个单词”,因为它在默认状态下会
对“独立连续的数字串或依附于其他英语字母的连续数字串”视而不见!这也就解释了
上面的“AK”与“47”发生脱离的问题;
【步骤9】英语中有挺多的系动词或助动词或情态动词所构成的否定表达的缩略形式,
例如is not变成了isn't呀,are not变成了aren't呀,was not变wasn't呀,has not变
hasn't呀,will not变won't呀,would not变wouldn't呀,shall not变shan't呀,do not
变don't呀,did not变didn't呀,ought not变oughtn't呀;反正,单引号都代表着“被
省略的字母o”;这些“中间有单引号兼省略号的否定合成词”你让AntConc来计算“单
词个数”,它会默认把它们进行“强拆”,把“单引号”当作空格呢,所以“didn't”就
变成了“didn”和“t”,而“isn't”变成了“isn”和“t”,而“don't”变成了“don”
和“t”,天啦,“don”可也是一个独立的单词呢,意思是“校长”或“黑帮老大”!
【步骤10】英语中也有“Ph.d.”或“a.m.”或“o'clock”或“etc.”这类单词,其他中
间或单词尾部带“省略符号”的词也频频露面;AntConc也都把“省略符号”当作“词
与词的国境线”而把它们强拆开;
【步骤11】上面这些“AntConc的默认状态的异常现象”的根源,并非AntConc的“缺
陷”,而是英语实在是太复杂了,“一条规则”总是夹杂着“多条意外规则”,到底是“漏
过居多”抑或是“误抓居多”也跟个人的具体需求有很大关系,你瞧AntConc的默认
的对单词的识别规则是“纯粹字母的连续体”呢!……一旦遇到一个并非字母的符号就
被当作“前一个单词与后一个单词的分界线”了
【步骤12】上面都是在回答“生活独立的成年人有多少?”,这是“单词”与“成年人”
之间的比喻;这个问题影响深远,你在使用不同的语料检索软件的时候,它们的单词计
算结果不一致,搭配词计数不一致,统计检验值不一致,语块生成列表不一致,应该就
是从“什么是独立且完整的单词”而缘起的!
【步骤13】像你我这样的普通成年人,每天在生活中遇到的人分为3大类:视而不见
类,点头之交类,促膝谈心类。视而不见类,是陌生人,他们的生活跟你的生活只是擦
肩而过,或恰好乘坐同一辆公交车去另一个地方;点头之交类,是“形式上的熟人”,
礼尚往来仅限于“点头”;促膝谈心类,可以上门求教或送礼或拉家常;英语中的单词
与其他单词之间也恰好是这三类关系呢!一个单词总是有很多的单词相伴左右,都是偶
然的,纯属“路过”;一个单词也总是有不太多的单词是它的“点头之交”,也许哪天真
的变成“促膝之交”了呢;一个单词到底有多少的促膝之交,跟这个单词本身的是否经
常“出门”有重大关系,也跟这个单词的“先天素质”有重大关系;
【步骤14】AntConc这个软件的巨大优势在于,它能高速地在“单词的海洋”或“人
潮汹涌”中找到你的“百米以内者、擦肩而过者、经常擦肩者、固定交往者”,这四类
从左到右是“从疏远到亲密”呀!英语中的“百米以内者”是“上下文语境中的更多单
词”,“擦肩而过者”是“偶然在一起的若干单词”,而“经常擦肩者”是“习惯表达”
或“固定短语”,而“固定交往者”就是“搭配”或“习语”啦!
【步骤15】从“语言学是一门先进的科学”的角度来说,“语料库”就像一个“试管”
或“森林公园”或“饲养场”,把大量的野生动物汇集到了一起,你可以随时观察,它
们也不会溜掉或逃逸,你可以测量它们的各种特征,也可以把它们三五成群地组成一个
新的观察视角,甚至可以在它们身上安装监控跟踪器,哪怕漆黑的夜里你也知道它身处
何处!所以,在一个“库”或“栅栏内”的语料们,总是有“围墙”的,某个单词距离
围墙有多远,这就是AntConc试图回答的“左右两侧距人群边缘有多远?”,这就是把
整个语料文件当作一个饲养场,每个单词都相当于在一个有一定长度的直线上的某个位
置!(语料软件把一个语料文件进行扫描,总是从第一个词到最后一个词,总共100个
词的话,你是第50个词,就正好在一个直线的正中央呢。
【步骤16】有了“库”,就像有了一个微型的虚拟城市;每个词,都有了多个活动空间
或活动场所或多重身份;你会看到一个人在家是丈夫,在医院是病人,在商店是顾客,
在学校是学生,在公司是领导,但是,哪种身份才是“更本质”呢?回答这个问题,一
则要看你是怎么定义“本质”的,二则要看你期望得到什么样的答案,三则要看你用什
么手段或工具来衡量,四则要看你是否给不同的测量以不同的权重(重视程度);回到
英语单词,你会发现日常词汇往往也能出现在专业领域,浅显单词也能出现在深奥文章,
童年言辞也容易变为成人用语;进一步回到语料库语言学来说,这叫做“词汇在不同语
料库之间的对比及其显著性”;这样的对比能发现某个单词在客场作战的时候是否真的
是客场的“重要人物”!
【步骤17】很多人一拿到AntConc就急于看结果,其实AntConc跟大部分软件一样,
要从菜单“文件”的“打开”一个文件而开始的;否则,一个软件怎么知道你要处理“谁”
或“哪个文件”呢,它自动推测的话,岂不乱了套!
【步骤18】选了一个文件,它就躺在“语料文件列表(Corpus Files)”了;你可以一
次选择多个文件到这个列表(如下图),也可以多次选取来不断添加到这个列表;
【步骤19】上面两个图的右侧的图片的“”是用鼠标点了一下,就变成了天蓝色
的“选中状态”,你就可以把它从列表中“踢掉”了,同样是点“File”菜单……
【步骤20】上面的第1个图的“Close File”就是踢掉当前选中的某个文件,第2个图
的“Close All Files”就是踢掉当前列表的所有文件,而“Open Dir”就是把一个文件
夹的所有txt文件都自动添加到当前的文件列表中,而不用你逐个选择,Dir是Directory
是“目录”是“文件夹”的意思;
【步骤21】一旦选择好了一个或多个你准备进行分析的文件,输入一个词(组),就可
以点“Start”这个按钮来进行“Concordance”了!
【步骤22】Concordance就是找“某个词(组)”的“擦肩而过的身边人有哪些?”说
白了,就是看“左右两侧的10个词左右的范围的语境”,中央是天蓝色或其他的耀眼颜
色凸现的“搜索词(组)”,“hit(命中)”就是“找到了一个”,而“KWIC”是KeyWord
In Context的缩写,就是方便你集中地观察每个含有“搜索目标”的“局部文本”;
【步骤23】你现在知道了“点一个按钮,就能找到很多实例”了,下一步就往往是肉
眼观察,但是,你看到的结果只是按照在原文中出现的先后顺序而呈现,所以不利于你
观察左右两侧的相同搭配词的相互对比,例如:
【步骤24】所以,你需要点一下“排序”按钮;但是,排序总要有“标准”呀,而AntConc
的默认标准是“右侧第一个词最优先,其次是右侧第二个词,再次是右侧第三个词”
【步骤25】AntConc的默认状态是“通吃大小写”,无论你输入“a”或“A”,它就找
来所有的“a”和“A”,这叫做“大小写不敏感”;你瞧“AIDS”和“aids”就很不一
样嘛;China和china是只有一个字母的大小写差别却是“专用名词与普通名词的差异
性”;
【步骤26】在“搜索输入框”的右侧,还有一个“Advanced”按钮,当你需要对多个
词进行先后检索却不希望多次输入而希望一次输入就看到多次检索的结果的话,你就点
它;这“高级”按钮就两个功能,另一个功能是“准ConcGram”,就是一个句子或段
落同时含有多个“搜索词”但不要求这些搜索词的先后出现顺序;
上面两个截图的上半部就是“多次同时做”,下半部就是“多词同时有”,哈哈,我这么
概括,太生动了!要特别注意的是,你输完单词,一定要勾上上面右侧截图中的一个或
两个箭头所指向的小勾勾哟,否则“设置等于无效,是不执行”的!同时,你做ConcGram
的时候,一定要设置一个“左右范围”如下图(6L就是左侧6个词,6R就是右侧6个
词),下面的第2个图是“准ConcGram”在AntConc中必须设置的某个“中心词”
【步骤27】点了“Apply”而让设置确认之后,回到主界面,点“Start”按钮,稍等,
就会看到……
上面就是以“is”为中心为蓝色凸显,而同时在左右两侧6个词范围内,必须同时有the
和to这两个词的检索效果!而“标准的ConcGram检索”可以限定在一定的单词连续
出现的范围有若干个搜索词,最后把这些搜索词都染成不同颜色而凸显!ConcGram是
个有点复杂的概念,看看下面的标准的ConcGram吧……
上图,是“what”和“call”这两个词的ConcGram;下图,是“we”和“facing”和
“challenges”这三个词的ConcGram;可见,ConcGram有个中心词,用来对齐其他
词的相对位置
【步骤28】对着检索出来的“中央的蓝色的单词”,你鼠标左键点一下,就会自动调转
到源文件中的对应的部分(见下面的第2个图),这是“File View”功能,我把这功能
叫做“百米之内的身边人有哪些?”,这个说法很形象吧?
【步骤29】检索了某个词(组)之后,你可以点“Concordance Plot”来看在整个语料
文件中的“词(组)分布”了,下面是CLEC库,整个库的开始部分是中学生语料,
后续是大学英语四级和六级水平,最后是专业英语低年级和高年级,而我们检索的
“totally”这个词比较难,所以,到了较高水平的阶段的作文才有了越来越多的出现,
所以你看到整个分布是偏向右侧末尾就有“密集的竖线”了!
【步骤30】Clusters就是“连续多个词且含有某个词(组)的文本片段”……
【步骤31】上图的“Cluster Size”被我手工设为“3”,所以出现的结果都是3个词构
成的“连续体”;如果你没有给出搜索词就要生成一系列的连续词块,那你就是要生成
N-grams,你把“Cluster Size”设置为“4”或“2到5”,就能让AntConc列出某个“宽
度”或“宽度范围”的所有单词块了,而此刻你发现“Clusters”这个字眼都变成“N-grams”
这个字眼了!这,被我叫做“经常擦肩的身边人有哪些”,你看这些词块的频率都被
AntConc列出了呢,Frequency(频率)就是“经常的程度”啦
【步骤32】“Collocates”的语料检索的本质是发现“固定交往的身边人有哪些”,词典
学家们也是借此而确定了“收入正式条目”的搭配性词(组);但是,词典学家是很保
守的,不够正规或不够稳定或不够严肃或不够文雅的搭配往往被暂时“冷遇”;搭配也
可能不是手牵手或肩并肩的,而是有其他若干词的“间隔”的,所以在AntConc中,
让你可以指定“间隔程度”,左侧的第N个位置到右侧的第M个位置(下面的第1个
图);你也可以指定至少要出现多少次才能算得上搭配且列入输出的“检索排行榜”(下
面的第2个图),这样能避免太多的低频或只有一两次的单词也“脱颖而出”;当然,“搭
配排行榜”也可以用多种方式进行排序(包括逆序),见下面的第3个图;“Sort by Word”
就是按照单词字母顺序,“Sort by Freq(L)”就是“以左侧频率为排序标准”,“Sort by
Word End”就是以每个词的从尾部往头部的逐个字母的排序顺序,“Sort by Stat”是按
照默认的搭配强度计算方式的取值来排序(MI值或T-Score值);值得注意的是,
Collocates功能是依赖“Word List”功能的,所以你还没有主动生成Word List之前,
AntConc就会提醒说“即将自动产生Word List再产生Collocates列表”……
【步骤33】下面第1个图是“Word List”的最高频部分,下面第2个图是“Collocates”
的最高频部分,“Freq(L)”是“在被搜索词的左侧的次数”, “Freq(R)”是“在被搜
索词的右侧的次数”,“Freq”是“在被搜索词的左侧与右侧的累加次数”,而“Stat”
就是默认的或你设置的“MI值”或“T-Score值”;而“Word List”和“Collocates”
的计算都涉及到“数字呀、标点呀、连字符呀之类的非字母能不能算作一个单词的整体
组成或词与词之间的分隔符”的问题,这点你要注意哈
【步骤34】至此,AntConc的七大菜单项目的功能我们已经只剩下“多处兼职的身边
人有哪些?(Keyword List)”,这可能是最复杂的功能,不过你不用怕,我会“生鲜讲
解”的,因为“多重身份”或“多处兼职”就是人和单词的共性嘛,但在AntConc中
你并不能直接点一两点就算是“Keyword List分析”的,因为这种分析是来看那些单
词在不同的语料库中的频率有“严重区别”的。所以,第一,你必须明白这是两个库文
件或两组库文件之间的对比,所以是“俩俩对比且一次只能俩”;第二,你必须确定两
者之一为“零点”或“比较的起点”或“原点”,这样你能说另一方是“更高”或“更
低”,这个“零点库(文件系列)”就是“Reference Corpus”,也翻译为“参照语料库”;
第三,语料库的“参考身份”随时可以被你进行调换;第四,对比的对象可以是“已经
生成的词表”或“作为语料库的一个或一些文件”;第五,一个单词在两个库之间的“频
率差异的显著性”或者叫做“跨库频率显著性”,是“keyness值”,AntConc采用了与
WordSmith Tools一样的两种统计检验,其一是卡方值(Chi-square),其二是
Log-Likelihood,而Log-Likelihood更适合大型语料库;第六,最经典的跨库对比是“大
库为参照库,小库为对比库”;第七,AntConc默认不显示keyness为负值的单词,而
keyness越大说明在“参考库”中越偏少;第八,初学者不必细究统计公式,只需适当
注意不同统计方法的选择的注意事项即可;第九,至于keyness的更多复杂性与有效性
请参见WordSmith Tools的在线帮助中的阐释。
/downloads/version6/HTML/
【步骤35】下面我们以CLEC库的和这两个文件所代表的两个子库为
例,展示一次完整的操作流程(不改变默认设置,直接操作的话)……
[1] 若你确定是“起点库”,你首先要在“Tool Preferences”中添加它;
[2] 若你需要“负值keyness的一系列单词”,请勾上“Show negative keywords”这个
选择(如下图),然后点“Apply”,回到主界面,去选择另一个语料库文件或文件系列;
[3] 添加了到文件列表,点“Keyword List”而切换到这个功能界面上,点“Start”
按钮……
[4] AntConc就弹出下面的警告消息框,告诉你,它是依赖wordlist而生成keyness列
表的……
[5] 过一阵,你就看到自动生成了……
上图的滚动条拉到最底下,就是下图……
可见,由于刚才没有选择“呈现负值keyness”,而当前没有呈现出负值keyness的单词!
而我们勾选了“呈现负值keyness”的选项之后,就会看到下图,下半部分的天蓝色就
是最高负值keyness的单词,越底下就负值偏少了……
【步骤36】以上内容,你坚持读完,算是获得了一套较为完整的对AntConc或一个典
型的语料分析软件的认识了;经常有人跨入语料库领域之后,频频表现出对商业版的老
牌语料检索软件WordSmith Tools的崇拜敬仰,甚至觉得一旦涉及语料库相关研究就必
须用WordSmith,下面我对WordSmith Tools与AntConc的相同相异进行尽可能的对
比,让初学者有个冷静的较全面认识……
总体上说,WordSmith的功能定位是:建库辅助+查库辅助,而AntConc没有建库
辅助,只有“查库辅助”。什么是建库辅助呢?从微观上,WordSmith能提供“字符清
理”和“字符编码转换”;从中观上,WordSmith能提供“语料标注的剥离”和“单词
批量替换”;从宏观上,WordSmith能提供“语料文件之间的对比与统计、内容查看、
拆分与合并、文件批量移动,文件批量更名,文件批量核查,网页批量抓取”;在查库
辅助方面,WordSmith和AntConc都是在词、字符串、词组、词块、搭配、标注这6
个层次上进行检索、统计、对比。
但是,在笔者看来,“建库辅助”是五大需求的合一:
1
语料搜集、
2
语料转换、
3
语
料核查、
4
语料整理、
5
语料标注。WordSmith只是刚刚满足了这5大需求的最基本状
态,还远远不能适应广泛多样的语料库制作与深加工的需求。
语料搜集:把网页等电子形式的语料下载到硬盘,或把纸质资料按照规划进行购买;
语料转换:把电子图片格式或网页格式的语料转换为txt格式或把图片格式的文字进行识别;
语料核查:组织专人或开发专门工具进行语料质量评价,确保低错误率和随后的补救操作;
语料整理:根据实际情况,放弃某些语料或补充某些语料或重新定位某些语料的性质;
语料标注:自动标注与半自动标注与人工标注相结合,尤其要做好半自动标注的开发;
在缺乏“建库辅助工具”的情况下,我们可以采用“网页爬虫”(例如Wget或URL2File
或Offline Explorer)来抓取语料,采用数码相机或扫描仪来转换纸质语料为电子,采
用批量格式转换的小工具来语料转换,采用商业版或免费版OCR软件来进行图片中的
文字的自动识别,采用文本搜索(包括字符串批量替换工具)与文本编辑工具进行质量
评估和少量修正,采用文件批量命名工具进行语料文件名称的统一,采用Office VBA
寥寥几句代码实现语料标注的半自动化……
结 束 语
可以概括AntConc的7大功能为3大功能:(1)快速找到某个词及其附近词的频率;
(2)快速找到所有词或所有词块的频率;(3)快速找到所有词在另一个库中的频率差
别。
更精简的概括是:AntConc就是针对一个词或多个连续词或多个临近词,在一个库
中或两个库之间,找到它们的位置和出现次数。
仅用4个字来概括就是:“定位”、“计数”!
最新版的AntConc 3.2.4,文件图标采用了“Ant蚂蚁”,足见作者之幽默……
AntConc中的Ant来自作者的姓名“Laurence Anthony”啊!
发布者:admin,转转请注明出处:http://www.yc00.com/news/1718769129a2752438.html
评论列表(0条)