基于VQMAP模型和AdaBoost学习算法的说话人识别

基于VQMAP模型和AdaBoost学习算法的说话人识别

2023年8月2日发(作者:)

第40卷第3期 2010年5月 东南大学学报(自然科学版) JOURNAL OF SOUTHEAST UNIVERSITY(Natural Science Edition) VO1.40 NO.3 Mav 2010 doi:10.3969/j.issn.1001—0505.2010.03.008 基于VQMAP模型和AdaBoost学习算法的说话人识别 吴海洋 吕 勇 吴镇扬 (东南大学信息科学与工程学院,南京210096) 摘要:为了解决传统说话人识别系统在集成学习后识别速度变慢且容易过学习的问题,构造了 一种基于最大后验矢量量化(VQMAP)模型和自适应提升(AdaBoost)学习算法的说话人识别系 统.首先,分析了说话人识别系统中基分类器性能对集成分类器泛化误差的影响.然后,针对说话 人的类别数,构造适当精度的VQMAP模型.最后,利用包含提前终止策略的AdaBoost学习算法 将该模型提升为强分类器.实验结果表明:该算法的识别速度较高,是最大后验高斯混合模型 (GMMMAP)的9倍;该算法可有效控制AdaBoost学习算法在说话人识别中的过学习问题,其 性能优于VQMAP模型,且在训练数据较少或者类别数可预计的情况下,其性能可接近甚至超过 GMMMAP模型. 关键词:最大后验矢量量化模型;自适应提升;提前终止;说话人识别 中图分类号:TN912.34 文献标志码:A 文章编号:1001—0505(2010)03-0476.05 Speaker recognition based on VQMAP model and AdaBoost learning algorithm Wu Haiyang Lii Yong Wu Zhenyang (School of hfformation Science and Engineering,Southeast University,Nanjing 210096,China) Abstract:In order to solve the problem of low recognition speed and overfitting resulting from en— semble learning in traditional speaker recognition systems,a novel speaker recognition system based on the maximum a posteriori vector quantization model(VQMAP)and the adaptive boosting(Ada— Boost)learning algorithm is presented.Firstly,the influence of base classiifer performance on the generation errors of the boosted classifier is analyzed in the speaker recognition system.Then,a suit— able VQMAP classiifer matching the speaker number is constructed.Finally,it is boosted to a strong classifier by the AdaBoost learning algorithm with the early stopping method.The experimental re— suits show that the proposed algorithm has a faster recognition speed,which is 9 times faster than that of maximum a posteriori adapted Gaussian mixture model(GMMMAP).It also reduces the overfitting of the AdaBoost learning algorithm in speaker recognition.The performance of the boos— ted VQMAP model is better than that of the VQMAP mode1.and in the case of limited data or a pre— dictable speaker number,it can reach or exceed the GMMMAP mode1. Key words:maximum a posteriori vector quantization model;adaptive boosting;early stopping; speaker recognition 在自适应提升(adaptive boosting,AdaBoost) 基分类器则只能使集成分类器性能小幅提升 . 对语音数据而言,主流说话人识别系统中常用的最 学习算法¨ 中,分类精度高的基分类器(即弱分 类器)容易导致集成分类器过学习,分类精度低的 大后验高斯混合模型(maximum a posteriori adap一 收稿日期:2009—12—17. 作者简介:吴海洋(1983),男,博士生;吴镇扬(联系人),男,教授,博士生导师,zhenyang@seu.edu.cn. 基金项目:国家自然科学基金资助项目(60971098). 引文格式:吴海洋,吕勇,吴镇扬基于VQMAP模型和AdaBoost学习算法的说话人识别[J].东南大学学报:自然科学版,2010,40(3):476 480_【doi:l0.3969/j.issn.1001—0505 2010 03.008 第3期 吴海洋,等:基于VQMAP模型和AdaBoost学习算法的说话人识别477 ted Gaussian mixture model,GMMMAP)和支持向 在识别说话人类别时,可以根据公式 a r g m in(M、 量机的精度过高 ,而矢量量化模型(vector l lXi--Cm,k l ),I选取M类中距 , quantization,VQ)的精度则较低 J.如何构造一个 分类精度适中的基分类器是AdaBoost学习算法应 用在说话人识别中的关键.另一方面,识别速度也 是制约AdaBoost学习算法应用的重要因素.由于 集成分类器的识别时间是基分类器的整数倍,如果 主流算法的识别速度一般 j,则系统的实用性会 离最近的类别作为识别结果.此时仅需计算欧氏距 离,因此VQMAP模型的识别速度较快. 2 基于VQMAP模型的AdaBoost 学习算法 降低. 文献[8]提出了一种最大后验矢量量化模型 (maximum a posteriori vector quantization model, VQMAP).该算法的分类精度介于VQ模型和 GMMMAP模型之间,识别速度大于GMMMAP模 型,符合说话人识别中AdaBoost学习算法对基分 类器的要求. 本文提出了一种基于最大后验矢量量化模型 的自动提升算法(maximum a posteriori vector quantization model with AdaBoost,VQMB).该算 法首先针对说话类别数构建弱度适中的VQMAP 模型,再使用包含提前终止策略的AdaBoost学习 算法将该模型提升为强分类器. 1 VQMAP模型 以美尔频率倒谱系数(mel—rfequency cepstral coefifcient,MFCC)为特征参数,VQMAP模型通 过建立与GMMMAP模型类似的概率模型 来描 述特征参数的空间分布.在训练模型参数时,根据 MAP准则E9 3,按如下公式对统一背景模型(univer— sal background model,UBM)的模型参数进行自适 应调整 : 9 sr=arg railn J J 一c s一 J J ≤ ≤i=1,2,…,T (1) ∑X s 裔, s={g } (2) C:=Ⅵ :+(1一Ⅵ ) (3) 赢l cs  j (4) 式中,X 表示第i帧的特征参数; 和C 分别表示 UBM模型自适应前后的第k个胞腔的中心;q 表 示第 次迭代中X 所属的胞腔类别; 表示第S次 迭代中第k个胞腔内特征参数的个数; 表示第k 个平衡新旧胞腔中心估计值的自适应因子;r表示 相关因子,根据经验取r=12l8]. 对于给定的训练特征向量集(X,Y)={( , Y ),…,(X ,Y )}Y ∈M={1,2,…,M}}(M为类 别集)和统一背景模型A M={ , =1,2,…, },可按以下步骤生成各子分类器并输出集成后 的分类器结果: ①初始化训练集的采样权重设定为W = 1/N,其中i=1,2,…, ②用 B。。 表示子分类器的个数,当AdaBoost 学习算法的迭代次数t≤S …时, / N a)更新采样分布P :w'/∑w t,其中W = {w;l i=1,2,…,N}; b)根据采样分布P 生成训练子集( , ); c)利用( ,Y )训练子分类器 。 :{A , A:,…,AM},其中a'm={C ,k:1,2,…, }表示第 t次迭代中第m个说话人的模型; d)利用子分类器 。 判决训练集(X,l,), 得到子假设h :X 一Y : e)计算子假设 的错误率s =∑pIE JIz ( ;) ≠Y ,若 >1/2,则令SBo。 =t一1并退出迭代; f)令卢 =s /(1一 ),并更新采样权重w: =W:(JB )卜《 ‘ f . ③输出集成后的分类器结果h,(X)= SBoost ,1 ,arg  m aMx (1og ( ) ),Ⅱ 可以看出,AdaBoost学习算法在训练向量集 上建立了一个离散权重分布.在每次迭代过程中, 算法都会根据上一轮子分类器的错误率来调整其 权重分布,使错分的向量得到更大的权重,从而在 下一次迭代中更受关注.每次迭代后,该算法都会 生成一个弱分类器,并得到属于该分类器的权重 值.迭代结束后,利用这些子分类器及其权重,可联 合判决得到最后的分类结果.因此,在每次迭代过 程中,算法都会生成一个训练向量子集,利用该子 集可对子分类器进行训练和识别.当基分类器的训 练或识别算法较为复杂时,多次迭代所需的时间将 478 东南大学学报(自然科学版) 行联合划分,因此泛化误差收敛较慢. 第4O卷 变得无法接受.VQMAP模型的训练速度和识别速 度均较快,以它作为基分类器,可使运算复杂度大 大降低. 3实验结果及分析 本文在TIMIT数据库上建立了一个文本无关 的说话人识别系统,说话人的特征参数选用MFCC 参数.TIMIT数据库中共包含630个说话人,其中 男性438个和女性192个,分布于8个方言区.由 于在不均衡数据集上进行分类会增加分类难度,变 相削弱基分类器,为保证后续讨论的可靠性,本文 数据集均按男女均衡和方言区均衡的比例从TIM— IT数据库中捕取得到.实验中分别构建了说话人 数为380,200,100和50的数据集,其中每人10段 语音,每段语音约为2.5 S. 3.1基分类器的强弱度 在说话人数为100的数据集中,使用2段时长 约5 S的数据进行训练,通过调整VQMAP模型的 胞腔数来改变基分类器的强弱度.当VQMAP模型 的胞腔数k从8增加到64时,基分类器的弱度由 极弱逐渐增强.在这个过程中VQMB模型的性能 先由弱变强再重新变弱,如图1所示. AdaBoost迭代次数 图1不同胞腔数时VQMB模型的误识率曲线 当胞腔数极小(k=8)时,单个VQMAP模型 不能很好地拟合各说话人的特征分布.如果对其进 行集成学习,大量的数据点对子分类器而言都是容 易被错误分类的.AdaBoost学习算法加强了子分 类器对上一轮迭代中错分点的关注,同时忽略其他 数据点,造成了对错分点的过学习.然而,由于子分 类器的性能较弱,被忽略的点极易在本轮迭代中被 错分,从而在下一轮学习中重新得到重视,由此便 可纠正上一轮迭代对错分点的过学习.这一过程不 断往复,使AdaBoost学习算法可以从多种角度学 习数据集的信息,从而达到多个子分类器联合划分 特征空间的目的,有效减小泛化误差.同时,由于单 个子分类器的性能较差,需要很多的子分类器来进 当胞腔数增加(k=16)时,基分类器的性能逐 渐增强到适当的弱度.更精确的子分类器可使泛化 误差的收敛加快,有利于集成分类器的性能进一步 增强. 如果胞腔数进一步增加(k=32,64),剩下的 易错点都是基分类器的难分点,在每次迭代中都极 易被错分,导致子分类器会持续关注这些点,造成 过学习.然而,此时子分类器的性能较强,上一轮迭 代中被忽略的点在本轮中不容易被错分,即自发纠 正不能够补偿子分类器过学习所导致的性能损失, 导致集成分类器的性能下降. 实验发现,当说话人数为100时,胞腔数为16 的基分类器具有适当的弱度.因此,以下实验均在 说话人数为100的测试集上进行,且基分类器的胞 腔数选取为16. 3.2 VQMB模型的识别精度 通过上述分析可知,只要选择了具有适当弱度 的基分类器,当VQMB模型迭代到一定次数后,其 识别精度将优于具有优化参数(k=64)的VQMAP 模型,这正是AdaBoost学习算法的优势所在.但由 于收敛曲线的波动,当收敛到适当的泛化误差时, 需要有恰当的停止准则¨ “ .本文采用简化的提 前终止策略,根据经验选择迭代次数为5,并在此 基础上讨论VQMB模型的识别精度.此外,虽然 VQMB模型的收敛曲线在总体上具有明显的下降 趋势,但在具体某一迭代次数上的泛化误差具有一 定的随机性.为了排除这一干扰,关于VQMB模型 的实验均重复5次,然后对结果取平均值. 3.2.1 不同说话人数时的误识率 实验采用2段时长约5 S的数据进行训练.从 表1可以看出,由于训练数据不足,各模型性能均 较低.随着需要考察的类别数的增加,各模型的性 能均有所下降,其中VQMB模型的性能下降得最 快.通常情况下,类别数的增加可使特征参数空间 中的划分变得复杂,难于分类的点也开始增多,提 高了模型的误识率.对于VQMB模型而言,类别数 的增加还增大了基分类器相对于分类集的弱度,降 低了泛化误差的收敛速度,提高了在固定迭代次数 上的误识率. 表1不同说话人数时的误识率 % 第3期 吴海洋,等:基于VQMAP模型和AdaBoost学习算法的说话人识别式中, 479 值得注意的是,在表1中,当说话人数为50 时,VQMB模型的性能超过了GMMMAP模型.当 为计算一次高斯概率所需要的时间; k。MM为GMMMAP模型基分类器的胞腔数.若 GMMMAP模型使用对角协方差阵,在考虑运算顺 序上的优化后,to. =( + + + )D+ 说话人数为100时,胞腔数为16的基分类器性能 最佳.然而,当类别数小幅降低时,基分类器的精度 小幅变强,泛化误差的收敛速度加快.这说明:①胞 腔数16并非是与说话人数100相匹配的最佳参 +2 ,其中71D, , 和 分别为一次除法、开 方、指数函数和乘法的操作时间. 综上可知,GMMMAP模型和VQMB模型的 识别时间比为 MMMAP 一 数;②实际和预计说话人数之间存在的小幅偏差并 不会明显影响系统性能. 3.2.2不同训练数据量下的误识率 。+ DA 当说话人数为100时,分别使用6,4,2段语音 (对应于时长约为15,10,5 S的训练数据)进行训 练,结果见表2.对比说话人识别中常用的时长约 30 S的训练数据,这些都属于训练数据不足的情 Bo0 SBo0 t (TA+TMA+To+ )D-I- +2TM+TMA ( + A)DSBo0 。 由主流CPU的指令运算时间¨ 可知尺一 11.5KGMM/(SBoostk、,oMB),其中k、,QMB为VQMB模型 基分类器的胞腔数.当GMMMAP模型和VQMB 模型的混合数分别取为64和16,AdaBoost学习算 况.在此情况下,类和类之间的界限通常变得模糊, 基于训练数据建立的模型划分也变得不稳定,模型 的误识率会提高.虽然UBM模型可以提供很多用 于生成特征参数空间共性特征的数据,但仍需要足 够的数据将共性特征演绎为各类的个性特征. 表2不同训练数据量下的误识率 % 法的迭代数取为5时,时间比近似为9.由于 VQMB模型的识别操作均是可以高效处理的乘累 加,因此其识别时间比可以在DSP处理器上得到 进一步提升。 表3是在不同数据集上VQMB模型和 GMMMAP模型的识别时间及识别时间比.由于上 由表2可知,随着训练数据量的减少,VQMAP 述分析中GMMMAP模型省略的中间操作比 VQMB模型多,因此,实际的识别时间比大于理论 值9. 表3 不同数据集上的识别时间及识别时间比 模型和GMMMAP模型的性能下降较快,而 VQMB模型的性能下降较慢.这说明AdaBoost学 习算法能够深人挖掘数据内容,在训练数据量不够 的情况下,能够相对充分地利用数据中的说话人信 息来建立模型,从而使得性能下降较慢.当数据量 增加到可以满足复杂模型的训练条件时,VQMB 模型可以深人挖掘信息的优势就慢慢丧失了. 3.3 VQMB模型的识别速度 AdaBoost学习算法需要对每个子分类器进行 一次识别,总识别时间近似为 。 Bo。 其中 。 4 结语 本文提出了一种基于VQMAP模型和Ada— 为基分类器的识别时间.由VQMAP模型的识别公 式可得 TBase=MNkvoMAPTED Boost学习算法的说话人识别系统.由于VQMAP 模型的分类精度相对适中,调整胞腔数可控制其分 类精度,且使其拥有较快的训练速度和识别速度, 因此符合说话人识别中AdaBoost学习算法对基分 类器的要求.对于可以大概预知分类难度的训练 式中, 为说话人数;JV为识别语句长度;kVQMAP为 VQMAP模型基分类器的胞腔数; 。为计算欧氏 距离所需的时间,显然 。=(7’A+TM )D,其中D 为特征参数的维数,7、A为一次加法的操作时间, 集,通过挑选合适的VQMAP模型的胞腔数,可使 集成分类器拥有较快的识别速度,且模型的性能优 于VQMAP模型,稍弱于GMMMAP模型;在训练 数据较少或者类别数和预计相差不大的情况下,其 为一次乘累加的操作时间. 根据GMMMAP模型的识别公式,其识别时间 近似为 ToMMMAP=MNkGMM(To use+丁MA) 性能可接近甚至超过GMMMAP模型. 480 东南大学学报(自然科学版) 第40卷 参考文献(References) l 1 j Freund Y,Schapire R E.Decision—theoretic generaliza— tion of on—line learning and an application to AdaBoost [J].Journal of Computer and System Sciences.1997, 55(1):ll9一l39. [2j Schapire R E,Freund Y,Bartlett P,et a1.AdaBoost the margin:a new explanation for the effectiveness of voting methods[J].Anna&of Statistics,1998,26 (5):l651—1686. {3『Wickramaratna J,Holden S.Buxton B.Performance degradation in AdaBoost[C]//Proceedings of the Sec— ond International Workshop on Multiple Classiifer Sys- tems.Berlin,Germany:Springer—Verlag,2001:11— 21. I 4 i Valentini G,Dietterich T G.Bias—variance analysis of support vector machines for the development of SVM— based ensemble methods[J].J Mach Learn Res, 2004,21(5):725—775. [5]Li X,Wang L,Sung E.AdaBoost with SVM—based component classiifers[J].Engineering Applications of Artiifcial Intelligence,2008,21(5):785—795. [6]Luo Dirgsheng,Chen Ke.On the use of statistical en— semble methods for telephone—line speaker identiifcation [C]//IEEE 2002 International Conference on Commu— nications,Circuits and Systems.Chengdu,China, 2O02:904—908. [7]Tang H,Chen Z X,Huang T S.Comparison of algo— rithms for speaker identification under adverse far—field recording conditions with extremely short utterances [C]//Proceedings of 2008 1EEE International Confer— ence on Networking,Sensing and Contro1.Sanya,Chi— na,2008:796~801. [8]Hautamaki V,Kinnunen T,Karkkainen I,et a1.Maxi— mum a posteriori adaptation of the centroid model for spekaer veriifcation \.1EEE Signal Processing Let— ters,2008,15:162—165. [9]Reynolds D A,Quatieri T F,Dunn R B.Speaker veri— ifcation using adapted Gaussian mixture models[C]// F h Annual NlsT 1999 Speaker Recognition Workshop. Gaithersburg,MD,USA,1999:19—41. [10]Margineantu D D,Dieuefich T G.Pruning adaptive AdaBoost[c]//Proceedings of the 14th International Conference on Machine Learning.Nashville,TN, USA.1997:211—218. [11]Zhang T,Yu B.Boosting with early stopping:conver— gence and consistency[J].Annals of Statistics, 2005,33(4):1538—1579. 『12]Intel Corporation.Intel 0 64 and IA.32 architectures software developer’S manual『EB/OL].『2009.12— 05 1.http://www.inte1.corn/Assets/PDF/manual/ 253665.pdf. 

发布者:admin,转转请注明出处:http://www.yc00.com/news/1690910843a461247.html

相关推荐

发表回复

评论列表(0条)

  • 暂无评论

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信