一种基于VQ和SVM算法的说话人确认方法及其系统技术方案

技术编号:14514701 阅读:34 留言:0更新日期:2017-02-01 16:03
本发明专利技术公开了一种基于VQ和SVM算法的说话人确认方法及其系统,说话人确认方法包括:步骤A、采集声称是目标用户的待确认用户的语音信号、并提取其特征向量组;步骤B、对所述特征向量组进行VQ算法计算生成该待确认用户的码本,将所述码本作为测试样本;步骤C、将目标用户的码本与预存的其他授权用户的码本一对一训练一个SVM说话者模型,将测试样本带入SVM说话者模型当中进行分类,然后判断所述目标用户的训练数据与分类结果是否匹配,匹配则识别待确认用户为目标用户。本发明专利技术针对家用系统不使用背景模型,而采用“一对一”训练方式训练SVM说话者模型,可一定程度上提高说话人确认的准确性。

【技术实现步骤摘要】

本专利技术涉及语音
,特别涉及一种基于VQ和SVM算法的说话人确认方法及其系统。
技术介绍
说话者确认系统是从发出的声音中确认说话者声称的身份,现有技术中的说话者确认系统如图1所示,其表示已知有用户S1,S2,…,Si…,Sn,有一段声称是属于用户Si的语音,现要确认该段语音是否属于用户Si。支持向量机(SVM,SupportVectorMachine)是一种区分性训练模型,其需要正反两类数据,分别是目标说话人(声称的用户)和冒认说话人的训练语音数据。基于矢量量化(VQ,vectorquantizization)的确认系统采用经验值进行确认,但是经验值是从海量的数据中得出的统计值;而且当系统为不同用户使用时,该经验值是一个固定值,不具有鲁棒性。基于SVM具有二分类的效果,故这里采用基于VQ与SVM的算法来实现确认系统。传统的说话人确认系统采用基于VQ与SVM的算法来实现;且需建立说话人背景模型,用来与登记的说话人进行训练,并在识别时给出输出值以供判断。但是,背景模型的建立需要大量的数据,计算量大、操作较为复杂。因而现有技术还有待改进和提高。
技术实现思路
本专利技术的目的在于提供一种基于VQ和SVM算法的说话人确认方法及其系统,以解决现有背景模型的建立需要大量的数据,计算量大、操作较为复杂的问题。为了达到上述目的,本专利技术采取了以下技术方案:一种基于VQ和SVM算法的说话人确认方法,其包括:步骤A、采集声称是目标用户的待确认用户的语音信号、并提取其特征向量组;步骤B、对所述特征向量组进行VQ算法计算生成该待确认用户的码本,将所述码本作为测试样本;步骤C、将目标用户的码本与预存的其他授权用户的码本一对一训练一个SVM说话者模型,将测试样本带入SVM说话者模型当中进行分类,判断所述目标用户的训练数据与分类结果是否匹配,匹配则识别待确认用户为目标用户。所述的基于VQ和SVM算法的说话人确认方法中,所述步骤A之前,还包括:步骤A010、采集各授权用户的语音信号,提取各授权用户的特征向量组;步骤A020、对各特征向量组分别进行VQ算法计算,生成各授权用户的码本。所述的基于VQ和SVM算法的说话人确认方法中,所述步骤A010具体包括:步骤A1、采集声称是目标用户的待确认用户的语音信号,对语音信号进行端点检测,去除静音部分并提取出有效语音部分;步骤A2、对所述有效语音部分进行分帧并保留有效帧;步骤A3、提取所有有效帧的梅尔倒谱系数和梅尔倒谱系数的一阶差分;步骤A4、将每一有效帧的梅尔倒谱系数及其对应的一阶差分合起来,形成一有效帧语音信号的特征向量,所有有效帧的特征向量构成该待确认用户的特征向量组。所述的基于VQ和SVM算法的说话人确认方法中,所述步骤A2具体包括:对有效语音部分通过一个高通滤波器进行预加重,以每隔预设时间为一帧进行分帧,若得若干有效帧。所述的基于VQ和SVM算法的说话人确认方法中,所述步骤A3具体包括:先对每一有效帧乘以汉明窗,再进行快速傅里叶变换,接着通过滤波器组进行三角带通滤波,然后计算滤波器组输出的对数能量,最后将对数能量经离散余弦变换获得梅尔倒谱系数,对梅尔倒谱系数计算其一阶差分。所述的基于VQ和SVM算法的说话人确认方法中,所述步骤B具体包括:步骤B1、对特征向量组使用分裂法得到初始码本,设定迭代训练参数并进行初始化值设置;步骤B2、求所有码字中与训练集距离最近的码字;步骤B3、根据最近的码字、设置的迭代训练参数和初始化值计算总畸变、畸变改进量的相对值和新码本的码字;步骤B4、判断相对值是否小于起边改进阈值:若是,执行步骤B6;否则,执行步骤B5;步骤B5、判断迭代次数变量是否小于最大迭代次数:若是,令迭代次数变量加1,返回步骤B2;否则,执行步骤B6;步骤B6、迭代终止;输出新码本的码字作为训练成的待确认用户的码本的码字,将所述码本作为测试样本并输出总畸变。所述的基于VQ和SVM算法的说话人确认方法中,在所述步骤B1中,迭代训练参数包括:设全部训练矢量X的集合为S,设置码本的尺寸为J,设置迭代算法的最大迭代次数为L,设置起边改进阈值为δ;初始化值设置为:设置J个码字的初始值为Y1(0),Y2(0),…,YJ(0);设置畸变初值D(0)为无穷;设置迭代次数变量的初值m=1。所述的基于VQ和SVM算法的说话人确认方法中,所述步骤C具体包括:步骤C1、将预存的其他授权用户视为冒认者,对冒认者和目标用户的码本的每帧所对应的类别进行标记;步骤C2、将目标用户的码本分别与各冒认者的码本一对一进行SVM训练,得到目标用户与每个冒认者的各个SVM说话者模型;步骤C3、将所述测试样本分别带入目标用户与每个冒认者的各个SVM说话者模型的判别函数中,计算测试样本中每帧所对应类别为目标用户的码本的每帧所对应类别的帧数占该测试样本总帧数的比例;步骤C4、判断各个比例的平均值是否大于预设值:是则识别该待确认用户是目标用户;否则,该待确认用户不是目标用户。所述的基于VQ和SVM算法的说话人确认方法中,在所述步骤C1中,将预存的其他授权用户视为冒认者,并将其码本的每帧所对应的类别记为“-1”;将目标用户的码本的每帧所对应的类别记为“+1”。一种用于实现所述的基于VQ和SVM算法的说话人确认方法的说话人确认系统,其包括特征提取模块、码本计算模块、模型建立模块和处理模块;所述特征提取模块采集声称是目标用户的待确认用户的语音信号、并提取其特征向量组;码本计算模块对所述特征向量组进行VQ算法计算生成该待确认用户的码本,将所述码本作为测试样本;模型建立模块将目标用户的码本与预存的其他授权用户的码本一对一训练一个SVM说话者模型;处理模块将测试样本带入SVM说话者模型当中进行分类,判断所述目标用户的训练数据与分类结果是否匹配,匹配则识别待确认用户为目标用户。相较于现有技术,本专利技术提供的基于VQ和SVM算法的说话人确认方法及其系统,通过采集声称是目标用户的待确认用户的语音信号、并提取其特征向量组;对所述特征向量组进行VQ算法计算生成该待确认用户的码本,将所述码本作为测试样本;将目标用户的码本与预存的其他授权用户的码本一对一训练一个SVM说话者模型,将测试样本带入SVM说话者模型当中进行分类,然后判断所述目标用户的训练数据与分类结果是否匹配,匹配则识别待确认用户为目标用户。传统的VQ与SVM说话人确认系统需要大量的数据来建立说话人背景模型,本专利技术针对家用系统不使用背景模型,而采用“一对一”训练方式训练SVM说话者模型,可一定程度上提高说话人确认的准确性。附图说明图1为现有说话者确认系统的示意图。图2为本专利技术提供的基于VQ和SVM算法的说话人确认方法实施例一的方法流程图。图3为本专利技术提供的基于VQ和SVM算法的说话人确认方法实施例二的方法流程图。图4为本专利技术提供的基于VQ和SVM算法的说话人确认方法中步骤S100的方法流程图。图5为本专利技术提供的基于VQ和SVM算法的说话人确认方法中步骤S200的方法流程图。图6为本专利技术提供的基于VQ和SVM算法的说话人确认方法中步骤S300的方法流程图。图7为本专利技术提供的基于VQ和SVM算法的说话人确认系统的结构框图。具体实施方式本专利技术提供一种基于VQ和SVM算法的说话人确认方法及其系统,本系统本文档来自技高网...

【技术保护点】
一种基于VQ和SVM算法的说话人确认方法,其特征在于,包括:步骤A、采集声称是目标用户的待确认用户的语音信号、并提取其特征向量组;步骤B、对所述特征向量组进行VQ算法计算生成该待确认用户的码本,将所述码本作为测试样本;步骤C、将目标用户的码本与预存的其他授权用户的码本一对一训练一个SVM说话者模型,将测试样本带入SVM说话者模型当中进行分类,判断所述目标用户的训练数据与分类结果是否匹配,匹配则识别待确认用户为目标用户。

【技术特征摘要】
1.一种基于VQ和SVM算法的说话人确认方法,其特征在于,包括:步骤A、采集声称是目标用户的待确认用户的语音信号、并提取其特征向量组;步骤B、对所述特征向量组进行VQ算法计算生成该待确认用户的码本,将所述码本作为测试样本;步骤C、将目标用户的码本与预存的其他授权用户的码本一对一训练一个SVM说话者模型,将测试样本带入SVM说话者模型当中进行分类,判断所述目标用户的训练数据与分类结果是否匹配,匹配则识别待确认用户为目标用户。2.根据权利要求1所述的基于VQ和SVM算法的说话人确认方法,其特征在于,所述步骤A之前,还包括:步骤A010、采集各授权用户的语音信号,提取各授权用户的特征向量组;步骤A020、对各特征向量组分别进行VQ算法计算,生成各授权用户的码本。3.根据权利要求2所述的基于VQ和SVM算法的说话人确认方法,其特征在于,所述步骤A具体包括:步骤A1、采集声称是目标用户的待确认用户的语音信号,对语音信号进行端点检测,去除静音部分并提取出有效语音部分;步骤A2、对所述有效语音部分进行分帧并保留有效帧;步骤A3、提取所有有效帧的梅尔倒谱系数和梅尔倒谱系数的一阶差分;步骤A4、将每一有效帧的梅尔倒谱系数及其对应的一阶差分合起来,形成一有效帧语音信号的特征向量,所有有效帧的特征向量构成该待确认用户的特征向量组。4.根据权利要求3所述的基于VQ和SVM算法的说话人确认方法,其特征在于,所述步骤A2具体包括:对有效语音部分通过一个高通滤波器进行预加重,以每隔预设时间为一帧进行分帧,若得若干有效帧。5.根据权利要求3所述的基于VQ和SVM算法的说话人确认方法,其特征在于,所述步骤A3具体包括:先对每一有效帧乘以汉明窗,再进行快速傅里叶变换,接着通过滤波器组进行三角带通滤波,然后计算滤波器组输出的对数能量,最后将对数能量经离散余弦变换获得梅尔倒谱系数,对梅尔倒谱系数计算其一阶差分。6.根据权利要求2所述的基于VQ和SVM算法的说话人确认方法,其特征在于,所述步骤B具体包括:步骤B1、对特征向量组使用分裂法得到初始码本,设定迭代训练参数并进行初始化值设置;步骤B2、求所有码字中与训练集距离最近的码字;步骤B3、根据最近的码字、设置的迭代训练参数和初始化值计算总畸变、畸变改进量的相对值和新码本的码字;步骤B4、判断相对值是否小于起边改进阈...

【专利技术属性】
技术研发人员:韩云秀
申请(专利权)人:TCL集团股份有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1