基于Fisher混合特征和神经网络的语音鉴别方法和系统技术方案

技术编号:23316773 阅读:28 留言:0更新日期:2020-02-11 18:24
本发明专利技术提供一种于Fisher混合特征和神经网络的语音鉴别方法和系统,涉及语音识别技术领域。本发明专利技术首先获取待测语音和包括智能合成语音数据与自然人声数据库数据在内的语音样本集合,再获取语音样本集合中语音样本的MFCC特征和CQCC特征;然后基于Fisher准则、MFCC特征和CQCC特征获取语音样本的MFCC‑CQCC混合特征;基于混合特征和预设的神经网络获取语音鉴别模型;最后基于语音鉴别模型判断待测语音是智能合成语音还是自然人声。本发明专利技术在语音特征的选取上,没有选取单一特征,而是选用了基于Fisher准则的MFCC‑CQCC混合特征,该特征有机地结合了MFCC和CQCC特征,可以有效地鉴别多种算法合成的语音,运用该混合特征训练神经网络获取语音鉴别模型,能有效提高语音鉴别模型的准确率。

Speech recognition method and system based on Fisher mixed feature and neural network

【技术实现步骤摘要】
基于Fisher混合特征和神经网络的语音鉴别方法和系统
本专利技术涉及语音识别
,具体涉及一种基于Fisher混合特征和神经网络的语音鉴别方法和系统。
技术介绍
随着语音信号处理技术的不断发展,利用说话人语音信号进行身份认证的系统在诸多行业得到了广泛的应用。在利用说话人语音信号进行身份认证存在较大的安全隐患,其中的安全隐患包括,利用合成语音冒充说话人语音。因此,如何鉴别合成语音和自然人声是消除安全隐患的关键。在现有技术中,常见的语音鉴别系统是利用语音特征是用来鉴别待测语音是合成语音或自然人声。语音特征主要包括MFCC特征和CQCC特征。然而本申请的专利技术人发现,现有技术中的语音鉴别系统未考虑到合成语音的音质和合成语音的多种类型,导致语音鉴别的准确率低。
技术实现思路
(一)解决的技术问题针对现有技术的不足,本专利技术提供了一种基于Fisher混合特征和神经网络的语音鉴别方法和系统,解决了现有的语音鉴别系统准确率低的技术问题。(二)技术方案为实现以上目的,本专利技术通过以下技术方案予以实现:本专利技术提供了一种基于Fisher混合特征和神经网络的语音鉴别方法,所述方法由计算机执行,包括以下步骤:S1、获取语音样本集合和待测语音,所述语音样本集合包括智能合成语音数据和自然人声数据库数据;S2、获取所述语音样本集合中语音样本的MFCC特征和CQCC特征;S3、基于Fisher准则、MFCC特征和CQCC特征获取所述语音样本集合中语音样本的MFCC-CQCC混合特征;S4、基于所述MFCC-CQCC混合特征和预设的神经网络获取语音鉴别模型;S5、基于语音鉴别模型获取待测语音所属类型,其中,所述类型包括智能合成语音和自然人声。优选的,所述Fisher准则的公式如下:其中:rF是特征分量的Fisher比,σb表示特征分量的类间方差,σw表示特征分量的类内方差。优选的,在S3中,所述获取语音样本集合中语音样本的MFCC-CQCC混合特征的方法,包括:S301、获取语音样本集合中所有语音样本的MFCC特征的特征分量的类间方差σb和所有语音样本的CQCC特征的特征分量的类间方差σb;公式如下:式中:σb表示特征分量的类间方差,即不同语音特征分量均值的方差,反映了不同语音样本之间的差异程度;M代表所有语音样本的总数,代表第i个语音样本的某一类特征s的第k维分量的均值,mk代表所有语音样本在某一类特征s的第k维分量的均值;S302、获取语音样本集合中所有语音样本的MFCC特征的特征分量的类内方差σw和语音样本的CQCC特征的特征分量的类内方差σw;公式如下:式中:σw表示特征分量的类内方差,即同一语音特征分量的方差的均值;M代表所有语音样本的总数,代表第i个语音样本的某一类特征s的第k维分量的均值,ni表示某一个语音的帧数;表示第i个语音的第k维第c帧参数;S303、分别对每个语音样本的MFCC特征和CQCC特征每一维分量计算Fisher比,并各选取比值最大的12维,融合成为24维的MFCC-CQCC混合特征。优选的,在获取获取语音鉴别模型之前,所述方法还包括:将S303中获取的所述MFCC-CQCC混合特征划分为训练数据和测试数据。优选的,在S4中,所述预设的神经网络包括:一层LSTM和一层GRU。优选的,在S4中,所述获取语音鉴别模型的方法包括:将训练数据输入到预设的神经网络,调整神经网络模型的参数,训练神经网络;将测试数据输入到经过训练的神经网站中,测试神经网络的准确率;当准确率达到预设值时,保存神经网络模型的参数,得到语音鉴别模型。本专利技术还提供一种基于Fisher混合特征和神经网络的语音鉴别系统,所述系统包括计算机,所述计算机包括:至少一个存储单元;至少一个处理单元;其中,所述至少一个存储单元中存储有至少一条指令,所述至少一条指令由所述至少一个处理单元加载并执行以实现以下步骤:S1、获取语音样本集合和待测语音,所述语音样本集合包括智能合成语音数据和自然人声数据库数据;S2、获取所述语音样本集合中语音样本的MFCC特征和CQCC特征;S3、基于Fisher准则、MFCC特征和CQCC特征获取所述语音样本集合中语音样本的MFCC-CQCC混合特征;S4、基于所述MFCC-CQCC混合特征和预设的神经网络获取语音鉴别模型;S5、基于语音鉴别模型获取待测语音所属类型,其中,所述类型包括智能合成语音和自然人声。优选的,所述Fisher准则的公式如下:其中:rF是特征分量的Fisher比,σb表示特征分量的类间方差,σw表示特征分量的类内方差。优选的,在S3中,所述获取语音样本集合中语音样本的MFCC-CQCC混合特征的方法,包括:S301、获取语音样本集合中所有语音样本的MFCC特征的特征分量的类间方差σb和所有语音样本的CQCC特征的特征分量的类间方差σb;公式如下:式中:σb表示特征分量的类间方差,即不同语音特征分量均值的方差,反映了不同语音样本之间的差异程度;M代表所有语音样本的总数,代表第i个语音样本的某一类特征s的第k维分量的均值,mk代表所有语音样本在某一类特征s的第k维分量的均值;S302、获取语音样本集合中所有语音样本的MFCC特征的特征分量的类内方差σw和语音样本的CQCC特征的特征分量的类内方差σw;公式如下:式中:σw表示特征分量的类内方差,即同一语音特征分量的方差的均值;M代表所有语音样本的总数,代表第i个语音样本的某一类特征s的第k维分量的均值,ni表示某一个语音的帧数;表示第i个语音的第k维第c帧参数;S303、分别对每个语音样本的MFCC特征和CQCC特征每一维分量计算Fisher比,并各选取比值最大的12维,融合成为24维的MFCC-CQCC混合特征。(三)有益效果本专利技术提供了一种基于Fisher混合特征和神经网络的语音鉴别方法和系统。与现有技术相比,具备以下有益效果:本专利技术首先获取待测语音和包括智能合成语音数据与自然人声数据库数据在内的语音样本集合,再获取语音样本集合中语音样本的MFCC特征和CQCC特征;然后基于Fisher准则、MFCC特征和CQCC特征获取所述语音样本集合中语音样本的MFCC-CQCC混合特征;基于所述MFCC-CQCC混合特征和预设的神经网络获取语音鉴别模型;最后基于语音鉴别模型判断待测语音是智能合成语音还是自然人声。本专利技术在语音特征的选取上,没有选取传统的单一特征,而是选用了基于Fisher准则的MFCC-CQCC混合特征,该特征有机地结合了MFCC和CQCC特征,可以有效地鉴别多种算法合成的语音,运用该混合特征训练神经网络获取语音鉴别模型,能有效提高语音鉴别模型的准确率。附图说明本文档来自技高网...

【技术保护点】
1.一种基于Fisher混合特征和神经网络的语音鉴别方法,其特征在于,所述方法由计算机执行,包括以下步骤:/nS1、获取语音样本集合和待测语音,所述语音样本集合包括智能合成语音数据和自然人声数据库数据;/nS2、获取所述语音样本集合中语音样本的MFCC特征和CQCC特征;/nS3、基于Fisher准则、MFCC特征和CQCC特征获取所述语音样本集合中语音样本的MFCC-CQCC混合特征;/nS4、基于所述MFCC-CQCC混合特征和预设的神经网络获取语音鉴别模型;/nS5、基于语音鉴别模型获取待测语音所属类型,其中,所述类型包括智能合成语音和自然人声。/n

【技术特征摘要】
1.一种基于Fisher混合特征和神经网络的语音鉴别方法,其特征在于,所述方法由计算机执行,包括以下步骤:
S1、获取语音样本集合和待测语音,所述语音样本集合包括智能合成语音数据和自然人声数据库数据;
S2、获取所述语音样本集合中语音样本的MFCC特征和CQCC特征;
S3、基于Fisher准则、MFCC特征和CQCC特征获取所述语音样本集合中语音样本的MFCC-CQCC混合特征;
S4、基于所述MFCC-CQCC混合特征和预设的神经网络获取语音鉴别模型;
S5、基于语音鉴别模型获取待测语音所属类型,其中,所述类型包括智能合成语音和自然人声。


2.如权利要求1所述的基于Fisher混合特征和神经网络的语音鉴别方法,其特征在于,所述Fisher准则的公式如下:



其中:rF是特征分量的Fisher比,σb表示特征分量的类间方差,σw表示特征分量的类内方差。


3.如权利要求2所述的基于Fisher混合特征和神经网络的语音鉴别方法,其特征在于,在S3中,所述获取语音样本集合中语音样本的MFCC-CQCC混合特征的方法,包括:
S301、获取语音样本集合中所有语音样本的MFCC特征的特征分量的类间方差σb和所有语音样本的CQCC特征的特征分量的类间方差σb;公式如下:



式中:σb表示特征分量的类间方差,即不同语音特征分量均值的方差,反映了不同语音样本之间的差异程度;M代表所有语音样本的总数,代表第i个语音样本的某一类特征s的第k维分量的均值,mk代表所有语音样本在某一类特征s的第k维分量的均值;
S302、获取语音样本集合中所有语音样本的MFCC特征的特征分量的类内方差σw和语音样本的CQCC特征的特征分量的类内方差σw;公式如下:



式中:σw表示特征分量的类内方差,即同一语音特征分量的方差的均值;M代表所有语音样本的总数,代表第i个语音样本的某一类特征s的第k维分量的均值,ni表示某一个语音的帧数;表示第i个语音的第k维第c帧参数;
S303、分别对每个语音样本的MFCC特征和CQCC特征每一维分量计算Fisher比,并各选取比值最大的12维,融合成为24维的MFCC-CQCC混合特征。


4.如权利要求3所述的基于Fisher混合特征和神经网络的语音鉴别方法,其特征在于,在获取获取语音鉴别模型之前,所述方法还包括:将S303中获取的所述MFCC-CQCC混合特征划分为训练数据和测试数据。


5.如权利要求4所述的基于Fisher混合特征和神经网络的语音鉴别方法,其特征在于,在S4中,所述预设的神经网络包括:一层LSTM和一层GRU。


6.如权利要求5所述的基于Fisher混合特征和神经网络的语...

【专利技术属性】
技术研发人员:苏兆品季仁杰葛昭旭陈清郑宁军李顺宇张国富岳峰
申请(专利权)人:合肥工业大学
类型:发明
国别省市:安徽;34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1