一种基于多种语音特征融合的声纹识别方法及系统技术方案

技术编号:25227292 阅读:28 留言:0更新日期:2020-08-11 23:15
本发明专利技术公开了一种基于多种语音特征融合的声纹识别方法与系统,方法以下步骤:获取原始音频;抽取所述原始音频中的原始频谱特征,将所述原始频谱特征聚合后输出第一特征向量;抽取所述原始音频中的MFCC特征,将所述MFCC特征聚合后输出第二特征向量;将所述第一特征向量与所述第二特征向量输入到深度神经网络中进行特征融合,输出第三特征向量;根据所述第三特征向量进行说话人分类;系统包括音频采集模块、原始频谱特征获取模块、MFCC特征获取模块、聚合层特征获取模块、融合模块、说话人分类模块。

【技术实现步骤摘要】
一种基于多种语音特征融合的声纹识别方法及系统
本专利技术涉及声纹识别
,具体涉及一种基于多种语音特征融合的声纹识别方法及系统。
技术介绍
随着信息技术的发展,互联网的普及,需要用到人的身份识别的应用场合越来越多,传统的需求方面有各种网上账户的需要,在线支付、门禁等等,而随着互联网及人工智能的应用推广,根据不同的人的习惯特点需要不同的身份识别方法与系统,比如指纹、人脸、声纹识别,其中声纹识别是生物识别技术的一种,通过对语音进行处理可生成用于指示该语音输入者身份信息的身份向量,可通过计算两端语音的身份向量之间的相似度来确定这两段语音的输入者是否为同一用户,但是语音易受到信道的变性和环境的变性,并且基于单一某种的语音特征进行声纹识别时,会极大的降低其准确率,因此需要一种能够融合多种语音特征进行声纹识别的方法与系统。
技术实现思路
语音是人通过声道产生声音,声道的形状等因素决定了发出怎样的声音,声道的形状等因素包括舌头、牙齿等,声道的形状在语音短时功率谱的包络中显示出来。MFCC(或MFCCs)(MelFrequencyCepstralCoefficents)又称为梅尔倒谱系数,是一种准确描述这个包络的一种特征,MFCC是一种在自动语音和说话人识别中广泛使用的特征,在1980年由Davis和Mermelstein提出,在梅尔频谱上面取得的倒谱系数就称为梅尔倒谱系数,简称MFCC。梅尔倒谱系数是由一种音频剪辑(一种非线性的“光谱-频谱”)的一种“感知”表示形式派生出来的,在梅尔频率倒谱(MelFrequencyCepstral,MFC)中,频率条带在梅尔尺度上是相等的,这比在正常的倒谱仪中使用的间隔频率波段更接近人类听觉系统的响应,频率的扭曲使声音更好地表示,例如在音频压缩中。原始频谱保留语音的原始特征,能够抓取到例如数据中未经处理的细节特征。本专利技术中所涉CNN指卷积神经网络、RNN指循环神经网络、DNN指深度神经网络。本专利技术要解决的技术问题是提供一种基于多种语音特征融合的声纹识别方法及系统,分别提取音频中的原始频谱特征与MFCC特征,再对原始频谱特征进行第一特征向量的提取,对MFCC特征进行第二特征向量的提取,随后将第一特征向量与第二特征向量输入到深度神经网络中进行融合,得到第三特征向量,得到融合后的特征向量,以便进行训练;能够利用人工设计的MFCC特征快速学习到基本的声纹特征;能够利用原始频谱特征补充MFCC遗漏的语音声纹信息;能够提升最终声纹识别的算法准确率性能,用以解决现有技术导致的缺陷。本专利技术还提供一种基于多种语音特征融合的声纹识别系统。为解决上述技术问题本专利技术提供以下的技术方案:第一方面,一种基于多种语音特征融合的声纹识别方法,其中,包括以下步骤各步骤之间的先后顺序并不意味着方法必须按其先后次序进行,任何本领域技术人员所知晓的通过改变先后次序达到相同效果的都应是本方法的一种具体实施方式):获取原始音频;抽取所述原始音频中的原始频谱特征,将所述原始频谱特征聚合后输出第一特征向量;抽取所述原始音频中的MFCC特征,将所述MFCC特征聚合后输出第二特征向量;将所述第一特征向量与所述第二特征向量输入到深度神经网络(DNN)中进行特征融合,输出第三特征向量;根据所述第三特征向量进行说话人分类。上述的一种基于多种语音特征融合的声纹识别方法,其中,所述原始频谱特征聚合输出的过程包含以下步骤:将所述原始频谱特征经过二维卷积神经网络(2D-CNN)后得到原始频谱特征聚合层;提取并输出所述原始频谱特征聚合层中的所述第一特征向量。上述的一种基于多种语音特征融合的声纹识别方法,其中,所述第一特征向量为固定长度。上述的一种基于多种语音特征融合的声纹识别方法,其中,所述MFCC特征聚合输出的过程包含以下步骤:将所述MFCC特征经过一维卷积神经网络(1D-CNN)后得到MFCC特征聚合层;提取并输出所述MFCC特征聚合层中的所述第二特征向量。上述的一种基于多种语音特征融合的声纹识别方法,其中,所述第二特征向量为固定长度。上述的一种基于多种语音特征融合的声纹识别方法,其中,将所述第三特征向量通过批量梯度下降法(BGD)进行说话人分类训练。上述的一种基于多种语音特征融合的声纹识别方法,其中,将所述第三特征向量通过随机梯度下降法(SGD)进行说话人分类训练,优选为此方法。上述的一种基于多种语音特征融合的声纹识别方法,其中,将所述第三特征向量通过小批量梯度下降法(MBGD)进行说话人分类训练。上述的一种基于多种语音特征融合的声纹识别方法,其中,所述第三特征向量为固定长度,第三特征向量通过将第一特征向量与第二特征向量进行连接形成全连接层(FClayer)。第二方面,一种基于多种语音特征融合的声纹识别系统,其中,包括:音频采集模块、原始频谱特征获取模块、MFCC特征获取模块、聚合层特征获取模块、融合模块、说话人分类模块;所述音频采集模块用于获取原始音频;所述原始频谱特征获取模块用于抽取所述原始音频中的原始频谱特征数据并将所述原始频谱特征数据传输至所述聚合层特征获取模块,将所述原始频谱特征聚合后输出第一特征向量;所述MFCC特征获取模块用于抽取所述原始音频中的MFCC特征数据并将所述MFCC特征数据传输至所述聚合层特征获取模块,将所述MFCC特征聚合后输出第二特征向量;所述聚合层特征获取模块用于接收所述原始频谱特征数据与所述MFCC特征数据并分别提取出第一特征向量与第二特征向量,并将所述第一特征向量与所述第二特征向量传输至所述融合模块;所述融合模块用于接收所述第一特征向量与所述第二特征向量并将所述第一特征向量与所述第二特征向量输入到深度神经网络中进行融合后输出第三特征向量;所述说话人分类模块用于对所述第三特征向量进行说话人分类。优选地,所述第一特征向量为固定长度。优选地,所述第二特征向量为固定长度。在其中一个或多个具体实施方式中,所述原始频谱特征获取模块聚合输出的过程包含以下步骤:将所述原始频谱特征经过二维卷积神经网络后得到原始频谱特征聚合层;提取并输出所述原始频谱特征聚合层中的所述第一特征向量。优选地,所述第一特征向量为固定长度。在其中一个或多个具体实施方式中,所述MFCC特征获取模块聚合输出的过程包含以下步骤:将所述MFCC特征经过一维卷积神经网络后得到MFCC特征聚合层;提取并输出所述MFCC特征聚合层中的所述第二特征向量。优选地,所述第二特征向量为固定长度。在其中一个或多个具体实施方式中,可以将所述第三特征向量通过批量梯度下降法进行说话人分类训练。在其中一个或多个具体实施方式中,可以将所述第三特征向量通过随机梯度下降法进行说话人分类训练。在其中一个或多个具体实施方式中,可以将所述第三特征向量通过小批量梯度下本文档来自技高网...

【技术保护点】
1.一种基于多种语音特征融合的声纹识别方法,其特征在于,包括以下步骤:/n获取原始音频;/n抽取所述原始音频中的原始频谱特征,将所述原始频谱特征聚合后输出第一特征向量;/n抽取所述原始音频中的MFCC特征,将所述MFCC特征聚合后输出第二特征向量;/n将所述第一特征向量与所述第二特征向量输入到深度神经网络中进行特征融合,输出第三特征向量;/n根据所述第三特征向量进行说话人分类。/n

【技术特征摘要】
1.一种基于多种语音特征融合的声纹识别方法,其特征在于,包括以下步骤:
获取原始音频;
抽取所述原始音频中的原始频谱特征,将所述原始频谱特征聚合后输出第一特征向量;
抽取所述原始音频中的MFCC特征,将所述MFCC特征聚合后输出第二特征向量;
将所述第一特征向量与所述第二特征向量输入到深度神经网络中进行特征融合,输出第三特征向量;
根据所述第三特征向量进行说话人分类。


2.如权利要求1所述的一种基于多种语音特征融合的声纹识别方法,其特征在于,所述原始频谱特征聚合输出的过程包含以下步骤:
将所述原始频谱特征经过二维卷积神经网络后得到原始频谱特征聚合层;
提取并输出所述原始频谱特征聚合层中的所述第一特征向量。


3.如权利要求1所述的一种基于多种语音特征融合的声纹识别方法,其特征在于,所述MFCC特征聚合输出的过程包含以下步骤:
将所述MFCC特征经过一维卷积神经网络后得到MFCC特征聚合层;
提取并输出所述MFCC特征聚合层中的所述第二特征向量。


4.如权利要求1所述的一种基于多种语音特征融合的声纹识别方法,其特征在于,将所述第三特征向量通过批量梯度下降法进行说话人分类训练。


5.一种基于多种语音特征融合的声纹识别系统,其特征在于,包括:
音频采集模块、原始频谱特征获取模块、MFCC特征获取模块、聚合层特征获取模块、融合模块、说话人分类模块;
所述音频采集模块用于获取原始音频;
所述原始频谱特征获取模块用于抽取所述原始音频中的原始频谱特征数据并将所述原始频谱特征数据传输至所述聚合层特征获取模块,将所述原始频谱特征聚合后输出第一特征向量;
所述MFCC特征获取模块用于抽取所述原始音频中的MFCC特征数据并将所述MFCC...

【专利技术属性】
技术研发人员:陈华官张志齐
申请(专利权)人:上海依图网络科技有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1