一种基于多种语音特征融合的声纹识别方法及系统技术方案

技术编号：25227292 阅读：28 留言：0更新日期：2020-08-11 23:15

本发明专利技术公开了一种基于多种语音特征融合的声纹识别方法与系统，方法以下步骤：获取原始音频；抽取所述原始音频中的原始频谱特征，将所述原始频谱特征聚合后输出第一特征向量；抽取所述原始音频中的MFCC特征，将所述MFCC特征聚合后输出第二特征向量；将所述第一特征向量与所述第二特征向量输入到深度神经网络中进行特征融合，输出第三特征向量；根据所述第三特征向量进行说话人分类；系统包括音频采集模块、原始频谱特征获取模块、MFCC特征获取模块、聚合层特征获取模块、融合模块、说话人分类模块。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于多种语音特征融合的声纹识别方法及系统
本专利技术涉及声纹识别
，具体涉及一种基于多种语音特征融合的声纹识别方法及系统。
技术介绍
随着信息技术的发展，互联网的普及，需要用到人的身份识别的应用场合越来越多，传统的需求方面有各种网上账户的需要，在线支付、门禁等等，而随着互联网及人工智能的应用推广，根据不同的人的习惯特点需要不同的身份识别方法与系统，比如指纹、人脸、声纹识别，其中声纹识别是生物识别技术的一种，通过对语音进行处理可生成用于指示该语音输入者身份信息的身份向量，可通过计算两端语音的身份向量之间的相似度来确定这两段语音的输入者是否为同一用户，但是语音易受到信道的变性和环境的变性，并且基于单一某种的语音特征进行声纹识别时，会极大的降低其准确率，因此需要一种能够融合多种语音特征进行声纹识别的方法与系统。
技术实现思路
语音是人通过声道产生声音，声道的形状等因素决定了发出怎样的声音，声道的形状等因素包括舌头、牙齿等，声道的形状在语音短时功率谱的包络中显示出来。MFCC（或MFCCs）（MelFrequencyCepstralCoefficents）又称为梅尔倒谱系数，是一种准确描述这个包络的一种特征，MFCC是一种在自动语音和说话人识别中广泛使用的特征，在1980年由Davis和Mermelstein提出，在梅尔频谱上面取得的倒谱系数就称为梅尔倒谱系数，简称MFCC。梅尔倒谱系数是由一种音频剪辑（一种非线性的“光谱-频谱”）的一种“感知”表示形式派生出来的，在梅尔频率倒谱...

【技术保护点】
1.一种基于多种语音特征融合的声纹识别方法，其特征在于，包括以下步骤：/n获取原始音频；/n抽取所述原始音频中的原始频谱特征，将所述原始频谱特征聚合后输出第一特征向量；/n抽取所述原始音频中的MFCC特征，将所述MFCC特征聚合后输出第二特征向量；/n将所述第一特征向量与所述第二特征向量输入到深度神经网络中进行特征融合，输出第三特征向量；/n根据所述第三特征向量进行说话人分类。/n

【技术特征摘要】
1.一种基于多种语音特征融合的声纹识别方法，其特征在于，包括以下步骤：
获取原始音频；
抽取所述原始音频中的原始频谱特征，将所述原始频谱特征聚合后输出第一特征向量；
抽取所述原始音频中的MFCC特征，将所述MFCC特征聚合后输出第二特征向量；
将所述第一特征向量与所述第二特征向量输入到深度神经网络中进行特征融合，输出第三特征向量；
根据所述第三特征向量进行说话人分类。

2.如权利要求1所述的一种基于多种语音特征融合的声纹识别方法，其特征在于，所述原始频谱特征聚合输出的过程包含以下步骤：
将所述原始频谱特征经过二维卷积神经网络后得到原始频谱特征聚合层；
提取并输出所述原始频谱特征聚合层中的所述第一特征向量。

3.如权利要求1所述的一种基于多种语音特征融合的声纹识别方法，其特征在于，所述MFCC特征聚合输出的过程包含以下步骤：
将所述MFCC特征经过一维卷积神经网络后得到MFCC特征聚合层；
提取并输出所述MFCC特征聚合层中的所述第二特征向量。

4.如权利要求1所述的一种基于多种语音特征融合的声纹识别方法，其特征在于，将所述第三特征向量通过批量梯度下降法进行说话人分类训练。

5.一种基于多种语音特征融合的声纹识别系统，其特征在于，包括：
音频采集模块、原始频谱特征获取模块、MFCC特征获取模块、聚合层特征获取模块、融合模块、说话人分类模块；
所述音频采集模块用于获取原始音频；
所述原始频谱特征获取模块用于抽取所述原始音频中的原始频谱特征数据并将所述原始频谱特征数据传输至所述聚合层特征获取模块，将所述原始频谱特征聚合后输出第一特征向量；
所述MFCC特征获取模块用于抽取所述原始音频中的MFCC特征数据并将所述MFCC...

【专利技术属性】
技术研发人员：陈华官，张志齐，
申请(专利权)人：上海依图网络科技有限公司，
类型：发明
国别省市：上海;31

全部详细技术资料下载我是这个专利的主人