一种声纹特征提取方法、装置、电子设备及存储介质制造方法及图纸

技术编号:26069316 阅读:26 留言:0更新日期:2020-10-28 16:42
本申请实施例提供了一种声纹特征提取方法、装置、电子设备及存储介质,该方法包括:获取待识别语音数据;提取待识别语音数据的时域特征和频域特征;对时域特征和频域特征进行特征聚合,得到聚合后的特征,其中,在对时域特征和频域特征进行特征聚合的过程中,将相似度大于预设相似度的时域特征和频域特征聚合在一起;对聚合后的特征进行向量嵌入,得到声纹特征。可见,通过本申请实施例提供的技术方案,提取待识别语音数据的特征更加全面,并且,可以实现将同一用户的语音数据的时域特征和频域特征聚合在一起,增加聚合后的特征的区分度,从而提取的声纹特征的区分度更高,有利于提高声纹识别的准确率。

【技术实现步骤摘要】
一种声纹特征提取方法、装置、电子设备及存储介质
本申请涉及语音
,特别是涉及一种声纹特征提取方法、装置、电子设备及存储介质。
技术介绍
声纹识别又叫说话人识别,是一种根据说话人声音特征,来识别说话人身份的生物识别技术。可广泛应用于安防、金融、反欺诈等领域。其关键技术在于如何提取具有足够区分度的声纹特征,声纹特征的提取效果,直接影响了声纹识别的准确率。目前,声纹特征提取主要有基于高斯超向量因子分析的传统方法,在利用该方法提取声纹特征的过程中,由于将高维特征映射到低维向量过程中,因子选取的不确定性即无法确定哪些因子有效,以及低维向量包含的无关信道信息,严重影响了声纹特征的提取效果,直接影响了声纹识别的准确率。
技术实现思路
为解决相关技术中存在的因声纹特征的提取效果较差而导致声纹识别的准确率,本申请实施例提供了一种声纹特征提取方法、装置、电子设备及存储介质。第一方面,本申请实施例提供了一种声纹特征提取方法,所述方法包括:获取待识别语音数据;提取所述待识别语音数据的时域特征和频域特征;对所述时域特征和所述频域特征进行特征聚合,得到聚合后的特征,其中,在对所述时域特征和所述频域特征进行特征聚合的过程中,将相似度大于预设相似度的时域特征和频域特征聚合在一起;对所述聚合后的特征进行向量嵌入,得到声纹特征。可选的,所述提取所述待识别语音数据的时域特征和频域特征,包括:将所述待识别语音数据进行短时傅里叶变换,得到所述待识别语音数据的频谱图信息,所述频谱图信息包括:时域信息和频域信息;将所述频谱图信息的时域信息和频域信息输入到二维卷积神经网络,得到所述待识别语音数据的时域特征和频域特征。可选的,所述对所述时域特征和所述频域特征进行特征聚合,得到聚合后的特征,包括:将所述时域特征和所述频域特征输入到局部向量聚合层,以使得所述局部向量聚合层对时域信息或者频域信息相似度大于预设相似度的时域特征和频域特征聚合在一起。可选的,所述对所述聚合后的特征进行向量嵌入,得到声纹特征,包括:将所述聚合后的特征输入到全连接层,得到声纹特征。可选的,在所述对所述聚合后的特征进行向量嵌入,得到声纹特征之后,所述方法还包括:将所述声纹特征输入到分类器中,以使得所述分类器计算所述声纹特征与预先存储的预设声纹特征之间的相似度,并通过计算得到的相似度确定所述待识别语音数据对应的用户标识;其中,所述预设声纹特征对应预设用户的用户标识。第二方面,本申请实施例提供了一种声纹特征提取装置,所述装置包括:语音数据获取模块,用于获取待识别语音数据;特征提取模块,用于提取所述待识别语音数据的时域特征和频域特征;特征聚合模块,用于对所述时域特征和所述频域特征进行特征聚合,得到聚合后的特征,其中,在对所述时域特征和所述频域特征进行特征聚合的过程中,将相似度大于预设相似度的时域特征和频域特征聚合在一起;声纹特征获取模块,用于对所述聚合后的特征进行向量嵌入,得到声纹特征。可选的,所述特征提取模块,具体用于:将所述待识别语音数据进行短时傅里叶变换,得到所述待识别语音数据的频谱图信息,所述频谱图信息包括:时域信息和频域信息;将所述频谱图信息的时域信息和频域信息输入到二维卷积神经网络,得到所述待识别语音数据的时域特征和频域特征。可选的,所述特征聚合模块,具体用于:将所述时域特征和所述频域特征输入到局部向量聚合层,以使得所述局部向量聚合层对时域信息或者频域信息相似度大于预设相似度的时域特征和频域特征聚合在一起。可选的,所述声纹特征获取模块,具体用于:将所述聚合后的特征输入到全连接层,得到声纹特征。可选的,所述装置还包括:用户标识获取模块,用于在所述对所述聚合后的特征进行向量嵌入,得到声纹特征之后,将所述声纹特征输入到分类器中,以使得所述分类器计算所述声纹特征与预先存储的预设声纹特征之间的相似度,并通过计算得到的相似度确定所述待识别语音数据对应的用户标识;其中,所述预设声纹特征对应预设用户的用户标识。第三方面,本申请实施例提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现第一方面所述的声纹特征提取方法的步骤。第四方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现第一方面所述的声纹特征提取方法的步骤。本申请实施例提供的技术方案,在提取待识别语音数据的声纹特征时,获取待识别语音数据;提取待识别语音数据的时域特征和频域特征;对时域特征和频域特征进行特征聚合,得到聚合后的特征,其中,在对时域特征和频域特征进行特征聚合的过程中,将相似度大于预设相似度的时域特征和频域特征聚合在一起;对聚合后的特征进行向量嵌入,得到声纹特征。可见,通过本申请实施例提供的技术方案,提取待识别语音数据的特征更加全面,即包括待识别语音数据的时域特征和频域特征,并且,通过将相似度大于预设相似度的时域特征和频域特征聚合在一起,可以实现将同一用户的语音数据的时域特征和频域特征聚合在一起,增加聚合后的特征的区分度,从而提取的声纹特征的区分度更高,有利于提高声纹识别的准确率。附图说明图1是本申请实施例提供的一种声纹特征提取方法的步骤流程图;图2是本申请实施例提供的另一种声纹特征提取方法的步骤流程图;图3是本申请实施例提供的一种声纹特征提取装置的结构框图;图4是本申请实施例提供的一种电子设备的结构框图。具体实施方式为使本申请的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本申请作进一步详细的说明。为解决相关技术中存在的因声纹特征的提取效果较差而导致声纹识别的准确率,本申请实施例提供了一种声纹特征提取方法、装置、电子设备及存储介质。第一方面,对本申请实施例提供的一种声纹特征提取方法进行详细介绍。如图1所示,本申请实施例提供的一种声纹特征提取方法,可以包括如下步骤:S110,获取待识别语音数据。具体的,待识别语音数据可以是任一用户的语音数据,本申请实施例对待识别语音数据不做具体限定。S120,提取待识别语音数据的时域特征和频域特征。在获取到待识别语音数据之后,为了使得所提取的待识别语音的特征更加全面,可以提取待识别语音数据的时域特征和频域特征。而不像现有技术那样,只提取待识别语音数据的时域特征。其中,时域特征可以是用于表征待识别语音数据的频谱图的时域相关信息的向量;频域特征可以是用于表征待识别语音数据的频谱图的频域相关信息的向量。在一种实施方式中,提取待识别语音数据的时域特征和频域特征,可以包括如下步骤,分别为步骤a1和步骤a2:步骤a1,将待识别语音数据进行短时傅里叶变换,本文档来自技高网...

【技术保护点】
1.一种声纹特征提取方法,其特征在于,所述方法包括:/n获取待识别语音数据;/n提取所述待识别语音数据的时域特征和频域特征;/n对所述时域特征和所述频域特征进行特征聚合,得到聚合后的特征,其中,在对所述时域特征和所述频域特征进行特征聚合的过程中,将相似度大于预设相似度的时域特征和频域特征聚合在一起;/n对所述聚合后的特征进行向量嵌入,得到声纹特征。/n

【技术特征摘要】
1.一种声纹特征提取方法,其特征在于,所述方法包括:
获取待识别语音数据;
提取所述待识别语音数据的时域特征和频域特征;
对所述时域特征和所述频域特征进行特征聚合,得到聚合后的特征,其中,在对所述时域特征和所述频域特征进行特征聚合的过程中,将相似度大于预设相似度的时域特征和频域特征聚合在一起;
对所述聚合后的特征进行向量嵌入,得到声纹特征。


2.根据权利要求1所述的方法,其特征在于,所述提取所述待识别语音数据的时域特征和频域特征,包括:
将所述待识别语音数据进行短时傅里叶变换,得到所述待识别语音数据的频谱图信息,所述频谱图信息包括:时域信息和频域信息;
将所述频谱图信息的时域信息和频域信息输入到二维卷积神经网络,得到所述待识别语音数据的时域特征和频域特征。


3.根据权利要求2所述的方法,其特征在于,所述对所述时域特征和所述频域特征进行特征聚合,得到聚合后的特征,包括:
将所述时域特征和所述频域特征输入到局部向量聚合层,以使得所述局部向量聚合层对时域信息或者频域信息相似度大于预设相似度的时域特征和频域特征聚合在一起。


4.根据权利要求3所述的方法,其特征在于,所述对所述聚合后的特征进行向量嵌入,得到声纹特征,包括:
将所述聚合后的特征输入到全连接层,得到声纹特征。


5.根据权利要求1至4任一项所述的方法,其特征在于,在所述对所述聚合后的特征进行向量嵌入,得到声纹特征之后,所述方法还包括:
将所述声纹特征输入到分类器中,以使得所述分类器计算所述声纹特征与预先存储的预设声纹特征之间的相似度,并通过计算得到的相似度确定所述待识别语音数据对应的用户标识;
其中,所述预设声纹特征对应预设用户的用户标识。


6.一种声纹特征提取装置,其特征在于,所述装置包括:
语音数据获取模块,用于获取待识别语音数据;
特征提取模块,用于提取所述待识别语音数据的时域特征和频域特征;
特征聚合模块...

【专利技术属性】
技术研发人员:邹佳宏
申请(专利权)人:北京三快在线科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1