声纹信息提取方法、装置、电子设备及存储介质制造方法及图纸

技术编号:35738323 阅读:15 留言:0更新日期:2022-11-26 18:41
本申请公开了一种声纹信息提取方法、装置、电子设备及存储介质。方法包括:通过声纹提取模型对目标语音信息进行处理,得到对应目标语音信息的目标协方差、目标方差以及目标均值;通过声纹提取模型中的双线性参数层对目标协方差进行降维处理,得到目标一维数据;对目标方差、目标均值以及目标一维数据进行拼接操作,得到目标拼接结果;通过声纹提取模型对目标拼接结果进行处理,得到对应目标语音信息的声纹信息。在本申请中,目标协方差准确的表征了目标语音信息的时间维度与频率维度的特征信息,从而使得目标拼接结果可以准确的表征目标语音信息的声纹特征,进而提高了提取的声纹信息的准确率。信息的准确率。信息的准确率。

【技术实现步骤摘要】
声纹信息提取方法、装置、电子设备及存储介质


[0001]本申请涉及音频处理
,更具体地,涉及一种声纹信息提取方法、装置、电子设备及存储介质。

技术介绍

[0002]声纹识别是一种借助声音完成对语音用户身份识别的技术,是语音领域重要的研究方向之一。随着计算机技术的不断发展,声纹识别在近年来得到很大的发展,加上方便有效的特点,其已然成为一种高效的身份识别方法,在公安、银行、智能家居中都有着广泛地应用。
[0003]目前,可以通过样本对深度神经网络进行训练,得到声纹提取模型,然后通过声纹提取模型对待提取语音信息进行声纹提取。但是,采用该方法对待提取语音信息进行声纹提取,提取的声纹信息的准确率较低。

技术实现思路

[0004]有鉴于此,本申请实施例提出了一声纹信息提取方法、装置、电子设备及存储介质。
[0005]第一方面,本申请实施例提供了一种声纹信息提取方法,所述方法包括:通过声纹提取模型对目标语音信息进行处理,得到对应所述目标语音信息的目标协方差、目标方差以及目标均值;通过所述声纹提取模型中的双线性参数层对所述目标协方差进行降维处理,得到目标一维数据;对所述目标方差、所述目标均值以及所述目标一维数据进行拼接操作,得到目标拼接结果;通过所述声纹提取模型对所述目标拼接结果进行处理,得到对应所述目标语音信息的声纹信息。
[0006]第二方面,本申请实施例提供了一种声纹信息提取装置,所述装置包括:语音处理模块,用于通过声纹提取模型对目标语音信息进行处理,得到对应所述目标语音信息的目标协方差、目标方差以及目标均值;降维模块,用于通过所述声纹提取模型中的双线性参数层对所述目标协方差进行降维处理,得到目标一维数据;拼接模块,用于对所述目标方差、所述目标均值以及所述目标一维数据进行拼接操作,得到目标拼接结果;声纹获得模块,用于通过所述声纹提取模型对所述目标拼接结果进行处理,得到对应所述目标语音信息的声纹信息。
[0007]第三方面,本申请实施例提供了一种电子设备,包括处理器以及存储器;一个或多个程序被存储在存储器中并被配置为由处理器执行以实现上述的方法。
[0008]第四方面,本申请实施例提供了一种计算机可读存储介质,计算机可读存储介质中存储有程序代码,其中,在程序代码被处理器运行时执行上述的方法。
[0009]第五方面,本申请实施例提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。电子设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得
该电子设备执行上述的方法。
[0010]本申请实施例提供的一种声纹信息提取方法、装置、电子设备及存储介质,通过声纹提取模型对目标语音信息进行处理,得到目标协方差、目标方差以及目标均值,并对目标协方差对应的目标一维数据、目标方差以及目标均值进行拼接,得到目标拼接结果,然后再根据目标拼接结果得到声纹信息,目标协方差准确的表征了目标语音信息的时间维度与频率维度的特征信息,从而使得目标拼接结果可以准确的表征目标语音信息的声纹特征,进而提高了提取的声纹信息的准确率。
附图说明
[0011]为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0012]图1示出了本申请实施例中声纹提取模型的一种训练方法的流程图;
[0013]图2示出了本申请实施例中目标模型的结构示意图;
[0014]图3示出了图1中步骤S140的一种实施方式的流程图;
[0015]图4示出了本申请实施例中深度统计池化层的结构示意图;
[0016]图5示出了本申请一个实施例提出的一种声纹信息提取方法的流程图;
[0017]图6示出了本申请一个实施例提出的一种声纹信息提取装置的框图;
[0018]图7示出了本申请一个实施例提出的一种电子设备的结构框图。
具体实施方式
[0019]下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。根据本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0020]在以下的描述中,所涉及的术语“第一\第二”仅仅是是区别类似的对象,不代表针对对象的特定排序,可以理解地,“第一\第二”在允许的情况下可以互换特定的顺序或先后次序,以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。
[0021]除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的
的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的,不是旨在限制本申请。
[0022]请参阅图1,图1示出了本申请实施例中声纹提取模型的一种训练方法的流程图,方法可以用于电子设备,方法包括:
[0023]S110、通过目标模型对样本语音信息进行处理,得到对应所述样本语音信息的协方差、方差以及均值。
[0024]样本语音信息可以是指用于训练目标模型的语音信息,其可以是任意格式的语音,例如mp3、aac等。样本语音信息可以是电子设备录制的或是电子设备从网络上获取的。样本语音信息可以是一条或多条,当样本语音信息包括多条时,每条样本语音信息作为一
个批次的训练样本。
[0025]目标模型是指用于获得声纹提取模型的基础模型,通过目标模型对样本语音信息进行处理,得到样本语音信息的协方差、方差以及均值。
[0026]作为一种实施方式,所述样本语音信息包括多个音频帧,S110可以包括:通过所述目标模型对所述多个音频帧进行特征提取,得到与所述多个音频帧一一对应的多个音频帧特征;根据所述多个音频帧特征,得到对应所述样本语音信息的协方差、方差以及均值。其中,在本申请中协方差是指协方差矩阵。
[0027]样本语音信息可以包括多个音频帧,例如,1s样本语音信息通常可以包括30个音频帧或60个音频帧等。用户可以设定时移(时移是指一个音频帧的时长),电子设备根据设定的时移,确定样本语音信息所包括的音频帧的总数,例如时移为10ms,样本语音信息为2s,得到的音频帧的总数为200个。
[0028]目标模型可以包括输入层,输入层可以是神经网络输入层,通过输入层对多个音频帧进行特征提取,得到与所述多个音频帧一一对应的多个音频帧特征,对每个音频帧进行特征提取后,得到的特征作为一个音频帧特征,每个音频帧特征可以包括多个维度的数值。
[0029]相应的,输入层的维度的数量与音频帧特征的维度的数量是相同的,输入层的一个维度用于对音频帧特征的一个维度进行处理。例如,输入的样本语音信息具有T帧,得到的音频帧特征为x...

【技术保护点】

【技术特征摘要】
1.一种声纹信息提取方法,其特征在于,所述方法包括:通过声纹提取模型对目标语音信息进行处理,得到对应所述目标语音信息的目标协方差、目标方差以及目标均值;通过所述声纹提取模型中的双线性参数层对所述目标协方差进行降维处理,得到目标一维数据;对所述目标方差、所述目标均值以及所述目标一维数据进行拼接操作,得到目标拼接结果;通过所述声纹提取模型对所述目标拼接结果进行处理,得到对应所述目标语音信息的声纹信息。2.根据权利要求1所述的方法,其特征在于,所述声纹提取模型的训练方法,包括:通过目标模型对样本语音信息进行处理,得到对应所述样本语音信息的协方差、方差以及均值;通过所述目标模型中的双线性参数层对所述协方差进行降维处理,得到降维后的结果,并对所述降维后的结果进行平方根规整操作,得到一维数据;对所述方差、所述均值以及所述一维数据进行拼接操作,得到拼接结果;根据所述拼接结果对所述目标模型进行训练,得到声纹提取模型。3.根据权利要求2所述的方法,其特征在于,所述样本语音信息包括多个音频帧;所述通过目标模型对样本语音信息进行处理,得到对应所述样本语音信息的协方差、方差以及均值,包括:通过所述目标模型对所述多个音频帧进行特征提取,得到与所述多个音频帧一一对应的多个音频帧特征;根据所述多个音频帧特征,得到对应所述样本语音信息的协方差、方差以及均值。4.根据权利要求2所述的方法,其特征在于,所述目标模型中的双线性参数层包括参数矩阵;所述通过所述目标模型中的双线性参数层对所述协方差进行降维处理,得到降维后的结果,包括:通过所述参数矩阵,对所述协方差中的每列数据进行转换,得到所述协方差中的每列数据各自对应的转换结果;对所述协方差中的每列数据各自对应的转换结果进行拼接操作,得到所述降维后的结果。5.根据权利要求4所述的方法,其特征在于,所述通过所述参数矩阵,对所述协方差中的每列数据进行转换,得到所述协方差中的每列数据各自对应的转换结果,包括:通过所述参数矩阵,根据公式一,对所述协方差中的每列数据进行转换,得到所述协方差中的每列数据各自对应的转换结果;所述公式一为:其中,w
j
是所述参数矩阵的第j列,为w
j
的转置矩阵,C为所述协方差,z
j

【专利技术属性】
技术研发人员:黎荣晋陈东鹏
申请(专利权)人:深圳市声扬科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1