声纹信息提取、模型训练与声纹识别的方法和装置制造方法及图纸

技术编号:33421089 阅读:9 留言:0更新日期:2022-05-19 00:13
公开了一种声纹信息提取、相关模型训练与声纹识别的方案。所述声纹信息提取方法,包括:获取第一语音片段的第一语音特征;计算表征第一语音特征和第二语音特征相似度的相似度函数;以及根据所述相似度函数,计算并入了所述第一语音特征和所述第二语音特征的增强的声纹信息。本发明专利技术能够利用带有相关性的多条语音信息,基于其相似性求取增强的声纹信息,从而提升了声纹识别的准确性。上述识别可以利用神经网络训练的的声纹模型进行,以提升声纹提取的准确性和效率。上述方案可由语音交互设备,例如智能音箱,在单轮对话时间过短的多轮对话中使用,由此利用连续对话中的上一轮或多轮语音的声纹特征,对接下来对话的语音声纹特征进行有效增强。行有效增强。行有效增强。

【技术实现步骤摘要】
声纹信息提取、模型训练与声纹识别的方法和装置


[0001]本公开涉及一种语音处理领域,尤其涉及一种声纹信息提取、模型训练与声纹识别的方法和装置。

技术介绍

[0002]伴随着信息技术和网络技术的迅猛发展,人们对身份识别技术的需求越来越多,对其安全可靠性的要求也越来越严格。基于传统密码认证的身份识别技术在实际信息网络应用中已经暴露出许多不足之处,而基于生物特征辨别的身份识别技术近年来也日益成熟并在实际应用中展现出极大的优越性。其中,声纹识别技术便是近年来发展起来的一种新的更有效的身份识别技术之一。
[0003]声纹是指说话人语音频谱的信息图。由于每个人的发音器官不同,所发出来的声音及其音调各不相同,因此,声纹作为基本特征来实现人的身份识别具有实际的不可替代性和稳定性,使声纹识别技术广泛地应用于信息网络的各个领域。例如,声纹识别可以确保智能音箱仅对来自特定用户的指令做出反应。但在某些应用场景中,例如连续对话的后几轮对话中,用户的语音会比较短,如回答“是”、“好的”,由此增大了声纹提取的难度。
[0004]为此,需要一种能够进行声纹增强的处理技术。

技术实现思路

[0005]本公开要解决的一个技术问题是提供一种声纹信息提取、相关模型训练与声纹识别的方案。该方案能够利用带有相关性的多条语音信息,基于其相似性求取增强的声纹信息,从而提升了声纹识别的准确性。
[0006]根据本公开的第一个方面,提供了一种声纹信息提取方法,包括:获取第一语音片段的第一语音特征;计算表征第一语音特征和第二语音特征相似度的相似度函数;以及根据所述相似度函数,计算并入了所述第一语音特征和所述第二语音特征的增强的声纹信息。
[0007]根据本公开的第二个方面,提供了一种声纹模型训练方法,包括:获取训练语音片段对及其对应的标签数据,其中,所述语音特征对包括基准语音片段和至少两个待匹配语音片段;对所述训练语音片段对中的语音片段数据进行特征提取处理,得到训练样本特征集;以及基于所述训练样本特征集以及对应的标签数据采用预设的神经网络结构进行训练,得到所述声纹模型,其中,在所述训练过程中,求取所述至少两个待匹配语音片段的对应语音特征的相似度,并根据所述相似度合成得到增强的声纹信息;将所述增强的声纹信息与所述基准语音片段对应的声纹信息的匹配结果作为所述声纹模型的输出。
[0008]根据本公开的第三个方面,提供了一种声纹识别方法,包括:接收用户的当前语音输入;提取所述当前语音输入的当前语音特征;计算表征当前语音特征与在前语音特征的相似度函数;根据所述相似度函数,计算增强的声纹信息;以及基于所述增强的声纹信息识别所述用户的身份。
[0009]根据本公开的第四个方面,提供了一种声纹信息提取装置,包括:特征获取单元,用于获取第一语音片段的第一语音特征;相似度计算单元,用于计算表征第一语音特征和第二语音特征相似度的相似度函数;以及增强声纹计算单元,用于根据所述相似度函数,计算并入了所述第一语音特征和所述第二语音特征的增强的声纹信息。
[0010]根据本公开的第五个方面,提供了一种声纹模型训练装置,包括:数据获取单元,用于获取训练语音片段对及其对应的标签数据,其中,所述语音特征对包括基准语音片段和至少两个待匹配语音片段;特征提取单元,用于对所述训练语音片段对中的语音片段数据进行特征提取处理,得到训练样本特征集;以及模型训练单元,用于基于所述训练样本特征集以及对应的标签数据采用预设的神经网络结构进行训练,得到所述声纹模型,其中,在所述训练过程中,求取所述至少两个待匹配语音片段的对应语音特征的相似度,并根据所述相似度合成得到增强的声纹信息;将所述增强的声纹信息与所述基准语音片段对应的声纹信息的匹配结果作为所述声纹模型的输出。
[0011]根据本公开的第六个方面,提供了一种语音交互设备,包括:声音采集模块,用于采集声音信息;特征提取模块,用于提取采集的声音信息中所包含的语音特征;语音识别模块,用于识别语音特征中的语义;声纹识别模块,用于从所述语音特征中提取声纹,以进行声纹识别,其中,所述声音采集模块从至少两轮对话中采集声音信息,用于基于声音信息的相似度合成增强的声纹信息,并且所述声纹识别模块基于所述增强的声纹信息进行声纹识别。
[0012]根据本公开的第七个方面,提供了一种物联网设备,包括:声音采集模块,用于采集声音信息;语音识别模块,用于识别语音特征中的语义;执行模块,用于基于识别的语义执行相应操作,其中所述声音采集模块采集的声音信息和其他物联网设备采集的其他声音信息被用于基于声音信息的相似度合成增强的声纹信息,以供声纹识别设备基于所述增强的声纹信息进行声纹识别。
[0013]根据本公开的第八个方面,提供了一种物联网设备,包括:声音采集模块,用于从至少两轮对话中采集声音信息;语音识别模块,用于识别语音特征中的语义;执行模块,用于基于识别的语义执行相应操作,联网模块,用于将所述声音采集模块中采集的声音信息上传给声纹识别设备,所述声纹识别设备根据基于声音信息的相似度合成增强的声纹信息来进行声纹识别。
[0014]根据本公开的第九个方面,提供了一种语音交互系统,包括:如第六方面所述的多个语音交互设备和/或第七第八方面所述的多个物联网设备;以及其上布置有基于神经网络训练的声纹模型的服务器。
[0015]根据本公开的第十个方面,提供了一种计算设备,包括:处理器;以及存储器,其上存储有可执行代码,当可执行代码被处理器执行时,使处理器执行如上述第一至第三方面所述的方法。
[0016]根据本公开的第十一个方面,提供了一种非暂时性机器可读存储介质,其上存储有可执行代码,当可执行代码被电子设备的处理器执行时,使处理器执行如上述第一至第三方面所述的方法。
[0017]由此,本专利技术能够利用带有相关性的多条语音信息,基于其相似性求取增强的声纹信息,从而提升了声纹识别的准确性。本专利技术优选使用神经网络训练的声纹模型来进行
增强声纹信息的求取,从而进一步提升了声纹提取的准确性和效率。上述方法尤其可由语音交互设备,例如智能音箱,在单轮对话时间过短的多轮对话中使用,由此利用连续对话中的上一轮或多轮语音的声纹特征,对接下来对话的语音声纹特征进行有效增强。
附图说明
[0018]通过结合附图对本公开示例性实施方式进行更详细的描述,本公开的上述以及其它目的、特征和优势将变得更加明显,其中,在本公开示例性实施方式中,相同的参考标号通常代表相同部件。
[0019]图1示出了声纹识别的分类。
[0020]图2示出了根据本专利技术一个实施例的声纹信息提取方法的示意性流程图。
[0021]图3示出了根据本专利技术一个实施例的声纹模型训练方法的示意性流程图。
[0022]图4示出了使用神经网络提取声纹信息的一个例子。
[0023]图5示出了本专利技术声纹模型的一个例子。
[0024]图6示出了根据本专利技术一个实施例的声纹识别方法的示意性流程图。
[0025]图7示出了根据本发本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种声纹信息提取方法,包括:获取第一语音片段的第一语音特征;计算表征第一语音特征和第二语音特征相似度的相似度函数;以及根据所述相似度函数,计算并入了所述第一语音特征和所述第二语音特征的增强的声纹信息。2.如权利要求1所述的方法,还包括:基于所述第一语音特征,提取所述第一声纹特征;基于所述第二语音特征,提取所述第二声纹特征,并且,计算表征第一语音特征和第二语音特征相似度的相似度函数包括:计算第一声纹特征和第二声纹特征的相似度函数,根据所述相似度函数,计算合并所述第一语音特征和所述第二语音特征的增强的声纹信息包括:根据所述相似度,合并所述第一声纹特征和所述第二声纹特征,得到增强的声纹信息。3.如权利要求1所述的方法,其中,根据所述相似度函数,计算合并所述第一语音特征和所述第二语音特征的增强的声纹信息包括:根据所述相似度,合并所述第一语音特征和第二语音特征,得到增强的语音特征;以及基于所述增强的语音特征,提取所述增强的声纹信息。4.如权利要求2或3所述的方法,还包括:获取第二语音片段的所述第二语音特征;其中,所述第一语音片段包括当前语音片段,所述第二语音片段包括在前语音片段。5.如权利要求2或3所述的方法,其中,基于神经网络训练的声纹模型进行所述相似度函数的计算和声纹特征的提取。6.如权利要求2或3所述的方法,还包括:基于所述增强的声纹信息,识别说话人身份。7.如权利要求6所述的方法,其中,基于所述增强的声纹信息,识别说话人身份包括:所述声纹模型基于所述增强的声纹信息输出所述增强的声纹信息与所述基准声纹是否匹配的概率。8.如权利要求1所述的方法,其中,计算表征第一语音特征和第二语音特征相似度的相似度函数包括:利用内积计算表征第一语音特征和第二语音特征相似度的相似度函数。9.如权利要求1所述的方法,其中,根据所述相似度函数,计算并入了所述第一语音特征和所述第二语音特征的增强的声纹信息包括:将求取的相似度函数作为第二语音特征的权重,以求取增强的声纹信息。10.如权利要求1所述的方法,还包括:对所述第一语音特征进行降采样,得到降采样的第一语音特征;对所述第二语音特征进行降采样,得到降采样的第二语音特征,并且计算表征第一语音特征和第二语音特征相似度的相似度函数包括:计算表征降采样的第一语音特征和降采样的第二语音特征相似度的相似度函数。11.一种声纹模型训练方法,包括:
获取训练语音片段对及其对应的标签数据,其中,所述语音特征对包括基准语音片段和至少两个待匹配语音片段;对所述训练语音片段对中的语音片段数据进行特征提取处理,得到训练样本特征集;以及基于所述训练样本特征集以及对应的标签数据采用预设的神经网络结构进行训练,得到所述声纹模型,其中,在所述训练过程中,求取所述至少两个待匹配语音片段的对应语音特征的相似度,并根据所述相似度合成得到增强的声纹信息;将所述增强的声纹信息与所述基准语音片段对应的声纹信息的匹配结果作为所述声纹模型的输出。12.如权利要求11所述的方法,其中,所述声纹模型包括相似度计算模块,并且基于所述训练样本特征集以及对应的标签数据采用预设的神经网络结构进行训练包括:以连续相似度损失函数对所述神经网络的网络参数进行调整,其中所述连续相似度损失函数用于描述所述相似度函数与相似度标签数据之间的损失。13.如权利要求12所述的方法,其中,所述声纹模型包括合并模块,并且基于所述训练样本特征集以及对应的标签数据采用预设的神经网络结构进行训练包括:以相似度损失函数对所述神经网络的网络参数进行调整,其中所述相似度损失函数用于描述所述增强的声纹信息与声纹标签数据之间的损失。14.如权利要求13所述的方法,其中,基于所述训练样本特征集以及对应的标签数据采用预设的神经网络结构进行训练包括:通过使得所述连续相似度损失函数和所述相似度损失函数之和最小,来调整所述神经网络的网络参数。15.如权利要求11所述的方法,还包括:利用卷积神经网络对训练样本特征集中包含的语音特征进行降采样。16.如权利要求11所述的方法,其中,求取所述至少两个待匹配语音片段的对应语音特征的相似度,并根据所述相似度合成得到增强的声纹信息包括:求取一个待匹配语音片段的声纹特征作为待增强声纹特征;计算所述待增强声纹特征和所述在前声纹特征的相似度,其中,所述在前声纹特征是基于在前输入模型的至少一个待匹配语音片段获取的。17.一种声纹识别方法,包括:接收用户的当前语音输入...

【专利技术属性】
技术研发人员:张跃伟朱磊马建波
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1