声纹信息提取、模型训练与声纹识别的方法和装置制造方法及图纸

技术编号：33421089 阅读：9 留言：0更新日期：2022-05-19 00:13

公开了一种声纹信息提取、相关模型训练与声纹识别的方案。所述声纹信息提取方法，包括：获取第一语音片段的第一语音特征；计算表征第一语音特征和第二语音特征相似度的相似度函数；以及根据所述相似度函数，计算并入了所述第一语音特征和所述第二语音特征的增强的声纹信息。本发明专利技术能够利用带有相关性的多条语音信息，基于其相似性求取增强的声纹信息，从而提升了声纹识别的准确性。上述识别可以利用神经网络训练的的声纹模型进行，以提升声纹提取的准确性和效率。上述方案可由语音交互设备，例如智能音箱，在单轮对话时间过短的多轮对话中使用，由此利用连续对话中的上一轮或多轮语音的声纹特征，对接下来对话的语音声纹特征进行有效增强。行有效增强。行有效增强。

全部详细技术资料下载

【技术实现步骤摘要】
声纹信息提取、模型训练与声纹识别的方法和装置

[0001]本公开涉及一种语音处理领域，尤其涉及一种声纹信息提取、模型训练与声纹识别的方法和装置。

技术介绍

[0002]伴随着信息技术和网络技术的迅猛发展，人们对身份识别技术的需求越来越多，对其安全可靠性的要求也越来越严格。基于传统密码认证的身份识别技术在实际信息网络应用中已经暴露出许多不足之处，而基于生物特征辨别的身份识别技术近年来也日益成熟并在实际应用中展现出极大的优越性。其中，声纹识别技术便是近年来发展起来的一种新的更有效的身份识别技术之一。
[0003]声纹是指说话人语音频谱的信息图。由于每个人的发音器官不同，所发出来的声音及其音调各不相同，因此，声纹作为基本特征来实现人的身份识别具有实际的不可替代性和稳定性，使声纹识别技术广泛地应用于信息网络的各个领域。例如，声纹识别可以确保智能音箱仅对来自特定用户的指令做出反应。但在某些应用场景中，例如连续对话的后几轮对话中，用户的语音会比较短，如回答“是”、“好的”，由此增大了声纹提取的难度。
[0004]为此，需要一种能够进行声纹增强的处理技术。

技术实现思路

[0005]本公开要解决的一个技术问题是提供一种声纹信息提取、相关模型训练与声纹识别的方案。该方案能够利用带有相关性的多条语音信息，基于其相似性求取增强的声纹信息，从而提升了声纹识别的准确性。
[0006]根据本公开的第一个方面，提供了一种声纹信息提取方法，包括：获取第一语音片段的第一语音特征；计算表征第一语音特征和第二语音...

【技术保护点】

【技术特征摘要】
1.一种声纹信息提取方法，包括：获取第一语音片段的第一语音特征；计算表征第一语音特征和第二语音特征相似度的相似度函数；以及根据所述相似度函数，计算并入了所述第一语音特征和所述第二语音特征的增强的声纹信息。2.如权利要求1所述的方法，还包括：基于所述第一语音特征，提取所述第一声纹特征；基于所述第二语音特征，提取所述第二声纹特征，并且，计算表征第一语音特征和第二语音特征相似度的相似度函数包括：计算第一声纹特征和第二声纹特征的相似度函数，根据所述相似度函数，计算合并所述第一语音特征和所述第二语音特征的增强的声纹信息包括：根据所述相似度，合并所述第一声纹特征和所述第二声纹特征，得到增强的声纹信息。3.如权利要求1所述的方法，其中，根据所述相似度函数，计算合并所述第一语音特征和所述第二语音特征的增强的声纹信息包括：根据所述相似度，合并所述第一语音特征和第二语音特征，得到增强的语音特征；以及基于所述增强的语音特征，提取所述增强的声纹信息。4.如权利要求2或3所述的方法，还包括：获取第二语音片段的所述第二语音特征；其中，所述第一语音片段包括当前语音片段，所述第二语音片段包括在前语音片段。5.如权利要求2或3所述的方法，其中，基于神经网络训练的声纹模型进行所述相似度函数的计算和声纹特征的提取。6.如权利要求2或3所述的方法，还包括：基于所述增强的声纹信息，识别说话人身份。7.如权利要求6所述的方法，其中，基于所述增强的声纹信息，识别说话人身份包括：所述声纹模型基于所述增强的声纹信息输出所述增强的声纹信息与所述基准声纹是否匹配的概率。8.如权利要求1所述的方法，其中，计算表征第一语音特征和第二语音特征相似度的相似度函数包括：利用内积计算表征第一语音特征和第二语音特征相似度的相似度函数。9.如权利要求1所述的方法，其中，根据所述相似度函数，计算并入了所述第一语音特征和所述第二语音特征的增强的声纹信息包括：将求取的相似度函数作为第二语音特征的权重，以求取增强的声纹信息。10.如权利要求1所述的方法，还包括：对所述第一语音特征进行降采样，得到降采样的第一语音特征；对所述第二语音特征进行降采样，得到降采样的第二语音特征，并且计算表征第一语音特征和第二语音特征相似度的相似度函数包括：计算表征降采样的第一语音特征和降采样的第二语音特征相似度的相似度函数。11.一种声纹模型训练方法，包括：
获取训练语音片段对及其对应的标签数据，其中，所述语音特征对包括基准语音片段和至少两个待匹配语音片段；对所述训练语音片段对中的语音片段数据进行特征提取处理，得到训练样本特征集；以及基于所述训练样本特征集以及对应的标签数据采用预设的神经网络结构进行训练，得到所述声纹模型，其中，在所述训练过程中，求取所述至少两个待匹配语音片段的对应语音特征的相似度，并根据所述相似度合成得到增强的声纹信息；将所述增强的声纹信息与所述基准语音片段对应的声纹信息的匹配结果作为所述声纹模型的输出。12.如权利要求11所述的方法，其中，所述声纹模型包括相似度计算模块，并且基于所述训练样本特征集以及对应的标签数据采用预设的神经网络结构进行训练包括：以连续相似度损失函数对所述神经网络的网络参数进行调整，其中所述连续相似度损失函数用于描述所述相似度函数与相似度标签数据之间的损失。13.如权利要求12所述的方法，其中，所述声纹模型包括合并模块，并且基于所述训练样本特征集以及对应的标签数据采用预设的神经网络结构进行训练包括：以相似度损失函数对所述神经网络的网络参数进行调整，其中所述相似度损失函数用于描述所述增强的声纹信息与声纹标签数据之间的损失。14.如权利要求13所述的方法，其中，基于所述训练样本特征集以及对应的标签数据采用预设的神经网络结构进行训练包括：通过使得所述连续相似度损失函数和所述相似度损失函数之和最小，来调整所述神经网络的网络参数。15.如权利要求11所述的方法，还包括：利用卷积神经网络对训练样本特征集中包含的语音特征进行降采样。16.如权利要求11所述的方法，其中，求取所述至少两个待匹配语音片段的对应语音特征的相似度，并根据所述相似度合成得到增强的声纹信息包括：求取一个待匹配语音片段的声纹特征作为待增强声纹特征；计算所述待增强声纹特征和所述在前声纹特征的相似度，其中，所述在前声纹特征是基于在前输入模型的至少一个待匹配语音片段获取的。17.一种声纹识别方法，包括：接收用户的当前语音输入...

【专利技术属性】
技术研发人员：张跃伟，朱磊，马建波，
申请(专利权)人：阿里巴巴集团控股有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人