声纹识别模型训练及相关识别方法、电子设备和存储介质技术

技术编号:36189033 阅读:15 留言:0更新日期:2022-12-31 21:00
本申请实施例提供了一种声纹识别模型训练及相关识别方法、电子设备和存储介质,声纹识别方法包括:提取待识别语音片段的声学特征;提取所述待识别语音片段的隐藏特征,其中,所述隐藏特征用于指示所述待识别语音片段对应的说话内容;对所述待识别语音片段的声学特征和隐藏特征进行拼接,获得所述待识别语音片段的拼接特征;将所述待识别语音片段的拼接特征输入声纹识别模型,对所述待识别语音片段进行声纹识别,获得声纹识别结果。本方案能够提高声纹识别的准确率。高声纹识别的准确率。高声纹识别的准确率。

【技术实现步骤摘要】
声纹识别模型训练及相关识别方法、电子设备和存储介质


[0001]本申请实施例涉及人工智能
,尤其涉及一种声纹识别模型训练及相关识别方法、电子设备和存储介质。

技术介绍

[0002]声纹识别(Voiceprint Recognition,VPR)也被为说话人识别(Speaker Recognition),属于生物识别技术的一种,具体实现时通过声纹识别模型识别不同说话人的声音特征,以实现说话人辨认或说话人确认。
[0003]目前,声纹识别模型从语音数据中提取用于指示说话人声音特征的声学特征,进而基于提取到的声学特征来区分不同说话人的语音信息。
[0004]然而,从语音数据中提取出的声学特征,不仅包括说话人声音特征,还包括说话内容的相关特征,因此,从同一说话人说不同内容的语音片段中提取出的声学特征会存在较大差异,从不同说话人说相同内容的语音片段中提取出的声学特征具有较高的相似度,从而导致声纹识别的准确率较低。

技术实现思路

[0005]有鉴于此,本申请实施例提供一种声纹识别模型训练及相关识别方法、电子设备和存储介质,以至少解决或缓解上述问题。
[0006]根据本申请实施例的第一方面,提供了一种声纹识别方法,包括:提取待识别语音片段的声学特征;提取所述待识别语音片段的隐藏特征,其中,所述隐藏特征用于指示所述待识别语音片段对应的说话内容;对所述待识别语音片段的声学特征和隐藏特征进行拼接,获得所述待识别语音片段的拼接特征;将所述待识别语音片段的拼接特征输入声纹识别模型,对所述待识别语音片段进行声纹识别,获得声纹识别结果。
[0007]根据本申请实施例的第二方面,提供了一种说话人识别方法,包括:对第一语音片段和第二语音片段进行拼接,获得拼接语音片段;提取所述拼接语音片段的声学特征;提取所述拼接语音片段的隐藏特征,其中,所述隐藏特征用于指示所述第一语音片段和所述第二语音片段对应的说话内容;对所述拼接语音片段的声学特征和隐藏特征进行拼接,获得所述拼接语音片段的拼接特征;将所述拼接语音片段的拼接特征输入声纹识别模型,对所述拼接语音片段进行声纹识别,获得所述拼接语音片段的声纹识别结果;根据所述拼接语音片段的声纹识别结果,确定说话人识别结果,其中,所述说话人识别结果用于指示所述第一语音片段和所述第二语音片段对应相同说话人的概率。
[0008]根据本申请实施例的第三方面,提供了一种说话人日志生成方法,包括:提取待处理语音的声学特征;提取所述待处理语音的隐藏特征,其中,所述隐藏特征用于指示所述待处理语音对应的说话内容;对所述待处理语音的声学特征和所述隐藏特征进行拼接,获得所述待处理语音的拼接特征;将所述待处理语音的拼接特征输入声纹识别模型,对所述待处理语音进行声纹识别,获得所述待处理语音的声纹识别结果;将所述待处理语音的声纹
识别结果输入前馈神经网络进行特征提取,获得说话人日志,其中,所述说话人日志用于标识所述待处理语音中按说话人划分的语音片段。
[0009]根据本申请实施例的第四方面,提供了一种声纹识别模型的训练方法,包括:从无标签语音数据集中获取至少两个语音片段;对所述至少两个语音片段进行拼接,获得第一语音样本;提取所述第一语音样本的声学特征;提取所述第一语音样本的隐藏特征,其中,所述隐藏特征用于指示所述第一语音样本中各语音片段对应的说话内容;对所述第一语音样本的声学特征和隐藏特征进行拼接,获得所述第一语音样本的拼接特征;将所述第一语音样本的拼接特征输入待训练的声纹识别模型,获得所述声纹识别模型输出的声纹识别结果;根据所述声纹识别结果,确定所述声纹识别模型的声纹识别损失;根据所述声纹识别损失调整所述声纹识别模型的参数,直至所述声纹识别损失小于预设的第一损失阈值,停止对所述声纹识别模型进行上述训练。
[0010]根据本申请实施例的第五方面,提供了一种电子设备,包括:处理器、存储器、通信接口和通信总线,处理器、存储器和通信接口通过通信总线完成相互间的通信;存储器用于存放至少一可执行指令,可执行指令使处理器执行上述第一方面至第四方面中任一方面所述方法对应的操作。
[0011]根据本申请实施例的第六方面,提供了一种计算机存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述第一方面至第四方面中任一方面所提供的方法。
[0012]根据本申请实施例的第七方面,提供了一种计算机程序产品,包括计算机指令,所述计算机指令指示计算设备执行如上述第一方面至第四方面中任一方面所提供的方法。
[0013]由上述技术方案可知,提取待识别语音片段的声学特征和隐藏特征后,对声学特征和隐藏特征进行拼接,获得待识别语音片段的拼接特征,进而将拼接特征输入声纹识别模型对待识别语音片段进行声纹识别,获得声纹识别结果。由于声学特征包括说话人的声纹特征和说话内容的相关特征,而隐藏特征可以指示待识别语音片段对应的说话内容,所以将声学特征和隐藏特征拼接成拼接特征作为声纹识别模型的输入,声纹识别模型基于拼接特征进行声纹识别时,可以屏蔽由于说话内容不同的影响,而仅基于说话人特征进行声纹识别,从而可以提高声纹识别的准确率。
附图说明
[0014]为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请实施例中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
[0015]图1是本申请一个实施例所应用示例性系统的示意图;
[0016]图2是本申请一个实施例的声纹识别方法的流程图;
[0017]图3是本申请一个实施例的声纹识别模型的示意图;
[0018]图4是本申请一个实施例的说话人识别方法的流程图;
[0019]图5是本申请一个实施例的说话人日志生成方法的流程图;
[0020]图6是本申请一个实施例的声纹识别模型训练方法的流程图;
[0021]图7是本申请一个实施例的声纹识别模型微调方法的流程图;
[0022]图8是本申请另一个实施例的声纹识别模型微调方法的流程图;
[0023]图9是本申请一个实施例的电子设备的示意图。
具体实施方式
[0024]以下基于实施例对本申请进行描述,但是本申请并不仅仅限于这些实施例。在下文对本申请的细节描述中,详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本申请。为了避免混淆本申请的实质,公知的方法、过程、流程没有详细叙述。另外附图不一定是按比例绘制的。
[0025]首先,对本申请实施例进行描述的过程中出现的部分名词或术语适用于如下解释。
[0026]声纹识别:声纹识别是生物识别技术的一种,是一种通过声音判别说话人身份的技术。
[0027]说话人识别:通过提取人的声纹特征,识别两条音频是否属于同一个人。
[0028]说话人日志:在多人说话的场景中,一段音频包括多个人的声音,将每个角色的声本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种声纹识别方法,包括:提取待识别语音片段的声学特征;提取所述待识别语音片段的隐藏特征,其中,所述隐藏特征用于指示所述待识别语音片段对应的说话内容;对所述待识别语音片段的声学特征和隐藏特征进行拼接,获得所述待识别语音片段的拼接特征;将所述待识别语音片段的拼接特征输入声纹识别模型,对所述待识别语音片段进行声纹识别,获得声纹识别结果。2.根据权利要求1所述的方法,其中,所述提取所述待识别语音片段的隐藏特征,包括:提取所述待识别语音片段的梅尔频率倒谱系数特征;将所述梅尔频率倒谱系数特征输入自动语音识别模型,提取所述待识别语音片段中每一帧所对应说话内容的隐藏特征;对所述待识别语音片段中各帧所对应说话内容的隐藏特征进行顺序组合,获得所述待识别语音片段的隐藏特征。3.根据权利要求1所述的方法,其中,所述声纹识别模型包括依次设置的第一卷积层、第一空洞卷积层、第二空洞卷积层、第三空洞卷积层、第二卷积层、第一编解码层和第二编解码层,所述第一卷积层的输入为所述待识别语音片段的拼接特征,所述第二编解码层的输出为所述声纹识别结果。4.根据权利要求3所述的方法,其中,所述第一卷积层和所述第二卷积层用于对输入进行一维卷积,所述第一空洞卷积层、所述第二空洞卷积层和所述第三空洞卷积层均包括SE

Res2Block模型,所述第一编解码层和所述第二编解码层均包括Transformer模型。5.一种说话人识别方法,包括:对第一语音片段和第二语音片段进行拼接,获得拼接语音片段;提取所述拼接语音片段的声学特征;提取所述拼接语音片段的隐藏特征,其中,所述隐藏特征用于指示所述第一语音片段和所述第二语音片段对应的说话内容;对所述拼接语音片段的声学特征和隐藏特征进行拼接,获得所述拼接语音片段的拼接特征;将所述拼接语音片段的拼接特征输入声纹识别模型,对所述拼接语音片段进行声纹识别,获得所述拼接语音片段的声纹识别结果;根据所述拼接语音片段的声纹识别结果,确定说话人识别结果,其中,所述说话人识别结果用于指示所述第一语音片段和所述第二语音片段对应相同说话人的概率。6.根据权利要求5所述的方法,其中,所述根据所述拼接语音片段的声纹识别结果,确定说话人识别结果,包括:对所述拼接语音片段的声纹识别结果中所述第一语音片段对应的矩阵和所述第二语音片段对应的矩阵分别进行池化处理,获得分布式特征表示;通过全连接层将所述分布式特征表示映射为所述说话人识别结果。7.一种说话人日志生成方法,包括:提取待处理语音的声学特征;
提取所述待处理语音的隐藏特征,其中,所述隐藏特征用于指示所述待处理语音对应的说话内容;对所述待处理语音的声学特征和所述隐藏特征进行拼接,获得所述待处理语音的拼接特征;将所述待处理语音的拼接特征输入声纹识别模型,对所述待处理语音进行声纹识别,获得所述待处理语音的声纹识别结果;将所述待处理语音的声纹识别结果输入前馈神经网络进行特征提取,获得说话人日志,其中,所述说话人日志用于标识所述待处理语音中按说话人划分的语音片段。8.一种声纹识别模型的训练方法,包括:从无标签语音数据集中获取至少两个语音片段;对所述至少两个语音片段进行拼接,获得第一语音样本;提取所述第一语音样本的声学特征;提取所述第一语音样本的隐藏特征,其中,所述隐藏特征用于指示所述第一语音样本中各语音片段对应的说话内容;对所述第一语音样本的...

【专利技术属性】
技术研发人员:郑斯奇
申请(专利权)人:阿里巴巴达摩院杭州科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1