基于平凡发音的说话人识别方法及相关设备技术

技术编号:37466888 阅读:18 留言:0更新日期:2023-05-06 09:42
本发明专利技术公开了一种基于平凡发音的说话人识别方法及相关设备,涉及智能识别领域,主要为解决目前缺少一种更精准的匹配平凡发音与其对应的说话人的方法的问题。该方法包括:将训练集划分为至少两个训练任务;基于支持集合的所有目标频谱特征、初始说话人嵌入层模型和初始说话人分类模型通过第一操作确定所述支持集合的交叉熵损失;基于所有所述支持集合的所述交叉熵损失和反向传播方法通过第二操作确定第一说话人分类模型和第一说话人嵌入层模型;基于所述第一说话人分类模型和所述第一说话人嵌入层模型所确定的所有训练任务的六个查询集合的平均损失通过第三操作确定目标说话人嵌入层模型。本发明专利技术用于基于平凡发音的说话人识别过程。说话人识别过程。说话人识别过程。

【技术实现步骤摘要】
基于平凡发音的说话人识别方法及相关设备


[0001]本专利技术涉及智能识别领域,尤其涉及一种基于平凡发音的说话人识别方法及相关设备。

技术介绍

[0002]当前说话人识别系统大都是基于“正常发音”的,即由人类主观意识产生的、带有明确音频内容的发音。这些发音记录了说话人声带振动和声道调制的过程,富含了丰富的说话人信息,因此十分适用于说话人识别。说话人识别是根据音频信号中的说话人个性信息来识别说话人身份的一项生物特征识别技术。随着技术发展,说话人识别系统现已取得了不俗的性能表现。
[0003]但还有一些发音,受限于生理特征或发音习惯,说话人在这些发音上的控制能力较弱,使得基于这些发音的说话人识别将有可能对抗发音随机性的问题。例如,人们在讲话中的咳嗽声、笑声,打电话时的“喂”,表达不满时用舌头发出的“啧啧”声,表示怀疑或者不确定的“呃哼”声等。这些发音方式因个人习惯而异,虽它们基本不含有任何内容信息,但却蕴含着丰富的说话人信息。我们称这些在口语对话中时常出现的、受说话人主观控制较弱的发音为“平凡发音”。
[0004]在说话人识别中选用平凡发音将有可能增强系统对发音随机性的鲁棒性,且平凡发音具有区别于正常发音的若干特点,其中最主要的特点是发音时长短和音频内容少,故目前仍缺少一种更精准的匹配平凡发音与其对应的说话人的方法。

技术实现思路

[0005]鉴于上述问题,本专利技术提供一种基于平凡发音的说话人识别方法及相关设备,主要目的在于解决目前缺少一种更精准的匹配平凡发音与其对应的说话人的方法的问题
[0006]为解决上述至少一种技术问题,第一方面,本专利技术提供了一种基于平凡发音的说话人识别方法,该方法包括:
[0007]将训练集划分为至少两个训练任务,其中,每个训练任务包括至少两个说话人,每个说话人包括至少两句音频,每句音频分别建立有帧级别音素标签和说话人标签和对应的目标频谱特征,每个训练任务包括一个支持集合和六个查询集合;
[0008]基于上述支持集合的所有上述目标频谱特征、初始说话人嵌入层模型和初始说话人分类模型通过第一操作确定上述支持集合的交叉熵损失;
[0009]基于所有上述支持集合的上述交叉熵损失和反向传播方法通过第二操作确定第一说话人分类模型和第一说话人嵌入层模型;
[0010]基于上述第一说话人分类模型和上述第一说话人嵌入层模型所确定的所有训练任务的六个查询集合的平均损失通过第三操作确定目标说话人嵌入层模型。
[0011]可选的,上述初始说话人嵌入层模型是由至少两个带有BN层和ReLU层的卷积层与一层全连接层堆叠而成的,
[0012]上述初始说话人分类模型是由一层全连接层组成的,上述全连接层的输入节点数是基于上述说话人嵌入层模型的全连接层的输出节点数确定的,上述输出节点数为上述训练集中的说话人数量;
[0013]上述方法还包括:
[0014]将目标训练任务的支持集合的所有初始频谱特征基于步长进行分段以确定支持集合的所有上述目标频谱特征。
[0015]可选的,上述基于上述支持集合的所有上述目标频谱特征、初始说话人嵌入层模型和初始说话人分类模型通过第一操作确定上述支持集合的交叉熵损失,包括:
[0016]将上述所有目标频谱特征输入到上述初始说话人嵌入层模型以获取说话人嵌入层;
[0017]将上述说话人嵌入层输入到上述初始说话人分类模型并基于上述说话人标签确定上述支持集合的交叉熵损失。
[0018]可选的,上述基于所有上述支持集合的上述交叉熵损失和反向传播方法通过第二操作确定第一说话人分类模型和第一说话人嵌入层模型,包括:
[0019]基于上述交叉熵损失通过反向传播方法依次计算上述初始说话人分类模型和上述初始说话人嵌入层模型的梯度;
[0020]基于上述初始说话人分类模型和上述初始说话人嵌入层模型的梯度获取上述初始说话人分类模型和上述初始说话人嵌入层模型的第一参数;
[0021]基于上述初始说话人分类模型和上述初始说话人嵌入层模型的第一参数确定第一说话人分类模型和第一说话人嵌入层模型。
[0022]可选的,上述基于上述第一说话人分类模型和上述第一说话人嵌入层模型所确定的所有训练任务的六个查询集合的平均损失通过第三操作确定目标说话人嵌入层模型,包括:
[0023]基于上述第一说话人分类模型和上述第一说话人嵌入层模型计算所有上述训练任务的六个查询集合的平均损失;
[0024]基于所有上述训练任务的六个查询集合的平均损失通过反向传播方法更新并获取上述初始说话人分类模型和上述初始说话人嵌入层模型的第二参数,其中,上述第二参数用于确定目标说话人嵌入层模型。
[0025]可选的,上述方法还包括:
[0026]重复执行上述第一操作、第二操作和第三操作;
[0027]在存在第二参数可以使所有训练任务的六个查询集合的平均损失收敛情况下,确定上述第二参数为上述初始说话人分类模型和上述初始说话人嵌入层模型的目标参数;
[0028]基于上述初始说话人分类模型和上述初始说话人嵌入层模型的上述目标参数确定上述目标说话人分类模型和上述目标说话人嵌入层模型。
[0029]可选的,上述方法还包括:
[0030]对实时音频进行实时频谱特征提取;
[0031]基于上述实时频谱特征检测上述实时音频中的平凡发音;
[0032]在上述目标实时音频中包含平凡发音的情况下,将上述目标实时音频的目标实时频谱特征输入到上述目标说话人嵌入层模型中以获取目标实时音频的说话人嵌入层;
[0033]基于注册人的平凡发音的频谱特征通过上述目标说话人嵌入层模型确定注册人的预设平凡发音嵌入层;
[0034]计算上述目标实时音频的说话人嵌入层与上述注册人的预设平凡发音嵌入层的余弦相似度;
[0035]基于上述余弦相似度确定上述目标实时音频的说话人与上述注册人的匹配情况。
[0036]第二方面,本专利技术实施例还提供了一种基于平凡发音的说话人识别装置,包括:
[0037]划分单元,用于将训练集划分为至少两个训练任务,其中,每个训练任务包括至少两个说话人,每个说话人包括至少两句音频,每句音频分别建立有帧级别音素标签和说话人标签和对应的目标频谱特征,每个训练任务包括一个支持集合和六个查询集合;
[0038]第一确定单元,用于基于上述支持集合的所有上述目标频谱特征、初始说话人嵌入层模型和初始说话人分类模型通过第一操作确定上述支持集合的交叉熵损失;
[0039]获取单元,用于基于所有上述支持集合的上述交叉熵损失和反向传播方法通过第二操作确定第一说话人分类模型和第一说话人嵌入层模型;
[0040]第二确定单元,用于基于上述第一说话人分类模型和上述第一说话人嵌入层模型所确定的所有训练任务的六个查询集合的平均损失通过第三操作确定目标说话人嵌入层模型。
[0041]为了实现上述目的,根据本专利技术的第三方面,提供了一种计算机可读存储介质,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于平凡发音的说话人识别方法,其特征在于,包括:将训练集划分为至少两个训练任务,其中,每个训练任务包括至少两个说话人,每个说话人包括至少两句音频,每句音频分别建立有帧级别音素标签和5说话人标签和对应的目标频谱特征,每个训练任务包括一个支持集合和六个查询集合;基于所述支持集合的所有所述目标频谱特征、初始说话人嵌入层模型和初始说话人分类模型通过第一操作确定所述支持集合的交叉熵损失;基于所有所述支持集合的所述交叉熵损失和反向传播方法通过第二操作确0定第一说话人分类模型和第一说话人嵌入层模型;基于所述第一说话人分类模型和所述第一说话人嵌入层模型所确定的所有训练任务的六个查询集合的平均损失通过第三操作确定目标说话人嵌入层模型。2.根据权利要求1所述的方法,其特征在于,5所述初始说话人嵌入层模型是由至少两个带有BN层和ReLU层的卷积层与一层全连接层堆叠而成的,所述初始说话人分类模型是由一层全连接层组成的,所述全连接层的输入节点数是基于所述说话人嵌入层模型的全连接层的输出节点数确定的,所述输出节点数为所述训练集中的说话人数量;0所述方法还包括:将目标训练任务的支持集合的所有初始频谱特征基于步长进行分段以确定支持集合的所有所述目标频谱特征。3.根据权利要求1所述的方法,其特征在于,所述基于所述支持集合的所5有所述目标频谱特征、初始说话人嵌入层模型和初始说话人分类模型通过第一操作确定所述支持集合的交叉熵损失,包括:将所述所有目标频谱特征输入到所述初始说话人嵌入层模型以获取说话人嵌入层;将所述说话人嵌入层输入到所述初始说话人分类模型并基于所述说话人标签确定所述支持集合的交叉熵损失。4.根据权利要求1所述的方法,其特征在于,所述基于所有所述支持集合的所述交叉熵损失和反向传播方法通过第二操作确定第一说话人分类模型和第一说话人嵌入层模型,包括:基于所述交叉熵损失通过反向传播方法依次计算所述初始说话人分类模型和所述初始说话人嵌入层模型的梯度;基于所述初始说话人分类模型和所述初始说话人嵌入层模型的梯度获取所述初始说话人分类模型和所述初始说话人嵌入层模型的第一参数;基于所述初始说话人分类模型和所述初始说话人嵌入层模型的第一参数确定第一说话人分类模型和第一说话人嵌入层模型。5.根据权利要求1所述的方法,其特征在于,所述基于所述第一说话人分类模型和所述第一说话人嵌入层模型所确定的所有训练任务的六个查询集合的平均损失通过第三操作确定目标说话人嵌入层模型,包括:基于所述第一说话人分类模型和所述第一说话人嵌入层模型计算所有所述训练任务的六个查询集合的平均损失;

【专利技术属性】
技术研发人员:李郡王啸尚德龙周玉梅
申请(专利权)人:中科南京智能技术研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1