System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 说话人识别后端打分训练方法及相关设备技术_技高网

说话人识别后端打分训练方法及相关设备技术

技术编号:40775655 阅读:3 留言:0更新日期:2024-03-25 20:21
本发明专利技术公开了一种说话人识别后端打分训练方法及相关设备,涉及说话人识别领域,主要为解决在注册或测试音频出现平凡发音时,后端打分结果与语音注册和测试差异大的问题。该方法包括:确定训练数据集,其中,所述训练数据集包括说话人嵌入层、语音与平凡发音存在向量和说话人标签;构建后端打分系统,其中,所述后端打分系统是基于LDA模型、PLDA模型和分数校准模型确定的;基于训练对进行前向传播,以计算所述后端打分系统的后端损失,其中,所述训练对是基于所述训练数据集确定的;基于所述后端损失进行反向传播,以更新所述后端打分系统。本发明专利技术用于说话人识别后端打分训练过程。

【技术实现步骤摘要】

本专利技术涉及说话人识别领域,尤其涉及一种说话人识别后端打分训练方法及相关设备


技术介绍

1、说话人识别是一种生物识别技术,与指纹识别、面部识别等方法相比,具有非接触的特性,在实际应用中有独特的优势。说话人识别的标准方法是以说话人的一段语音作为输入,使用完成训练的深度神经网络提取相应的说话人嵌入层,然后使用后端打分系统获得注册语音和测试语音的差异,决定是否为同一人。平凡发音是指在口语对话中时常出现的、受说话人主观控制较弱的发音,它们基本不含有任何语义内容,但却蕴含着丰富的说话人信息,比如人们的咳嗽声、笑声、打电话常用的“喂”声、表示肯定的“嗯”声,以及清嗓子的声音等,适合用于特定场景下的说话人识别任务,比如在司法鉴定时,无法获得完整语句的情况等。

2、当注册或测试音频出现平凡发音时,后端打分结果与语音注册和测试差异大,使用相同阈值,会导致说话人识别系统性能下降,因此亟需一种可以基于平凡发音改进后端打分系统,将平凡发音与语音的打分结果校准至可以使用同一阈值的方法。


技术实现思路

1、鉴于上述问题,本专利技术提供一种说话人识别后端打分训练方法及相关设备,主要目的在于解决在注册或测试音频出现平凡发音时,后端打分结果与语音注册和测试差异大的问题。

2、为解决上述至少一种技术问题,第一方面,本专利技术提供了一种说话人识别后端打分训练方法,该方法包括:

3、确定训练数据集,其中,所述训练数据集包括说话人嵌入层、语音与平凡发音存在向量和说话人标签;

<p>4、构建后端打分系统,其中,所述后端打分系统是基于lda模型、plda模型和分数校准模型确定的;

5、基于训练对进行前向传播,以计算所述后端打分系统的后端损失,其中,所述训练对是基于所述训练数据集确定的;

6、基于所述后端损失进行反向传播,以更新所述后端打分系统。

7、可选的,上述方法还包括:

8、基于所述训练数据集中的说话人嵌入层和说话人标签确定说话人类内协方差矩阵和说话人类间协方差矩阵;

9、基于所述说话人类内协方差矩阵和所述说话人类间协方差矩阵确定目标矩阵的特征值和特征向量,其中,所述特征值和所述特征向量存在对应关系,其中,所述目标矩阵为所述特征向量随特征值由大到小排序获得的;

10、从所述目标矩阵中获取预设数量的排名靠前的特征值及所述特征值对应的特征向量以组建所述第一矩阵;

11、基于所述说话人嵌入层的均值向量确定所述第一向量;

12、基于所述第一矩阵和所述第一向量确定所述lda模型。

13、可选的,上述方法还包括:

14、基于所述lda模型对所述说话人嵌入层进行降维,以获取第一降维说话人嵌入层;

15、基于所述第一降维说话人嵌入层和所述说话人标签初始化所述plda模型。

16、可选的,上述方法还包括:

17、构建分数校准模型,其中,所述分数校准模型包括全局系数、全局偏置和局部模型,所述局部模型用于确定所述语音与平凡发音存在向量,所述局部模型包括两组神经网络模型,所述神经网络模型由一层一维卷积层和至少两层全连接层堆叠而成,所述卷积层与所述全连接层后有一层线性整流单元。

18、可选的,上述方法还包括:

19、基于所述训练数据集构建所述训练对,其中,所述训练对包括目标对和冒认对;

20、基于所述训练对的第一降维说话人嵌入层计算所述plda模型的打分结果。

21、可选的,所述基于训练对进行前向传播,以计算所述后端打分系统的后端损失,包括:

22、基于所述打分结果和所述训练对的语音与平凡发音存在向量通过所述分数校准模型确定校准分数;

23、基于二值交叉熵损失函数计算所述后端打分系统的后端损失。

24、可选的,所述基于所述后端损失进行反向传播,以更新所述后端打分系统,包括:

25、基于所述后端损失反向传播以更新所述后端打分系统,直至所述后端打分系统在所述训练数据集上收敛。

26、第二方面,本专利技术实施例还提供了一种说话人识别后端打分训练装置,包括:

27、确定单元,用于确定训练数据集,其中,所述训练数据集包括说话人嵌入层、语音与平凡发音存在向量和说话人标签;

28、构建单元,用于构建后端打分系统,其中,所述后端打分系统是基于lda模型、plda模型和分数校准模型确定的;

29、计算单元,用于基于训练对进行前向传播,以计算所述后端打分系统的后端损失,其中,所述训练对是基于所述训练数据集确定的;

30、更新单元,用于基于所述后端损失进行反向传播,以更新所述后端打分系统。

31、为了实现上述目的,根据本专利技术的第三方面,提供了一种计算机可读存储介质,所述计算机可读存储介质包括存储的程序,其中,在上述程序被处理器执行时实现上述的说话人识别后端打分训练方法的步骤。

32、为了实现上述目的,根据本专利技术的第四方面,提供了一种电子设备,包括至少一个处理器、以及与所述处理器连接的至少一个存储器;其中,上述处理器用于调用上述存储器中的程序指令,执行上述的说话人识别后端打分训练方法的步骤。

33、借由上述技术方案,本专利技术提供的说话人识别后端打分训练方法及相关设备,通过确定训练数据集,其中,所述训练数据集包括说话人嵌入层、语音与平凡发音存在向量和说话人标签;构建后端打分系统,其中,所述后端打分系统是基于lda模型、plda模型和分数校准模型确定的;基于训练对进行前向传播,以计算所述后端打分系统的后端损失,其中,所述训练对是基于所述训练数据集确定的;基于所述后端损失进行反向传播,以更新所述后端打分系统。在上述方案中,针对注册或测试音频出现平凡发音时,后端打分结果与语音注册和测试差异大,导致说话人识别系统性能下降,提出将语音和平凡发音存在的向量作为显式信息添加到校准模型,且在反向传播过程中,联合优化lda模型、plda模型和分数校准模型,使得平凡发音的出现不再影响打分结果,保证说话人识别系统的稳定性。

34、相应地,本专利技术实施例提供的说话人识别后端打分训练装置、设备和计算机可读存储介质,也同样具有上述技术效果。

35、上述说明仅是本专利技术技术方案的概述,为了能够更清楚了解本专利技术的技术手段,而可依照说明书的内容予以实施,并且为了让本专利技术的上述和其它目的、特征和优点能够更明显易懂,以下特举本专利技术的具体实施方式。

本文档来自技高网
...

【技术保护点】

1.一种说话人识别后端打分训练方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,还包括:

3.根据权利要求2所述的方法,其特征在于,还包括:

4.根据权利要求1所述的方法,其特征在于,还包括:

5.根据权利要求3所述的方法,其特征在于,还包括:

6.根据权利要求5所述的方法,其特征在于,所述基于训练对进行前向传播,以计算所述后端打分系统的后端损失,包括:

7.根据权利要求1所述的方法,其特征在于,所述基于所述后端损失进行反向传播,以更新所述后端打分系统,包括:

8.一种说话人识别后端打分训练装置,其特征在于,包括:

9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质包括存储的程序,其中,在所述程序被处理器执行时实现如权利要求1至权利要求8中任一项所述的说话人识别后端打分训练方法。

10.一种电子设备,其特征在于,所述电子设备包括至少一个处理器、以及与所述处理器连接的至少一个存储器;其中,所述处理器用于调用所述存储器中的程序指令,执行如权利要求1至权利要求8中任一项所述的说话人识别后端打分训练方法。

...

【技术特征摘要】

1.一种说话人识别后端打分训练方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,还包括:

3.根据权利要求2所述的方法,其特征在于,还包括:

4.根据权利要求1所述的方法,其特征在于,还包括:

5.根据权利要求3所述的方法,其特征在于,还包括:

6.根据权利要求5所述的方法,其特征在于,所述基于训练对进行前向传播,以计算所述后端打分系统的后端损失,包括:

7.根据权利要求1所述的方法,其特征在于,所述基于所述后端损失进行反向传播,...

【专利技术属性】
技术研发人员:李郡张若雨尚德龙周玉梅
申请(专利权)人:中科南京智能技术研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1