说话人识别后端打分训练方法及相关设备技术

技术编号：40775655 阅读：3 留言：0更新日期：2024-03-25 20:21

本发明专利技术公开了一种说话人识别后端打分训练方法及相关设备，涉及说话人识别领域，主要为解决在注册或测试音频出现平凡发音时，后端打分结果与语音注册和测试差异大的问题。该方法包括：确定训练数据集，其中，所述训练数据集包括说话人嵌入层、语音与平凡发音存在向量和说话人标签；构建后端打分系统，其中，所述后端打分系统是基于LDA模型、PLDA模型和分数校准模型确定的；基于训练对进行前向传播，以计算所述后端打分系统的后端损失，其中，所述训练对是基于所述训练数据集确定的；基于所述后端损失进行反向传播，以更新所述后端打分系统。本发明专利技术用于说话人识别后端打分训练过程。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及说话人识别领域，尤其涉及一种说话人识别后端打分训练方法及相关设备。

技术介绍

1、说话人识别是一种生物识别技术，与指纹识别、面部识别等方法相比，具有非接触的特性，在实际应用中有独特的优势。说话人识别的标准方法是以说话人的一段语音作为输入，使用完成训练的深度神经网络提取相应的说话人嵌入层，然后使用后端打分系统获得注册语音和测试语音的差异，决定是否为同一人。平凡发音是指在口语对话中时常出现的、受说话人主观控制较弱的发音，它们基本不含有任何语义内容，但却蕴含着丰富的说话人信息，比如人们的咳嗽声、笑声、打电话常用的“喂”声、表示肯定的“嗯”声，以及清嗓子的声音等，适合用于特定场景下的说话人识别任务，比如在司法鉴定时，无法获得完整语句的情况等。

2、当注册或测试音频出现平凡发音时，后端打分结果与语音注册和测试差异大，使用相同阈值，会导致说话人识别系统性能下降，因此亟需一种可以基于平凡发音改进后端打分系统，将平凡发音与语音的打分结果校准至可以使用同一阈值的方法。

技术实现思路

1、鉴于上述问题，本专利技术提供一种说话人识别后端打分训练方法及相关设备，主要目的在于解决在注册或测试音频出现平凡发音时，后端打分结果与语音注册和测试差异大的问题。

2、为解决上述至少一种技术问题，第一方面，本专利技术提供了一种说话人识别后端打分训练方法，该方法包括：

3、确定训练数据集，其中，所述训练数据集包括说话人嵌入层、语音与平凡发音存在向量和说话人标签；

<...

【技术保护点】

1.一种说话人识别后端打分训练方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，还包括：

3.根据权利要求2所述的方法，其特征在于，还包括：

4.根据权利要求1所述的方法，其特征在于，还包括：

5.根据权利要求3所述的方法，其特征在于，还包括：

6.根据权利要求5所述的方法，其特征在于，所述基于训练对进行前向传播，以计算所述后端打分系统的后端损失，包括：

7.根据权利要求1所述的方法，其特征在于，所述基于所述后端损失进行反向传播，以更新所述后端打分系统，包括：

8.一种说话人识别后端打分训练装置，其特征在于，包括：

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质包括存储的程序，其中，在所述程序被处理器执行时实现如权利要求1至权利要求8中任一项所述的说话人识别后端打分训练方法。

10.一种电子设备，其特征在于，所述电子设备包括至少一个处理器、以及与所述处理器连接的至少一个存储器；其中，所述处理器用于调用所述存储器中的程序指令，执行如权利要求1

...

【技术特征摘要】

1.一种说话人识别后端打分训练方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，还包括：

3.根据权利要求2所述的方法，其特征在于，还包括：

4.根据权利要求1所述的方法，其特征在于，还包括：

5.根据权利要求3所述的方法，其特征在于，还包括：

6.根据权利要求5所述的方法，其特征在于，所述基于训练对进行前向传播，以计算所述后端打分系统的后端损失，包括：

7.根据权利要求1所述的方法，其特征在于，所述基于所述后端损失进行反向传播，...

【专利技术属性】
技术研发人员：李郡，张若雨，尚德龙，周玉梅，
申请(专利权)人：中科南京智能技术研究院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人