长短语音通用说话人嵌入层模型获得方法及说话人识别方法技术

技术编号：41408344 阅读：6 留言：0更新日期：2024-05-20 19:35

本发明专利技术旨在提供长短语音通用说话人嵌入层模型获得方法及说话人识别方法，属于说话人识别技术领域，获取训练数据集；构建说话人识别网络；通过训练数据集和说话人识别网络，获得对长语音输入识别准确率优化的说话人识别网络，并将其中的说话人嵌入层模型记为第一说话人嵌入层模型；通过训练数据集，微调所述对长语音输入识别准确率优化的说话人识别网络，获得第二说话人嵌入层模型；根据所述第一说话人嵌入层模型和第二说话人嵌入层模型，基于模型平均方法获得长短语音通用说话人嵌入层模型。本发明专利技术提出的通用说话人嵌入层模型和识别方法在兼顾识别精度的同时，提升了系统资源利用率和识别效率，尤其适应于多样化时长语音识别需求的应用环境。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及说话人识别，尤其涉及长短语音通用说话人嵌入层模型获得方法及说话人识别方法。

技术介绍

1、说话人识别是一种生物识别技术，与指纹识别、面部识别等方法相比，具有非接触的特性，在实际应用中有独特的优势。

2、当前获得说话人嵌入层模型的方法多为使用帧数固定的较长语音，如2秒以上，训练获得区分性较高的说话人嵌入层模型，但对较短长度，即2s以下的测试语音，说话人嵌入层模型的区分性降低，导致说话人识别系统的识别率下降。要提高短语音的识别率，直接方法是使用短语音输入进行微调，但相应长语音的说话人识别率会降低。

技术实现思路

1、本专利技术的目的在于克服现有技术中的不足，提供长短语音通用说话人嵌入层模型获得方法及说话人识别方法，通过综合训练和微调得到长短语音通用说话人识别嵌入层模型，有效解决了在不同时长语音输入下的识别性能不平衡问题，提高了对长短语音的普适性和识别能力。

2、为实现上述目的，本专利技术提供了如下技术方案：

3、第一方面，本专利技术提供长短语音通用说话人嵌入层模型获得方法，其特征在于，包括以下步骤：

4、进一步地，长短语音通用说话人嵌入层模型获得方法，包括以下步骤：

5、获取训练数据集；所述训练数据集中包括长语音频谱样本、短语音频谱样本以及相应的说话人标签；

6、构建说话人识别网络；所述说话人识别网络包括说话人嵌入层模型与说话人分类层；

7、通过训练数据集中的长语音频谱样本以及相应的说话人

8、通过训练数据集中的短语音频谱样本以及相应的说话人标签训练微调对长语音输入识别准确率优化的说话人识别网络，获得对短语音输入识别准确率优化的说话人识别网络，并将其中的说话人嵌入层模型记为第二说话人嵌入层模型；

9、根据所述第一说话人嵌入层模型和第二说话人嵌入层模型，基于模型平均方法获得长短语音通用说话人嵌入层模型。

10、进一步地，所述训练数据集中长语音频谱样本时长大于或等于3秒，说话人总数超过1000人。

11、进一步地，所述说话人嵌入层模型选用resnet34架构，说话人分类层采用全连接层实现，所述全连接层的输入层节点数与说话人嵌入层模型的输出节点数相同，全连接层的输出层节点数与训练数据集中说话人总数一致。

12、进一步地，通过训练数据集中的长语音频谱样本训练优化所述说话人识别网络，获得对长语音输入识别准确率优化的说话人识别网络，包括：

13、步骤s1、输入为固定尺寸的长语音频谱，采用前向传播计算损失函数的值，所述长语音频谱对应的时间为3秒；损失函数为加性角度间隔损失函数；

14、步骤s2、根据损失函数的值反向传播更新说话人识别网络的参数；

15、步骤s3、重复步骤s1-步骤s2，直至说话人识别网络收敛，获得完成训练的对长语音输入识别准确率优化的说话人识别网络。

16、进一步地，通过训练数据集中的短语音频谱样本训练微调对长语音输入识别准确率优化的说话人识别网络，获得对短语音输入识别准确率优化的说话人识别网络，包括：

17、步骤s4、以步骤s3中获得的对长语音输入识别准确率优化的说话人识别网络的参数作为说话人识别网络的初始参数，输入为训练数据集的短语音频谱，采用前向传播计算损失函数的值，所述输入语音频谱对应的时间为1秒；所述损失函数为加性角度间隔损失函数；

18、步骤s5、根据损失函数的值反向传播更新说话人识别网络的参数，学习率选为0.00001；

19、步骤s6、重复步骤s4-步骤s5，直至说话人识别网络收敛，获得完成训练的对短语音输入识别准确率优化的说话人识别网络。

20、进一步地，根据所述第一说话人嵌入层模型和第二说话人嵌入层模型，基于模型平均方法获得长短语音通用说话人嵌入层模型，包括：

21、针对每项参数，根据第一说话人嵌入层模型的对应参数值和第二说话人嵌入层模型的对应参数值计算平均值，将所述平均值作为长短语音通用说话人嵌入层模型的对应参数值，从而确定长短语音通用说话人嵌入层模型。

22、进一步地，一种说话人识别方法，包括：

23、获得实时音频数据，对实时音频数据进行频谱特征提取，得到实时音频频谱特征；

24、将所述实时音频频谱特征输入音频活动检测器，检测音频中是否有语音，检测为有语音后将所述实时音频频谱特征输入到所述长短语音通用说话人嵌入层模型，获得实时音频的说话人嵌入层；如无语音则重新获得实时音频数据；

25、实时音频的说话人嵌入层与注册说话人嵌入层进行余弦相似度计算，余弦相似度超过设定阈值时，确定实时音频对应说话人与注册说话人是同一说话人，否则为不同说话人。

26、第二方面，一种说话人识别方法，包括：

27、获得实时音频数据，对实时音频数据进行频谱特征提取，得到实时音频频谱特征；

28、将所述实时音频频谱特征输入音频活动检测器，检测音频中是否有语音，检测为有语音后将所述实时音频频谱特征输入到所述长短语音通用说话人嵌入层模型，获得实时音频的说话人嵌入层；如无语音则重新获得实时音频数据；

29、实时音频的说话人嵌入层与注册说话人嵌入层进行余弦相似度计算，余弦相似度超过设定阈值时，确定实时音频对应说话人与注册说话人是同一说话人，否则为不同说话人。

30、第三方面，一种存储一个或多个程序的计算机可读存储介质，所述一个或多个程序包括指令，所述指令当由计算设备执行时，使得所述计算设备执行第一方面中的任一所述方法。

31、第四方面，一种存储一个或多个程序的计算机可读存储介质，所述一个或多个程序包括指令，所述指令当由计算设备执行时，使得所述计算设备执行第二方面中的任一所述方法。

32、第五方面，一种电子终端，包括，一个或多个处理器、存储器以及一个或多个程序，其中一个或多个程序存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序包括用于执行第一方面或第二方面中的任一所述方法的指令。

33、与现有技术相比，本专利技术所达到的有益效果：

34、(1)本专利技术通过模型平均方法整合长语音和短语音训练得到的两个嵌入层模型参数，生成了长短语音通用说话人嵌入层模型，可应对不同时长的语音输入，从而减少了在说话人识别系统中所需的存储空间，降低了系统复杂度。

35、(2)本专利技术的说话人识别方法能够灵活应对实时音频流，通过快速检测和嵌入层计算，实现了对实时语音的高效识别，不仅适用于长语音场景，还能确保在短语音条件下仍保持高识别准确率。

本文档来自技高网...

【技术保护点】

1.长短语音通用说话人嵌入层模型获得方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的长短语音通用说话人嵌入层模型获得方法，其特征在于，所述训练数据集中长语音频谱样本时长大于或等于3秒，说话人总数超过1000人。

3.根据权利要求2所述的长短语音通用说话人嵌入层模型获得方法，其特征在于，所述说话人嵌入层模型选用ResNet34架构，说话人分类层采用全连接层实现，所述全连接层的输入层节点数与说话人嵌入层模型的输出节点数相同，全连接层的输出层节点数与训练数据集中说话人总数一致。

4.根据权利要求1所述的长短语音通用说话人嵌入层模型获得方法，其特征在于，通过训练数据集中的长语音频谱样本训练优化所述说话人识别网络，获得对长语音输入识别准确率优化的说话人识别网络，包括：

5.根据权利要求4所述的长短语音通用说话人嵌入层模型获得方法，其特征在于，通过训练数据集中的短语音频谱样本训练微调对长语音输入识别准确率优化的说话人识别网络，获得对短语音输入识别准确率优化的说话人识别网络，包括：

6.根据权利要求1所述的长短语音通用说话人

7.一种说话人识别方法，其特征在于，包括：

8.一种存储一个或多个程序的计算机可读存储介质，其特征在于，所述一个或多个程序包括指令，所述指令当由计算设备执行时，使得所述计算设备执行权利要求1-6中的任一所述方法。

9.一种存储一个或多个程序的计算机可读存储介质，其特征在于，所述一个或多个程序包括指令，所述指令当由计算设备执行时，使得所述计算设备执行权利要求7中的任一所述方法。

10.一种电子终端，其特征在于，包括，一个或多个处理器、存储器以及一个或多个程序，其中一个或多个程序存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序包括用于执行权利要求1-6或权利要求7中的任一所述方法的指令。

...

【技术特征摘要】

1.长短语音通用说话人嵌入层模型获得方法，其特征在于，包括以下步骤：

3.根据权利要求2所述的长短语音通用说话人嵌入层模型获得方法，其特征在于，所述说话人嵌入层模型选用resnet34架构，说话人分类层采用全连接层实现，所述全连接层的输入层节点数与说话人嵌入层模型的输出节点数相同，全连接层的输出层节点数与训练数据集中说话人总数一致。

5.根据权利要求4所述的长短语音通用说话人嵌入层模型获得方法，其特征在于，通过训练数据集中的短语音频谱样本训练微调对长语音输入识别准确率优化的说话人识别网络，获得对短语音输入...

【专利技术属性】
技术研发人员：李郡，张若雨，尚德龙，周玉梅，
申请(专利权)人：中科南京智能技术研究院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人