基于平凡发音的说话人识别方法及相关设备技术

技术编号：37466888 阅读：18 留言：0更新日期：2023-05-06 09:42

本发明专利技术公开了一种基于平凡发音的说话人识别方法及相关设备，涉及智能识别领域，主要为解决目前缺少一种更精准的匹配平凡发音与其对应的说话人的方法的问题。该方法包括：将训练集划分为至少两个训练任务；基于支持集合的所有目标频谱特征、初始说话人嵌入层模型和初始说话人分类模型通过第一操作确定所述支持集合的交叉熵损失；基于所有所述支持集合的所述交叉熵损失和反向传播方法通过第二操作确定第一说话人分类模型和第一说话人嵌入层模型；基于所述第一说话人分类模型和所述第一说话人嵌入层模型所确定的所有训练任务的六个查询集合的平均损失通过第三操作确定目标说话人嵌入层模型。本发明专利技术用于基于平凡发音的说话人识别过程。说话人识别过程。说话人识别过程。

全部详细技术资料下载

【技术实现步骤摘要】
基于平凡发音的说话人识别方法及相关设备

[0001]本专利技术涉及智能识别领域，尤其涉及一种基于平凡发音的说话人识别方法及相关设备。

技术介绍

[0002]当前说话人识别系统大都是基于“正常发音”的，即由人类主观意识产生的、带有明确音频内容的发音。这些发音记录了说话人声带振动和声道调制的过程，富含了丰富的说话人信息，因此十分适用于说话人识别。说话人识别是根据音频信号中的说话人个性信息来识别说话人身份的一项生物特征识别技术。随着技术发展,说话人识别系统现已取得了不俗的性能表现。
[0003]但还有一些发音，受限于生理特征或发音习惯，说话人在这些发音上的控制能力较弱，使得基于这些发音的说话人识别将有可能对抗发音随机性的问题。例如，人们在讲话中的咳嗽声、笑声，打电话时的“喂”，表达不满时用舌头发出的“啧啧”声，表示怀疑或者不确定的“呃哼”声等。这些发音方式因个人习惯而异，虽它们基本不含有任何内容信息，但却蕴含着丰富的说话人信息。我们称这些在口语对话中时常出现的、受说话人主观控制较弱的发音为“平凡发音”。
[0004]在说话人识别中选用平凡发音将有可能增强系统对发音随机性的鲁棒性，且平凡发音具有区别于正常发音的若干特点，其中最主要的特点是发音时长短和音频内容少，故目前仍缺少一种更精准的匹配平凡发音与其对应的说话人的方法。

技术实现思路

[0005]鉴于上述问题，本专利技术提供一种基于平凡发音的说话人识别方法及相关设备，主要目的在于解决目前缺少一种更精准的匹配平凡发音与其对应的说话人的方法的问题...

【技术保护点】

【技术特征摘要】
1.一种基于平凡发音的说话人识别方法，其特征在于，包括：将训练集划分为至少两个训练任务，其中，每个训练任务包括至少两个说话人，每个说话人包括至少两句音频，每句音频分别建立有帧级别音素标签和5说话人标签和对应的目标频谱特征，每个训练任务包括一个支持集合和六个查询集合；基于所述支持集合的所有所述目标频谱特征、初始说话人嵌入层模型和初始说话人分类模型通过第一操作确定所述支持集合的交叉熵损失；基于所有所述支持集合的所述交叉熵损失和反向传播方法通过第二操作确0定第一说话人分类模型和第一说话人嵌入层模型；基于所述第一说话人分类模型和所述第一说话人嵌入层模型所确定的所有训练任务的六个查询集合的平均损失通过第三操作确定目标说话人嵌入层模型。2.根据权利要求1所述的方法，其特征在于，5所述初始说话人嵌入层模型是由至少两个带有BN层和ReLU层的卷积层与一层全连接层堆叠而成的，所述初始说话人分类模型是由一层全连接层组成的，所述全连接层的输入节点数是基于所述说话人嵌入层模型的全连接层的输出节点数确定的，所述输出节点数为所述训练集中的说话人数量；0所述方法还包括：将目标训练任务的支持集合的所有初始频谱特征基于步长进行分段以确定支持集合的所有所述目标频谱特征。3.根据权利要求1所述的方法，其特征在于，所述基于所述支持集合的所5有所述目标频谱特征、初始说话人嵌入层模型和初始说话人分类模型通过第一操作确定所述支持集合的交叉熵损失，包括：将所述所有目标频谱特征输入到所述初始说话人嵌入层模型以获取说话人嵌入层；将所述说话人嵌入层输入到所述初始说话人分类模型并基于所述说话人标签确定所述支持集合的交叉熵损失。4.根据权利要求1所述的方法，其特征在于，所述基于所有所述支持集合的所述交叉熵损失和反向传播方法通过第二操作确定第一说话人分类模型和第一说话人嵌入层模型，包括：基于所述交叉熵损失通过反向传播方法依次计算所述初始说话人分类模型和所述初始说话人嵌入层模型的梯度；基于所述初始说话人分类模型和所述初始说话人嵌入层模型的梯度获取所述初始说话人分类模型和所述初始说话人嵌入层模型的第一参数；基于所述初始说话人分类模型和所述初始说话人嵌入层模型的第一参数确定第一说话人分类模型和第一说话人嵌入层模型。5.根据权利要求1所述的方法，其特征在于，所述基于所述第一说话人分类模型和所述第一说话人嵌入层模型所确定的所有训练任务的六个查询集合的平均损失通过第三操作确定目标说话人嵌入层模型，包括：基于所述第一说话人分类模型和所述第一说话人嵌入层模型计算所有所述训练任务的六个查询集合的平均损失；

【专利技术属性】
技术研发人员：李郡，王啸，尚德龙，周玉梅，
申请(专利权)人：中科南京智能技术研究院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人