基于说话人验证的自适应裕量优化方法、系统和电子设备技术方案

技术编号:37303974 阅读:20 留言:0更新日期:2023-04-21 22:49
本发明专利技术实施例提供一种基于说话人验证的自适应裕量优化方法、系统和电子设备。该方法包括:将包括多种语音时长的语音训练数据输入至说话人验证模型,确定说话人验证模型的损失函数;基于语音训练数据中各语音时长的语音,以及对各语音时长的语音预设的目标裕量对损失函数的裕量参数进行自适应优化;利用自适应优化后的损失函数的裕量参数确定说话人验证模型可接受的训练难度对说话人验证模型进行训练。本发明专利技术实施例利用长短不一的训练语音以更好地模拟现实生活中的场景,通过对裕量的自适应优化微调,根据每个语音的时长及相似度来调整裕量,使本方法处理真实场景中不同时长语音都有良好的说话人验证性能。音都有良好的说话人验证性能。音都有良好的说话人验证性能。

【技术实现步骤摘要】
基于说话人验证的自适应裕量优化方法、系统和电子设备


[0001]本专利技术涉及智能语音领域,尤其涉及一种基于说话人验证的自适应裕量优化方法、系统和电子设备。

技术介绍

[0002]近年来,深度学习的发展在ASV(automatic speaker verification,自动说话人验证)领域取得进展。基于神经网络的ASV模型通常可以分为三个模块,帧级别的说话人特征提取,用于统计学提取的池化层,和用于优化的损失函数。损失函数基于softmax函数,现有技术通过角度softmax来优化超球空间中的说话人嵌入。此外,还会在损失函数中加入裕量(margin)。加入裕量的目的是最小化类内距离和最大化类间距离。
[0003]现有技术通常使用基于裕量的损失是AAM(additive angular margin,加法角度裕量)softmax。理论上,在一个合理的范围内增加裕量可以使说话人的嵌入更有鉴别力。然而,ASV常用的训练片段很短,例如2s,过大的裕量会使优化任务变得非常具有挑战性,反而可能会得到较差的训练效果。现有技术通常会使用到LMFT(large margin fine

tuning,大裕量模型微调方法),它是在ASV模型的二级训练阶段中,使用较长的语音片段来适应较大的裕量。
[0004]在实现本专利技术过程中,专利技术人发现相关技术中至少存在如下问题:
[0005]损失函数中的裕量(margin)在ASV任务中起着至关重要的作用,帮助神经网络提取更有辨识度的说话人嵌入。然而,简单地扩大裕量值会极大地增加训练难度,并导致ASV的性能下降。虽然现有技术中的LMFT缓解了这个问题,但在真实的验证场景中,人们可能会说很短的词语或短句进行验证,LMFT模型在这种情况下可能会遇到时长不匹配,裕量确定得不够精准,影响验证结果。

技术实现思路

[0006]为了至少解决现有技术中现有ASV模型内的LMFT在处理真实场景中不同时长语音可能会遇到时长不匹配,影响验证结果的问题。第一方面,本专利技术实施例提供一种基于说话人验证的自适应裕量优化方法,包括:
[0007]将包括多种语音时长的语音训练数据输入至说话人验证模型,确定所述说话人验证模型的损失函数;
[0008]基于所述语音训练数据中各语音时长的语音,以及对所述各语音时长的语音预设的目标裕量对所述损失函数的裕量参数进行自适应优化,其中,所述自适应优化包括:基于时长的自适应优化以及基于余弦相似度的自适应优化;
[0009]利用自适应优化后的所述损失函数的裕量参数确定所述说话人验证模型可接受的训练难度对所述说话人验证模型进行训练,其中,所述训练难度与语音时长以及余弦相似度相关。
[0010]第二方面,本专利技术实施例提供一种基于说话人验证的自适应裕量优化系统,包括:
[0011]损失函数确定程序模块,用于将包括多种语音时长的语音训练数据输入至说话人验证模型,确定所述说话人验证模型的损失函数;
[0012]自适应优化程序模块,用于基于所述语音训练数据中各语音时长的语音,以及对所述各语音时长的语音预设的目标裕量对所述损失函数的裕量参数进行自适应优化,其中,所述自适应优化包括:基于时长的自适应优化以及基于余弦相似度的自适应优化;
[0013]训练程序模块,用于利用自适应优化后的所述损失函数的裕量参数确定所述说话人验证模型可接受的训练难度对所述说话人验证模型进行训练,其中,所述训练难度与语音时长以及余弦相似度相关。
[0014]第三方面,提供一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本专利技术任一实施例的基于说话人验证的自适应裕量优化方法的步骤。
[0015]第四方面,本专利技术实施例提供一种存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现本专利技术任一实施例的基于说话人验证的自适应裕量优化方法的步骤。
[0016]本专利技术实施例的有益效果在于:利用长短不一的训练语音以更好地模拟现实生活中的场景,通过对裕量的自适应优化微调,根据每个语音的时长及相似度来调整裕量,使本方法处理真实场景中不同时长语音都有良好的说话人验证性能。
附图说明
[0017]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0018]图1是本专利技术一实施例提供的一种基于说话人验证的自适应裕量优化方法的流程图;
[0019]图2是本专利技术一实施例提供的一种基于说话人验证的自适应裕量优化方法的自适应拟合参数示意图;
[0020]图3是本专利技术一实施例提供的一种基于说话人验证的自适应裕量优化方法的系统性能等错误率比较示意图;
[0021]图4是本专利技术一实施例提供的一种基于说话人验证的自适应裕量优化方法的目标分数变化示意图;
[0022]图5是本专利技术一实施例提供的一种基于说话人验证的自适应裕量优化方法的标准差示意图;
[0023]图6是本专利技术一实施例提供的一种基于说话人验证的自适应裕量优化系统的结构示意图;
[0024]图7为本专利技术一实施例提供的一种基于说话人验证的自适应裕量优化的电子设备的实施例的结构示意图。
具体实施方式
[0025]为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0026]如图1所示为本专利技术一实施例提供的一种基于说话人验证的自适应裕量优化方法的流程图,包括如下步骤:
[0027]S11:将包括多种语音时长的语音训练数据输入至说话人验证模型,确定所述说话人验证模型的损失函数;
[0028]S12:基于所述语音训练数据中各语音时长的语音,以及对所述各语音时长的语音预设的目标裕量对所述损失函数的裕量参数进行自适应优化,其中,所述自适应优化包括:基于时长的自适应优化以及基于余弦相似度的自适应优化;
[0029]S13:利用自适应优化后的所述损失函数的裕量参数确定所述说话人验证模型可接受的训练难度对所述说话人验证模型进行训练,其中,所述训练难度与语音时长以及余弦相似度相关。
[0030]在本实施方式中,通过利用VoxCeleb1数据集对现有技术的测试,本方法发现对时长不匹配的场景,会导致性能下降,有必要使用动态和不同长度的语音来匹配更多的场景。还发现了较高的裕量有助于模型提取更强的说话人特征,如何选本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于说话人验证的自适应裕量优化方法,包括:将包括多种语音时长的语音训练数据输入至说话人验证模型,确定所述说话人验证模型的损失函数;基于所述语音训练数据中各语音时长的语音,以及对所述各语音时长的语音预设的目标裕量对所述损失函数的裕量参数进行自适应优化,其中,所述自适应优化包括:基于时长的自适应优化以及基于余弦相似度的自适应优化;利用自适应优化后的所述损失函数的裕量参数确定所述说话人验证模型可接受的训练难度对所述说话人验证模型进行训练,其中,所述训练难度与语音时长以及余弦相似度相关。2.根据权利要求1所述的方法,其中,当所述自适应优化为基于时长的自适应优化时,所述目标裕量和语音时长之间递增关系的线性表示为:Margin=A*Duration+B,其中,所述Margin为损失函数的目标裕量,所述Duration为语音时长,所述A和所述B为自适应优化的裕量参数。3.根据权利要求1所述的方法,其中,当所述自适应优化为基于余弦相似度的自适应优化时,所述目标裕量和余弦相似度之间关系的指数函数为:Margin=min(αexp(β*Similarity),γ),其中,所述Margin为损失函数的目标裕量,所述Similarity为余弦相似度,所述γ为预设裕量最大值,所述α和所述β为自适应优化的裕量参数。4.根据权利要求1所述的方法,其中,所述余弦相似度由所述说话人验证模型预测的说话人嵌入以及预设的目标说话人嵌入确定。5.一种基于说话人验证的自适应裕量优化系统,包括:损失函数确定程序模块,用于将包括多种语音时长的语音训练数据输入至说话人验证模型,确定所述说话人验证模型的损失函数;自适应优化程序模块,用于基于所述语音训练数据中各语音时长的语音,以及对所述各语音时长的语音预设的目标裕量对所述损失函数的...

【专利技术属性】
技术研发人员:钱彦旻张乐莹陈正阳
申请(专利权)人:思必驰科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1