【技术实现步骤摘要】
基于说话人验证的自适应裕量优化方法、系统和电子设备
[0001]本专利技术涉及智能语音领域,尤其涉及一种基于说话人验证的自适应裕量优化方法、系统和电子设备。
技术介绍
[0002]近年来,深度学习的发展在ASV(automatic speaker verification,自动说话人验证)领域取得进展。基于神经网络的ASV模型通常可以分为三个模块,帧级别的说话人特征提取,用于统计学提取的池化层,和用于优化的损失函数。损失函数基于softmax函数,现有技术通过角度softmax来优化超球空间中的说话人嵌入。此外,还会在损失函数中加入裕量(margin)。加入裕量的目的是最小化类内距离和最大化类间距离。
[0003]现有技术通常使用基于裕量的损失是AAM(additive angular margin,加法角度裕量)softmax。理论上,在一个合理的范围内增加裕量可以使说话人的嵌入更有鉴别力。然而,ASV常用的训练片段很短,例如2s,过大的裕量会使优化任务变得非常具有挑战性,反而可能会得到较差的训练效果。现有技术通常 ...
【技术保护点】
【技术特征摘要】
1.一种基于说话人验证的自适应裕量优化方法,包括:将包括多种语音时长的语音训练数据输入至说话人验证模型,确定所述说话人验证模型的损失函数;基于所述语音训练数据中各语音时长的语音,以及对所述各语音时长的语音预设的目标裕量对所述损失函数的裕量参数进行自适应优化,其中,所述自适应优化包括:基于时长的自适应优化以及基于余弦相似度的自适应优化;利用自适应优化后的所述损失函数的裕量参数确定所述说话人验证模型可接受的训练难度对所述说话人验证模型进行训练,其中,所述训练难度与语音时长以及余弦相似度相关。2.根据权利要求1所述的方法,其中,当所述自适应优化为基于时长的自适应优化时,所述目标裕量和语音时长之间递增关系的线性表示为:Margin=A*Duration+B,其中,所述Margin为损失函数的目标裕量,所述Duration为语音时长,所述A和所述B为自适应优化的裕量参数。3.根据权利要求1所述的方法,其中,当所述自适应优化为基于余弦相似度的自适应优化时,所述目标裕量和余弦相似度之间关系的指数函数为:Margin=min(αexp(β*Similarity),γ),其中,所述Margin为损失函数的目标裕量,所述Similarity为余弦相似度,所述γ为预设裕量最大值,所述α和所述β为自适应优化的裕量参数。4.根据权利要求1所述的方法,其中,所述余弦相似度由所述说话人验证模型预测的说话人嵌入以及预设的目标说话人嵌入确定。5.一种基于说话人验证的自适应裕量优化系统,包括:损失函数确定程序模块,用于将包括多种语音时长的语音训练数据输入至说话人验证模型,确定所述说话人验证模型的损失函数;自适应优化程序模块,用于基于所述语音训练数据中各语音时长的语音,以及对所述各语音时长的语音预设的目标裕量对所述损失函数的...
【专利技术属性】
技术研发人员:钱彦旻,张乐莹,陈正阳,
申请(专利权)人:思必驰科技股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。