识别模型的训练方法、装置、计算机设备制造方法及图纸

技术编号:42043165 阅读:31 留言:0更新日期:2024-07-16 23:26
本申请涉及一种识别模型的训练方法、装置、计算机设备、存储介质和计算机程序产品。可以应用于车载终端、云服务器或其它设备与具有声纹识别功能的应用程序进行交互的应用场景,包括:对音频样本进行切片,得到第一音频切片和第二音频切片;通过识别模型中的第一分支网络、第二分支网络分别对第一音频切片、第二音频切片进行处理得到第一编码特征、第一高维特征、第二编码特征和第二高维特征;根据第一高维特征和第二高维特征以及音频样本数量确定第一损失值,根据第一编码特征和第二编码特征确定第二损失值;根据第一损失值和第二损失值优化第一分支网络,得到目标识别模型。采用本方法能够有效提高识别模型识别说话人身份的准确性。

【技术实现步骤摘要】

本申请涉及计算机,特别是涉及一种识别模型的训练方法、装置、计算机设备、存储介质和计算机程序产品。


技术介绍

1、随着计算机技术以及互联网技术的发展,不同类型的音频识别模型的出现,在音频说话人识别领域取得显著进展,其中,说话人识别(声纹识别),也称为说话人识别或声纹辨认,是一种通过分析语音信号特征来识别或验证说话人身份的技术,与其他生物识别技术相比,声纹识别具有非侵犯性、低成本、易用性等优势,因此在安全认证、智能家居、医疗保健等领域得到了广泛应用。

2、然而,目前的识别模型的训练方式中,主要是采用大量有标注的音频数据,由于需要大量有标注的音频数据,故这种数据标注难度大而且成本比较高,并且采用的模型训练方式主要是非对比学习的自蒸馏预训练,容易使得模型学习到的是语音数据中的通用信息,对于说话人的区分性信息不够,无法快速准确的识别出不同对象的身份信息,导致模型识别的准确性较差,因此,如何有效提高模型识别说话人身份的准确性以避免信息错配成为亟需解决的问题。


技术实现思路

1、基于此,有必要针对上述技术问题,本文档来自技高网...

【技术保护点】

1.一种识别模型的训练方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述音频样本集内的音频样本包括第一音频样本;

3.根据权利要求1所述的方法,其特征在于,所述通过识别模型中的第一分支网络,编码所述第一音频切片得到第一编码特征,对所述第一编码特征进行嵌入处理和维度变换得到第一高维全局特征,包括:

4.根据权利要求1所述的方法,其特征在于,所述通过所述识别模型中的第二分支网络,编码所述第二音频切片得到第二编码特征,对所述第二编码特征进行嵌入处理和维度变换得到第二高维全局特征,包括:

5.根据权利要求1所述的方法,...

【技术特征摘要】

1.一种识别模型的训练方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述音频样本集内的音频样本包括第一音频样本;

3.根据权利要求1所述的方法,其特征在于,所述通过识别模型中的第一分支网络,编码所述第一音频切片得到第一编码特征,对所述第一编码特征进行嵌入处理和维度变换得到第一高维全局特征,包括:

4.根据权利要求1所述的方法,其特征在于,所述通过所述识别模型中的第二分支网络,编码所述第二音频切片得到第二编码特征,对所述第二编码特征进行嵌入处理和维度变换得到第二高维全局特征,包括:

5.根据权利要求1所述的方法,其特征在于,所述音频样本集内的音频样本包括第一音频样本和其他音频样本;

6.根据权利要求1所述的方法,其特征在于,所述根据所述第一特征值、所述第二特征值和所述音频样本集的音频样本数量确定第一损失值,包括:

7.根据权利要求1所述的方法,其特征在于,所述方法还包括:

8.根据权利要求7所述的方法,其特征在于,所述通过识...

【专利技术属性】
技术研发人员:张涛涛
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1