【技术实现步骤摘要】
模型训练方法、声纹特征的提取方法及其设备、程序产品
[0001]本公开涉及人工智能技术中的语音技术、深度学习技术,尤其涉及一种模型训练方法、声纹特征的提取方法及其设备、程序产品。
技术介绍
[0002]目前,声纹识别技术已经应用在很多场景中,通过对音频进行声纹识别,能够确定音频中讲话人的身份。一般通过模型训练的方式能够得到用于识别声纹的模型。
[0003]相关技术中,声纹识别模型可以应用在多种场景中,为了降低模型的训练成本,可以对已有的声纹识别模型进行调整,使得该模型可以应用在目标场景中。比如,存在能够应用在保险领域的声纹识别模型,可以利用银行业务相关的数据对该模型进行优化训练,得到能够应用在银行业务中的声纹识别模型。
[0004]但是,对模型进行优化训练之前,还需要收集目标场景的业务数据,从而利用这些业务数据对已有的模型进行训练。然而这种方式需要收集大量的目标场景的业务数据,还需要对这些业务数据进行标注,才能够对已有的模型进行训练,因此,这种方式周期较长,且成本高。
技术实现思路
[0005 ...
【技术保护点】
【技术特征摘要】
1.一种模型训练方法,包括:获取应用在第一场景的第一模型、第一子帧以及目标子帧,所述第一子帧是对应用在第一场景的第一音频进行分帧处理得到的,所述目标子帧是对应用在目标场景的目标音频进行分帧处理得到的;其中,所述第一音频具有标注信息;提取所述第一子帧的第一频谱特征,并提取所述目标子帧的目标频谱特征;根据所述第一子帧的第一频谱特征、所述第一音频的标注信息、所述目标子帧的目标频谱特征以及所述目标子帧所属的目标音频,对所述第一模型进行训练,得到目标模型。2.根据权利要求1所述的方法,其中,根据所述第一子帧的第一频谱特征、所述第一音频的标注信息、所述目标子帧的目标频谱特征以及所述目标子帧所属的目标音频,对所述第一模型进行训练,得到目标模型,包括:重复执行下述步骤,直到满足预设的停止训练条件:将所述第一频谱特征以及所述目标频谱特征输入所述第一模型,得到与所述第一频谱特征对应的识别结果,以及与所述目标子帧对应的目标特征向量;利用所述第一频谱特征的识别结果以及所述第一音频的标注信息、所述目标子帧的目标特征向量以及所述目标子帧所属的目标音频确定损失函数的值,并利用所述损失函数的值优化所述第一模型,得到优化后的第一模型;其中,满足所述预设的停止训练条件时得到的优化后的第一模型为目标模型。3.根据权利要求2所述的方法,其中,所述利用所述第一频谱特征的识别结果以及所述第一音频的标注信息、所述目标子帧的目标特征向量以及所述目标子帧所属的目标音频确定损失函数的值,包括:根据所述第一频谱特征的识别结果以及所述第一音频的标注信息确定第一损失函数的值;根据各个所述目标子帧的目标特征向量以及各个所述目标子帧所属的目标音频,确定第二损失函数的值;所述第二损失函数的值用于表征多个目标子帧的目标特征向量之间的比对信息;根据所述第一损失函数的值、所述第二损失函数的值确定所述损失函数的值。4.根据权利要求3所述的方法,其中,所述根据各个所述目标子帧的目标特征向量以及各个所述目标子帧所属的目标音频,确定第二损失函数的值,包括:根据属于相同的目标音频的目标子帧的目标特征向量,确定第一比对信息;根据属于不同的目标音频的目标子帧的目标特征向量,确定第二比对信息;根据所述第一比对信息、所述第二比对信息,确定所述第二损失函数的值。5.根据权利要求3或4所述的方法,其中,所述根据所述第一损失函数的值、所述第二损失函数的值确定所述损失函数的值,包括:将所述第一损失函数的值与加权后的第二损失函数的值之间的差,确定为所述损失函数的值。6.根据权利要求1
‑
5任一项所述的方法,其中,所述提取所述第一子帧的第一频谱特征,包括:针对任一第一子帧,确定该第一子帧的初始频谱特征;获取该第一子帧的关联第一子帧,该第一子帧的关联第一子帧包括:位于该第一子帧
之前的第一预设数量的第一子帧,和/或,位于该第一子帧之后的第二预设数量的第一子帧;根据该第一子帧的关联第一子帧的初始频谱特征,确定该第一子帧的特征均值;确定该第一子帧的初始频谱特征与该第一子帧的特征均值的差值,为该第一子帧的第一频谱特征。7.根据权利要求1所述的方法,其中,所述提取所述目标子帧的目标频谱特征,包括:针对任一目标子帧,确定该目标子帧的初始频谱特征;获取该目标子帧的关联目标子帧,该目标子帧的关联目标子帧包括:位于该目标子帧之前的第三预设数量的目标子帧,和/或,位于该目标子帧之后的第四预设数量的目标子帧;根据该目标子帧的关联目标子帧的初始频谱特征,确定该目标子帧的特征均值;确定该目标子帧的初始频谱特征与该目标子帧的特征均值的差值,为该目标子帧的目标频谱特征。8.根据权利要求1
‑
7任一项所述的方法,所述获取应用在第一场景的第一模型,包括:利用所述第一子帧的第一频谱特征以及所述第一音频的标注信息训练预设模型,得到所述第一模型。9.一种声纹特征的提取方法,包括:获取待识别的音频数据,提取所述音频数据的频谱特征;将所述频谱特征输入目标模型,得到所述音频数据的声纹特征;所述目标模型为通过权利要求1
‑
8任一项所述的方法训练得到的。10.一种模型训练装置,包括:训练数据获取单元,用于获取应用在第一场景的第一模型、第一子帧以及目标子帧,所述第一子帧是对应用在第一场景的第一音频进行分帧处理得到的,所述目标子帧是对应用在目标场景的目标音频进行分帧处理得到的;其中,...
【专利技术属性】
技术研发人员:赵情恩,
申请(专利权)人:北京百度网讯科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。