预测模型的训练方法、语段预测方法及相关装置制造方法及图纸

技术编号:36959040 阅读:37 留言:0更新日期:2023-03-22 19:19
本申请公开了预测模型的训练方法、语段预测方法及相关装置,该训练方法包括:获得初始模型对第一说话者的多个语段的综合预测特征;基于综合预测特征,及第一预测特征和第二预测特征,判断第一语段和第二语段是否为第一说话者所说的目标语段。可见,本申请可区分样本集中的语段样本,是否为第一说话者所说的语段,并将判定为第一说话者所说的目标语段留用以训练初始模型,以得到预测准确率更高的目标模型;其中,将被判定为非目标语段的语段从样本集中剔除,有助于减少样本集中所混入投毒样本,提高样本集本身的数据质量和可靠性,增强模型对语段的分类预测效果。模型对语段的分类预测效果。模型对语段的分类预测效果。

【技术实现步骤摘要】
预测模型的训练方法、语段预测方法及相关装置


[0001]本申请实施例涉及音频
,尤其涉及预测模型的训练方法、语段预测方法及相关装置。

技术介绍

[0002]声纹(可称为音频、语段或语音)识别在保证高准备率的同时,也要保证安全性。然而,基于语音合成、转换、录音回放、对抗样本生成等技术手段,现伪造出来的语音展现出高灵活性、逼真性、变化性、对抗性、时效性、信道复杂性和难溯源等特点,使得声纹识别面临诸多的攻击、挑战。
[0003]目前,对声纹识别的训练数据进行投毒是实现后门攻击的最直接、最常见的方法。后门攻击的研究也主要集中在各类分类任务,现有的后门攻击一般具有如下范式:攻击者预先指定一个特定的触发器(e.g.,localpatch)和攻击的目标标签(e.g.,类别),然后随机选择部分干净的样本,替换其标签为目标标签,以生成被投毒样本(poisoned samples)。这些被投毒样本(可称为负样本或伪数据)与正常样本(或称为正样本)将会被同时用于训练,以得到带后门的模型;而如此得到的模型,因训练样本的质量不够过关,对待测语段的预测准确性低。
[0004]因此,有必要对训练样本进行有效的处理。

技术实现思路

[0005]本申请实施例提供了一种预测模型的训练方法,用于提高训练样本的质量,增强模型的预测准确率。
[0006]本申请实施例第一方面提供一种预测模型的训练方法,包括:
[0007]获得预先训练完成的初始模型,所述初始模型由样本集训练得到,所述样本集包含各说话者所说的语音片段;
[0008]选取所述样本集中,第一说话者所说的第一语段、非第一说话者所说的第二语段输入所述初始模型,以分别得到所述第一语段的第一预测特征、所述第二语段的第二预测特征,所述第一说话者为在册的被注册者;
[0009]获得所述初始模型对所述第一说话者的多个语段的综合预测特征;
[0010]基于所述综合预测特征,及所述第一预测特征和所述第二预测特征,判断所述第一语段和所述第二语段是否为所述第一说话者所说的目标语段;
[0011]将所述第一语段和所述第二语段中,被判定为所述目标语段的语段确定为用以训练所述初始模型的目标正样本,以训练得满足目标损失条件的目标模型,并将被判定为非所述目标语段的语段从所述样本集中剔除。
[0012]本申请第一方面所述的训练方法在具体实施时,可采用本申请第二方面所述方法的内容实现。
[0013]本申请实施例第二方面提供一种语段预测方法,包括:
[0014]将待测语段输入目标模型,所述目标模型根据如前述第一方面所述的训练方法训练得到;
[0015]比较所述目标模型输出的所述待测语段的预测特征与注册特征,若比较结果满足预设条件,则确定所述待测语段的说话者为被注册者,所述注册特征为被注册者所说的语段经所述目标模型输出的预测特征;
[0016]若比较结果不满足预设条件,则确定所述待测语段的说话者不为所述被注册者,所述待测语段为攻击语段。
[0017]本申请第三方面提供一种训练系统,包括:
[0018]获取单元,用于获得预先训练完成的初始模型,所述初始模型由样本集训练得到,所述样本集包含各说话者所说的语音片段;
[0019]第一处理单元,用于选取所述样本集中,第一说话者所说的第一语段、非第一说话者所说的第二语段输入所述初始模型,以分别得到所述第一语段的第一预测特征、所述第二语段的第二预测特征,所述第一说话者为在册的被注册者;
[0020]所述获取单元,还用于获得所述初始模型对所述第一说话者的多个语段的综合预测特征;
[0021]所述第一处理单元,还用于基于所述综合预测特征,及所述第一预测特征和所述第二预测特征,判断所述第一语段和所述第二语段是否为所述第一说话者所说的目标语段;
[0022]所述第一处理单元,还用于将所述第一语段和所述第二语段中,被判定为所述目标语段的语段确定为用以训练所述初始模型的目标正样本,以训练得满足目标损失条件的目标模型,并将被判定为非所述目标语段的语段从所述样本集中剔除。
[0023]本申请第四方面提供一种语段预测系统,该系统包括:
[0024]第二处理单元,用于将待测语段输入目标模型,所述目标模型根据如前述第一方面所描述的训练方法训练得到;
[0025]所述第二处理单元,还用于比较所述目标模型输出的所述待测语段的预测特征与注册特征,若比较结果满足预设条件,则确定所述待测语段的说话者为被注册者,所述注册特征为被注册者所说的语段经所述目标模型输出的预测特征;
[0026]所述第二处理单元,还用于若比较结果不满足预设条件,则确定所述待测语段的说话者不为所述被注册者,所述待测语段为攻击语段。
[0027]本申请实施例第五方面提供一种电子设备,包括:
[0028]中央处理器,存储器以及输入输出接口;
[0029]所述存储器为短暂存储存储器或持久存储存储器;
[0030]所述中央处理器配置为与所述存储器通信,并执行所述存储器中的指令操作以执行本申请实施例第一方面或第二方面所描述的方法。
[0031]本申请实施例第六方面提供一种计算机可读存储介质,包括指令,当所述指令在计算机上运行时,使得计算机执行如本申请实施例第一方面或第二方面所描述的方法。
[0032]本申请实施例第七方面提供一种包含指令或计算机程序的计算机程序产品,当所述计算机程序产品在计算机上运行时,使得计算机执行如本申请实施例第一方面或第二方面所描述的方法。
[0033]从以上技术方案可以看出,本申请实施例至少具有以下优点:
[0034]本申请实施例可区分样本集中的语段样本,是否为第一说话者所说的目标语段,并将判定为第一说话者所说的目标语段留用以训练初始模型,以得到预测准确率更高的目标模型;其中,将被判定为非所述目标语段的语段从所述样本集中剔除,有助于减少样本集中所混入投毒样本,提高样本集本身的数据质量和可靠性,增强模型对语段的分类预测效果。
附图说明
[0035]为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
[0036]图1为本申请实施例训练方法的一个流程示意图;
[0037]图2为本申请实施例训练方法的另一流程示意图;
[0038]图3为本申请实施例d

vector模型的一个示意图;
[0039]图4为本申请实施例x

vector模型的一个示意图;
[0040]图5为本申请实施例电子设备的一个结构示意图。
具体实施方式
[0041]为了使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请作进一步地详细描述,所描述的实施例不应视为对本申请的限制,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种预测模型的训练方法,其特征在于,包括:获得预先训练完成的初始模型,所述初始模型由样本集训练得到,所述样本集包含各说话者所说的语音片段;选取所述样本集中,第一说话者所说的第一语段、非第一说话者所说的第二语段输入所述初始模型,以分别得到所述第一语段的第一预测特征、所述第二语段的第二预测特征,所述第一说话者为在册的被注册者;获得所述初始模型对所述第一说话者的多个语段的综合预测特征;基于所述综合预测特征,及所述第一预测特征和所述第二预测特征,判断所述第一语段和所述第二语段是否为所述第一说话者所说的目标语段;将所述第一语段和所述第二语段中,被判定为所述目标语段的语段确定为用以训练所述初始模型的目标正样本,以训练得满足目标损失条件的目标模型,并将被判定为非所述目标语段的语段从所述样本集中剔除。2.根据权利要求1所述的训练方法,其特征在于,所述初始模型输出的预测特征包含输入语段对应的向量特征;所述综合预测特征为由多个所述向量特征算得的向量均值;或,所述综合预测特征为由多个所述向量特征算得的向量方差,及所述向量均值之间的向量融合结果。3.根据权利要求1所述的训练方法,其特征在于,所述初始模型为至少一个声纹识别模型,所述初始模型输出的预测特征包含输入语段对应的向量特征;判断所述第一语段和所述第二语段是否为第一说话者所说的目标语段,包括:将所述第一预测特征和所述第二预测特征,分别与所述综合预测特征进行相似度比较;所述初始模型为一个声纹识别模型时,将所述相似度达到相似阈值的语段判定为所述目标语段,及将所述相似度未达到所述相似阈值的语段判定为非所述目标语段;所述初始模型为两个以上声纹识别模型时,每一所述声纹识别模型对应有一相似阈值,将均达到各所述相似阈值的语段判定为所述目标语段,及将未达到部分所述相似阈值的语段判定为非所述目标语段。4.根据权利要求1所述的训练方法,其特征在于,所述目标损失条件包括:由所述初始模型分别输出的多个语段的预测特征,所构建成的交叉熵损失函数结果达到损失阈值。5.根据权利要求1所述的训练方法,其特征在于,将被判定为所述目标语段的语段确定为用以训练所述初始模型的目标正样本之后,所述方法还包括:检查所述目标正样本的数量是否达到存量阈值,若未达到,则补充所述第一说话者所说的语段作为所述目标正样本。6.一种语段预测方法,其特征在于,包括:将待测语段输入...

【专利技术属性】
技术研发人员:陈欣炜
申请(专利权)人:招银云创信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1