语料标签获取方法、装置及计算机设备制造方法及图纸

技术编号:33086141 阅读:9 留言:0更新日期:2022-04-15 10:50
本申请实施例公开了一种语料标签获取方法、装置及计算机设备,涉及人工智能领域的机器学习技术,该方法包括:获取待训练模型的k个样本标签及每个样本标签对应的初始语料数据,对各个初始语料数据进行编码,得到k个样本标签分别对应的标签语料向量;获取候选语料数据,将候选语料数据编码成为候选语料向量;获取k个标签语料向量分别与候选语料向量之间的向量相似度,基于向量相似度对k个标签语料向量进行整合,得到候选语料数据对应的候选预测结果向量;基于候选预测结果向量确定候选语料数据的候选语料标签,将候选语料标签及候选语料数据确定为待训练模型的训练样本。采用本申请,可以提高语料扩充的准确性及效率。可以提高语料扩充的准确性及效率。可以提高语料扩充的准确性及效率。

【技术实现步骤摘要】
语料标签获取方法、装置及计算机设备


[0001]本申请涉及计算机
,尤其涉及一种语料标签获取方法、装置及计算机设备。

技术介绍

[0002]随着人工智能的发展,在对数据进行解析时,经常会通过训练一个模型,基于该模型对数据进行解析。而在训练模型时,往往需要训练样本,而且需要一定数量的训练样本进行模型训练,若训练样本的数量过少,训练好的模型可能会出现过拟合的情况,导致模型的泛化效果及准确性较低。但是在训练模型时,可能会出现获取到的训练样本较少的情况,因此,如何获取足够多的用于训练模型的训练样本就成为急需解决的问题。

技术实现思路

[0003]本申请实施例提供了一种语料标签获取方法、装置及计算机设备,可以提高语料扩充的准确性及效率。
[0004]本申请实施例一方面提供了一种语料标签获取方法,该方法包括:
[0005]获取待训练模型的k个样本标签,及每个样本标签对应的初始语料数据,对每个样本标签对应的初始语料数据进行编码,得到k个样本标签分别对应的标签语料向量;k为正整数;
[0006]获取候选语料数据,将候选语料数据编码成为候选语料向量;
[0007]获取k个标签语料向量分别与候选语料向量之间的向量相似度,基于向量相似度对k个标签语料向量进行整合,得到候选语料数据对应的候选预测结果向量;
[0008]基于候选预测结果向量确定候选语料数据的候选语料标签,将候选语料标签及候选语料数据确定为待训练模型的训练样本。
[0009]本申请实施例一方面提供了一种语料标签获取装置,该装置包括:
[0010]初始语料获取模块,用于获取待训练模型的k个样本标签,及每个样本标签对应的初始语料数据;
[0011]初始语料编码模块,用于对每个样本标签对应的初始语料数据进行编码,得到k个样本标签分别对应的标签语料向量;k为正整数;
[0012]候选语料编码模块,用于获取候选语料数据,将候选语料数据编码成为候选语料向量;
[0013]相似确定模块,用于获取k个标签语料向量分别与候选语料向量之间的向量相似度;
[0014]初始预测模块,用于基于向量相似度对k个标签语料向量进行整合,得到候选语料数据对应的候选预测结果向量;
[0015]样本确定模块,用于基于候选预测结果向量确定候选语料数据的候选语料标签,将候选语料标签及候选语料数据确定为待训练模型的训练样本。
[0016]其中,每个样本标签对应的初始语料数据的数量为至少两个;
[0017]该初始语料编码模块,包括:
[0018]分组编码单元,用于对第i个样本标签对应的至少两个初始语料数据分别进行编码,得到第i个样本标签对应的至少两个初始语料数据分别对应的初始语料向量;i为小于或等于k的正整数;
[0019]向量融合单元,用于对第i个样本标签对应的至少两个初始语料向量进行向量融合,得到第i个样本标签对应的标签语料向量。
[0020]其中,该相似确定模块,包括:
[0021]标签向量获取单元,用于获取k个样本标签分别对应的标签向量;
[0022]向量优化单元,用于对关联有相同样本标签的标签语料向量和标签向量进行融合,得到每个样本标签分别对应的优化语料向量;
[0023]相似获取单元,用于获取k个优化语料向量分别与候选语料向量之间的向量相似度。
[0024]其中,候选预测结果向量包括k个候选预测类别以及每个候选预测类别分别对应的预测概率;
[0025]该样本确定模块,包括:
[0026]概率选取单元,用于从k个候选预测类别中,获取预测概率最大的候选预测类别,将预测概率最大的候选预测类别,确定为候选语料数据的候选语料标签;
[0027]样本筛选单元,用于获取语料选取阈值,若候选语料标签对应的预测概率大于或等于语料选取阈值,则将候选语料标签及候选语料数据确定为待训练模型的训练样本。
[0028]其中,候选语料数据的数量为N个;N为正整数;
[0029]该样本确定模块,包括:
[0030]多预测单元,用于基于N个候选语料数据分别对应的候选预测结果向量,确定N个候选语料数据分别对应的候选语料标签;
[0031]数量确定单元,用于基于待训练模型中每个样本标签对应的初始语料数据,确定样本扩充数量;
[0032]样本确定单元,用于若N小于或等于样本扩充数量,则将N个候选语料数据与N个候选语料数据分别对应的候选语料标签,确定为待训练模型的训练样本;
[0033]该样本确定单元,还用于若N大于样本扩充数量,则基于N个候选语料数据分别对应的候选预测结果向量,确定N个候选语料数据分别对应的语料置信度,基于语料置信度从N个候选语料数据以及N个候选语料数据分别对应的候选语料标签中,获取待训练模型的训练样本。
[0034]其中,待训练模型的训练样本包括训练样本数据及训练样本标签;训练样本数据包括候选语料数据及每个样本标签对应的初始语料数据;该装置还包括:
[0035]样本预测模块,用于将训练样本数据输入待训练模型中进行预测,得到训练样本数据对应的样本预测结果;
[0036]第一训练模块,用于根据样本预测结果与训练样本标签生成第一损失函数,基于第一损失函数对待训练模型进行参数调整,得到目标模型。
[0037]其中,该装置还包括:
[0038]模型解析模块,用于接收针对待解析数据的数据解析请求,将待解析数据输入目标模型中进行预测,得到待解析数据的第一解析结果;
[0039]数据匹配模块,用于获取历史解析数据及历史解析数据对应的历史解析结果,对待解析数据与历史解析数据进行匹配,得到待解析数据与历史解析数据之间的数据匹配度;
[0040]数据解析模块,用于基于数据匹配度及历史解析结果,确定待解析数据的第二解析结果;
[0041]解析整合模块,用于对第一解析结果及第二解析结果进行整合,得到待解析数据的目标解析结果。
[0042]其中,该装置还包括:
[0043]该模型解析模块,还用于接收针对待解析数据的数据解析请求,将待解析数据输入目标模型中进行预测,得到待解析数据的第一解析结果;
[0044]模板解析模块,用于获取语料模板,从语料模板中获取与待解析数据相匹配的目标语料模板,将目标语料模板所对应的模板解析结果确定为待解析数据的第三解析结果;
[0045]该解析整合模块,还用于对第一解析结果与第三解析结果进行整合,得到待解析数据的目标解析结果。
[0046]其中,该装置还包括:
[0047]该模型解析模块,还用于接收针对待解析数据的数据解析请求,将待解析数据输入目标模型中进行预测,得到待解析数据的第一解析结果;
[0048]关键解析模块,用于在关键信息提取模型中提取待解析数据的待解析关键信息,对待解析关键信息进行语义分析,确定待解析数据的第四解析结果;
[0049]该解析整合模块,还用于对第一解析结本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语料标签获取方法,其特征在于,所述方法包括:获取待训练模型的k个样本标签,及每个样本标签对应的初始语料数据,对所述每个样本标签对应的初始语料数据进行编码,得到所述k个样本标签分别对应的标签语料向量;k为正整数;获取候选语料数据,将所述候选语料数据编码成为候选语料向量;获取k个标签语料向量分别与所述候选语料向量之间的向量相似度,基于所述向量相似度对所述k个标签语料向量进行整合,得到所述候选语料数据对应的候选预测结果向量;基于所述候选预测结果向量确定所述候选语料数据的候选语料标签,将所述候选语料标签及所述候选语料数据确定为所述待训练模型的训练样本。2.如权利要求1所述的方法,其特征在于,所述每个样本标签对应的初始语料数据的数量为至少两个;所述对所述每个样本标签对应的初始语料数据进行编码,得到所述k个样本标签分别对应的标签语料向量,包括:对第i个样本标签对应的至少两个初始语料数据分别进行编码,得到所述第i个样本标签对应的至少两个初始语料数据分别对应的初始语料向量;i为小于或等于k的正整数;对所述第i个样本标签对应的至少两个初始语料向量进行向量融合,得到所述第i个样本标签对应的标签语料向量。3.如权利要求1所述的方法,其特征在于,所述获取k个标签语料向量分别与所述候选语料向量之间的向量相似度,包括:获取所述k个样本标签分别对应的标签向量;对关联有相同样本标签的标签语料向量和标签向量进行融合,得到每个样本标签分别对应的优化语料向量;获取k个优化语料向量分别与所述候选语料向量之间的向量相似度。4.如权利要求1所述的方法,其特征在于,所述候选预测结果向量包括k个候选预测类别以及每个候选预测类别分别对应的预测概率;所述基于所述候选预测结果向量确定所述候选语料数据的候选语料标签,将所述候选语料标签及所述候选语料数据确定为所述待训练模型的训练样本,包括:从所述k个候选预测类别中,获取所述预测概率最大的候选预测类别,将所述预测概率最大的候选预测类别,确定为所述候选语料数据的候选语料标签;获取语料选取阈值,若所述候选语料标签对应的预测概率大于或等于所述语料选取阈值,则将所述候选语料标签及所述候选语料数据确定为所述待训练模型的训练样本。5.如权利要求1所述的方法,其特征在于,所述候选语料数据的数量为N个;N为正整数;所述基于所述候选预测结果向量确定所述候选语料数据的候选语料标签,将所述候选语料标签及所述候选语料数据确定为所述待训练模型的训练样本,包括:基于N个候选语料数据分别对应的候选预测结果向量,确定所述N个候选语料数据分别对应的候选语料标签;基于所述待训练模型中所述每个样本标签对应的初始语料数据,确定样本扩充数量;若N小于或等于所述样本扩充数量,则将所述N个候选语料数据与所述N个候选语料数据分别对应的候选语料标签,确定为所述待训练模型的训练样本;
若N大于所述样本扩充数量,则基于所述N个候选语料数据分别对应的候选预测结果向量,确定所述N个候选语料数据分别对应的语料置信度,基于所述语料置信度从所述N个候选语料数据以及所述N个候选语料数据分别对应的候选语料标签中,获取所述待训练模型的训练样本。6.如权利要求1所述的方法,其特征在于,所述待训练模型的训练样本包括训练样本数据及训练样本标签;所述训练样本数据包括所述候选语料数据及所述每个样本标签对应的初始语料数据;所述方法还包括:将所述训练样本数据输入所述待训练模型中进行预测,得到所述训练样本数据对应的样本预测结果;根据所述样本预测结果与所述训练样本标签生成第一损失函数,基于所述第一损失函数对所述待训练模型进行参数调整,得到目标模型。7.如权利要求6所述的方法,其特征在于,所述方法还包括:接收针对待解析数据的数据解析请求,将所述待解析数据输入所述目标模型中进行预测,得到所述待解析数据的第一解析结果;获取历史解析数据及所述历史解析数据对应的历史解析结果,对所述待解析数据与所述历史解析数据进行匹配,得到所述待解析数据与所述历史解析数据之间的数据匹配度;基于所述数据匹配度及所述历史解析结果,确定所述待解析数据的第二解析结果;对所述第一解析结果及所述第二解析结果进行整合,得到所述待解析数据的目标解析结果。8.如权利要求6所述的方法,其特征在于,所述方法还包括:接收针对待解析数据的数据解析请求,将所述待解析数据输入所述目标模型中进行预测,得到所述待...

【专利技术属性】
技术研发人员:王明
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1