语料标签确定方法、装置、电子设备及存储介质制造方法及图纸

技术编号:35265676 阅读:13 留言:0更新日期:2022-10-19 10:27
本申请实施例公开了一种语料标签确定方法、装置、电子设备及存储介质,该语料标签确定方法通过获取基准标签集合和样本标签集合,获取基准标签集合对应的多个基准语料,获取样本标签集合对应的多个样本语料,由于样本标签集合包括所有的基准语料标签以及扩展语料标签,扩展语料标签用于指示除了基准语料类别以外的其他语料类别,即样本语料中也会存在其他语料类别的语料,因此根据基准语料和样本语料来训练得到目标分类模型,可以具备识别其他语料类别的语料的能力,从而提升目标分类模型的泛化效果,在利用目标分类模型确定目标语料的目标语料标签时,可以提升目标语料标签的准确性,可以广泛应用于云技术、人工智能等技术领域。域。域。

【技术实现步骤摘要】
语料标签确定方法、装置、电子设备及存储介质


[0001]本申请涉及人工智能
,特别是涉及一种语料标签确定方法、装置、电子设备及存储介质。

技术介绍

[0002]目前,为了提升模型的训练效果,一般会对训练样本进行扩展,以增加训练样本的数量,提升模型的泛化效果以及准确性。相关技术中,在对训练样本进行扩展时,一般属于封闭域的扩展,即给定具体的目标语料类别,将待确定类别的语料的标签确定为目标语料类别中的一种,这就要求待确定类别的语料与目标语料类别具备一定的相关度。然而,待确定类别的语料通常刻画漫无目的的内容,因此采用前述的针对封闭域的方式来确定语料的标签,会降低确定语料标签的准确性。

技术实现思路

[0003]以下是对本文详细描述的主题的概述。本概述并非是为了限制权利要求的保护范围。
[0004]本申请实施例提供了一种语料标签确定方法、装置、电子设备及存储介质,可以提升确定语料标签的准确性。
[0005]一方面,本申请实施例提供了一种语料标签确定方法,包括:
[0006]获取基准标签集合和样本标签集合,其中,所述基准标签集合包括多个基准语料标签,所述基准语料标签用于指示基准语料类别,所述样本标签集合包括扩展语料标签以及所有的所述基准语料标签,所述扩展语料标签用于指示除了所述基准语料类别以外的其他语料类别;
[0007]获取所述基准标签集合对应的多个基准语料,获取样本标签集合对应的多个样本语料;
[0008]初始化原始分类模型;
[0009]将任意一个所述样本语料和各个所述基准语料标签对应的所述基准语料作为语料数据集合,将所述语料数据集合输入至所述原始分类模型,得到所述样本语料对应的样本分类结果向量;
[0010]根据所述样本分类结果向量以及所述样本标签集合计算分类损失值,根据所述样本分类结果向量计算距离损失值,其中,所述距离损失值用于表征所述样本语料与各个所述基准语料标签之间的距离均匀程度;
[0011]根据所述分类损失值和所述距离损失值确定目标损失值,根据所述目标损失值调整所述原始分类模型的参数,得到目标分类模型;
[0012]获取目标语料,将所述目标语料输入至所述目标分类模型,得到所述目标语料的目标语料标签。
[0013]另一方面,本申请实施例还提供了一种语料标签确定装置,包括:
[0014]标签集合获取模块,用于获取基准标签集合和样本标签集合,其中,所述基准标签集合包括多个基准语料标签,所述基准语料标签用于指示基准语料类别,所述样本标签集合包括扩展语料标签以及所有的所述基准语料标签,所述扩展语料标签用于指示除了所述基准语料类别以外的其他语料类别;
[0015]语料获取模块,用于获取所述基准标签集合对应的多个基准语料,获取样本标签集合对应的多个样本语料;
[0016]模型初始化模块,用于初始化原始分类模型;
[0017]第一模型处理模块,用于将任意一个所述样本语料和各个所述基准语料标签对应的所述基准语料作为语料数据集合,将所述语料数据集合输入至所述原始分类模型,得到所述样本语料对应的样本分类结果向量;
[0018]损失值计算模块,用于根据所述样本分类结果向量以及所述样本标签集合计算分类损失值,根据所述样本分类结果向量计算距离损失值,其中,所述距离损失值用于表征所述样本语料与各个所述基准语料标签之间的距离均匀程度;
[0019]参数调整模块,用于根据所述分类损失值和所述距离损失值确定目标损失值,根据所述目标损失值调整所述原始分类模型的参数,得到目标分类模型;
[0020]第二模型处理模块,用于获取目标语料,将所述目标语料输入至所述目标分类模型,得到所述目标语料的目标语料标签。
[0021]进一步,所述样本分类结果向量包括所述样本语料属于各种所述基准语料类别的样本概率值,上述损失值计算模块具体用于:
[0022]计算所述各个所述样本概率值的目标对数值;
[0023]计算各个所述样本概率值与对应的所述目标对数值之间的乘积;
[0024]根据各个所述样本概率值对应的所述乘积之和计算距离损失值。
[0025]进一步,上述第一模型处理模块具体用于:
[0026]获取第一参考语料和第二参考语料,其中,所述第一参考语料与所述第二参考语料之间的句子相似度大于或者等于预设的第一相似度阈值;
[0027]将所述第一参考语料与所述第二参考语料输入至参考模型,对所述第一参考语料以及所述第二参考语料进行编码,得到所述第一参考语料对应的第一参考语料向量以及所述第二参考语料对应的第二参考语料向量;
[0028]确定所述第一参考语料向量和所述第二参考语料向量之间的第一向量相似度,根据所述第一向量相似度计算参考损失值;
[0029]根据所述参考损失值调整所述参考模型的参数,根据所述参考模型调整后的参数初始化原始分类模型。
[0030]进一步,上述语料获取模块具体用于:
[0031]显示语料输入界面;
[0032]获取从所述语料输入界面中输入的多个候选语料,对所述候选语料进行分词处理,得到所述候选语料的候选关键词;
[0033]将与所述基准标签集合中任意一个所述基准语料标签相匹配的所述候选关键词作为目标关键词,在所述语料输入界面中对所述目标关键词进行突出显示;
[0034]当所述候选语料中存在至少一个被突出显示的所述目标关键词,将所述候选语料
作为所述基准标签集合对应的基准语料。
[0035]进一步,上述第二模型处理模块具体用于:
[0036]将所述目标语料输入至所述目标分类模型,对所述目标语料进行编码,得到目标语料向量;
[0037]获取各个所述基准语料标签的语料标签向量;
[0038]确定所述目标语料向量与各个所述语料标签向量之间的第二向量相似度,根据所述第二向量相似度得到所述目标语料对应的目标分类结果向量,其中,所述目标分类结果向量包括所述目标语料属于各种所述基准语料类别的目标概率值;
[0039]将所述目标概率值与预设的概率阈值进行比较,根据比较结果得到所述目标语料的目标语料标签。
[0040]进一步,上述第二模型处理模块具体用于:
[0041]当各个所述目标概率值均小于或者等于预设的概率阈值,确定所述目标语料的目标语料标签为所述扩展语料标签;
[0042]或者,当至少一个所述目标概率值大于所述概率阈值,确定所述目标语料的目标语料标签为所述目标概率值最大的所述基准语料类别对应的所述基准语料标签。
[0043]进一步,上述第二模型处理模块还用于:
[0044]当所述目标语料标签为多个基准语料标签中的任意一个时,根据所述目标分类结果向量确定所述目标语料的语料置信度;
[0045]当所述语料置信度大于或者等于预设的置信度阈值,将所述目标语料以及所述目标语料标签确定为目标训练数据;
[0046]初始化第一待训练模型,根据所本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语料标签确定方法,其特征在于,包括:获取基准标签集合和样本标签集合,其中,所述基准标签集合包括多个基准语料标签,所述基准语料标签用于指示基准语料类别,所述样本标签集合包括扩展语料标签以及所有的所述基准语料标签,所述扩展语料标签用于指示除了所述基准语料类别以外的其他语料类别;获取所述基准标签集合对应的多个基准语料,获取样本标签集合对应的多个样本语料;初始化原始分类模型;将任意一个所述样本语料和各个所述基准语料标签对应的所述基准语料作为语料数据集合,将所述语料数据集合输入至所述原始分类模型,得到所述样本语料对应的样本分类结果向量;根据所述样本分类结果向量以及所述样本标签集合计算分类损失值,根据所述样本分类结果向量计算距离损失值,其中,所述距离损失值用于表征所述样本语料与各个所述基准语料标签之间的距离均匀程度;根据所述分类损失值和所述距离损失值确定目标损失值,根据所述目标损失值调整所述原始分类模型的参数,得到目标分类模型;获取目标语料,将所述目标语料输入至所述目标分类模型,得到所述目标语料的目标语料标签。2.根据权利要求1所述的语料标签确定方法,其特征在于,所述样本分类结果向量包括所述样本语料属于各种所述基准语料类别的样本概率值,所述根据所述样本分类结果向量计算距离损失值,包括:计算所述各个所述样本概率值的目标对数值;计算各个所述样本概率值与对应的所述目标对数值之间的乘积;根据各个所述样本概率值对应的所述乘积之和计算距离损失值。3.根据权利要求1所述的语料标签确定方法,其特征在于,所述初始化原始分类模型,包括:获取第一参考语料和第二参考语料,其中,所述第一参考语料与所述第二参考语料之间的句子相似度大于或者等于预设的第一相似度阈值;将所述第一参考语料与所述第二参考语料输入至参考模型,对所述第一参考语料以及所述第二参考语料进行编码,得到所述第一参考语料对应的第一参考语料向量以及所述第二参考语料对应的第二参考语料向量;确定所述第一参考语料向量和所述第二参考语料向量之间的第一向量相似度,根据所述第一向量相似度计算参考损失值;根据所述参考损失值调整所述参考模型的参数,根据所述参考模型调整后的参数初始化原始分类模型。4.根据权利要求1所述的语料标签确定方法,其特征在于,所述获取所述基准标签集合对应的多个基准语料,包括:显示语料输入界面;获取从所述语料输入界面中输入的多个候选语料,对所述候选语料进行分词处理,得
到所述候选语料的候选关键词;将与所述基准标签集合中任意一个所述基准语料标签相匹配的所述候选关键词作为目标关键词,在所述语料输入界面中对所述目标关键词进行突出显示;当所述候选语料中存在至少一个被突出显示的所述目标关键词,将所述候选语料作为所述基准标签集合对应的基准语料。5.根据权利要求1至4任意一项所述的语料标签确定方法,其特征在于,所述将所述目标语料输入至所述目标分类模型,得到所述目标语料的目标语料标签,包括:将所述目标语料输入至所述目标分类模型,对所述目标语料进行编码,得到目标语料向量;获取各个所述基准语料标签的语料标签向量;确定所述目标语料向量与各个所述语料标签向量之间的第二向量相似度,根据所述第二向量相似度得到所述目标语料对应的目标分类结果向量,其中,所述目标分类结果向量包括所述目标语料属于各种所述基准语料类别的目标概率值;将所述目标概率值与预设的概率阈值进行比较,根据比较结果得到所述目标语料的目标语料标签。6.根据权利要求5所述的语料标签确定方法,其特征在于,所述根据比较结果得到所述目标语料的目标语料标签,包括:当各个所述目标概率值均小于或者等于预设的概率阈值,确定所述目标语料的目标语料标签为所述扩展语料标签;或者,当至少一个所述目标概率值大于所述概率阈值,确定所述目标语料的目标语料标签为所述目标概率值最大的所述基准语料类别对应的所述基准语料标签。7.根据权利要求5所述的语料标签确定方法,其特征在于,所述方法还包括:当所述目标语料标签为多个基准语料标签中的任意一个时,根据所述目标分类结果向量确定所述目标语料的语料置信度;当所述语料置信度大于或者等于预设的置信度阈值,将所述目标语料以及所述目标语料标签确定为目标训练数据;初始化第一待训练模型,根据所述目标训练数据调整所述第一待训练模型的参数,得到语料识别模型。8.根据权利要求7所述的语料标签确定方法,其特征...

【专利技术属性】
技术研发人员:王明赵学敏
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1