标签分类方法、装置、电子设备和存储介质制造方法及图纸

技术编号:30163704 阅读:25 留言:0更新日期:2021-09-25 15:18
本申请适用于自然语言处理技术领域,提供了一种标签分类方法、装置、电子设备和计算机可读存储介质。该方法包括:确定待处理数据和小样本数据集中的每个标准数据之间的第一相似度,获得待处理数据的相似度阈值;根据相似度阈值以及目标阈值,得到待处理数据的实际阈值;确定待处理数据和小样本数据集的每个标签之间的第二相似度;根据第二相似度和实际阈值,确定待处理数据具备的标签。本申请将用于第二场景标签分类的目标阈值迁移到待处理数据的所属的第一场景中,得到待处理数据的实际阈值;并根据该实际阈值确定待处理数据的标签,无需使用大量样本对待处理数据的场景进行模型训练,既降低了模型的场景迁移成本,又能保证标签分类的准确性。保证标签分类的准确性。保证标签分类的准确性。

【技术实现步骤摘要】
标签分类方法、装置、电子设备和存储介质


[0001]本申请属于自然语言处理
,尤其涉及一种标签分类方法、装置、电子设备和计算机可读存储介质。

技术介绍

[0002]多标签分类问题是自然语言处理中一个常见的问题,例如,用户的一句话里可能包含多种意图,如何确定意图的数量并准确捕获每一种意图就是多标签分类的其中一种用途。
[0003]目前,效果最理想的方法就是为每一种意图训练一个分类模型,再选取合适的阈值,如果文本在某个意图预测分类模型下的概率大于该阈值,则认为该文本包含该意图。
[0004]对于有充足样本数据的场景而言,上述方法可以取得不错的效果。但是,设置好的阈值不具备普适性,在一场景得到的阈值很难直接迁移到另一场景。上述方法就要求对于每个场景都要获得合适的阈值,为此,每个分类模型都需要大量的标注数据进行训练,而要满足多个分类模型对训练样本的需求是比较困难的。

技术实现思路

[0005]本申请实施例提供了一种标签分类方法、装置、电子设备和计算机可读存储介质,可以将第二场景的阈值迁移到待处理数据的第一场景中,以本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种标签分类方法,其特征在于,包括:获取待处理数据;确定所述待处理数据和小样本数据集中的每个标准数据之间的第一相似度,所述标准数据为已标注标签且与所述待处理数据同属于第一场景的数据;根据所述第一相似度,获得所述待处理数据的相似度阈值;根据所述相似度阈值以及目标阈值,得到所述待处理数据的实际阈值,所述目标阈值为用于对第二场景的数据进行标签分类的阈值;确定所述待处理数据和所述小样本数据集的每个标签之间的第二相似度;根据所述第二相似度和所述实际阈值,确定所述待处理数据具备的标签。2.如权利要求1所述的标签分类方法,其特征在于,根据所述待处理数据的相似度阈值以及目标阈值,得到所述待处理数据的实际阈值之前,还包括:获取所述第二场景的每个数据与每个标签的第三相似度;根据所述第三相似度的数值分布,得到所述目标阈值。3.如权利要求2所述的标签分类方法,其特征在于,若所述第二场景的数据为文本,则获取所述第二场景的每个数据与每个标签的第三相似度,包括:获取所述第二场景的每个标签的标签名称Y
i
;通过预训练语言模型分别对所述第二场景的每个文本x
i
和相应标签的标签名称Y
i
进行编码,得到文本向量表示E(x
i
)和标签名称向量表示E(Y
i
);所述第二场景的每个标签的向量表示为:其中α为预设的第一超参数;通过所述向量表示确定所述第二场景的每个文本与每个标签的第三相似度f(x
i
,Y
j
)=Cosin(E(x
i
),e
j
)。4.如权利要求3所述的标签分类方法,其特征在于,根据所述第三相似度的数值分布,得到所述目标阈值,包括:获取所述第三相似度的最大值max f(x,Y)和所述第三相似度的最小值min f(x,Y);所述目标阈值为:threshold
common
=β*max f(x,Y)+(1

β)*min f(x,Y),其中β为预设的第二超参数。5.如权利要求1所述的标签分类方法,其特征在于,根据所述第一相似度,获得所述待处理数据的相似度阈值,包括:根据所述第一相似度,得到所述待处理数据包含的标签数量n
new
,获取所述待处理数据与所述小样本数据集的每个标签之间的第二相似度f(x
new
,Y
j
)=Cosin(E(x
new
),e
J
...

【专利技术属性】
技术研发人员:颜泽龙王健宗
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1