未标注文本的确定方法、装置和电子设备制造方法及图纸

技术编号:36932961 阅读:14 留言:0更新日期:2023-03-22 18:55
本申请提供一种未标注文本的确定方法、装置和电子设备,涉及数据处理技术领域。该方法包括:获取多个未标注文本、多个已标注文本以及多个已标注文本各自的类别标签;分别将多个未标注文本和多个已标注文本输入至文本类别分析模型的特征提取网络中,根据得到的多个未标注文本各自对应的特征向量和多个已标注文本各自对应的特征向量,从多个未标注文本中确定多个候选未标注文本;根据多个候选未标注文本各自对应的类别标签分布熵值,从多个候选未标注文本中确定目标未标注文本,目标未标注文本用于训练文本类别分析模型,可以准确地选择未标注文本,从而提高了训练得到的文本类别分析模型的泛化能力。析模型的泛化能力。析模型的泛化能力。

【技术实现步骤摘要】
未标注文本的确定方法、装置和电子设备


[0001]本申请涉及数据处理
,尤其涉及一种未标注文本的确定方法、装置和电子设备。

技术介绍

[0002]近些年来,随着深度学习技术的不断发展,深度学习模型因为其较强的学习能力,已经被广泛应用于多种场景,例如图像处理场景、文本处理场景等。
[0003]以文本处理场景为例,在训练文本类别分析模型时,通常是获取已标注文本,并将已标注文本作为样本,用于训练文本类别分析模型。但是,执行文本标注操作,需要耗费较大的人工成本,因此,可以考虑选择一部分未标注文本,共同用于训练文本类别分析模型,以提高训练得到的文本类别分析模型的泛化能力。
[0004]因此,在已有的已标注文本的基础上,如何准确地选择未标注文本,以提高训练得到的文本类别分析模型的泛化能力,是本领域技术人员亟待解决的问题。

技术实现思路

[0005]本申请提供一种未标注文本的确定方法、装置和电子设备,在已有的已标注文本的基础上,可以准确地选择未标注文本,从而提高了训练得到的文本类别分析模型的泛化能力。
[0006]本申请提供一种未标注文本的确定方法,该未标注文本的确定方法可以包括:获取多个未标注文本、多个已标注文本以及所述多个已标注文本各自的类别标签。
[0007]分别将所述多个未标注文本和所述多个已标注文本输入至文本类别分析模型的特征提取网络中,得到所述多个未标注文本各自对应的特征向量和所述多个已标注文本各自对应的特征向量。
[0008]根据所述多个未标注文本各自对应的特征向量、所述多个已标注文本各自的类别标签和特征向量,从所述多个未标注文本中确定多个候选未标注文本。
[0009]根据所述多个候选未标注文本各自对应的类别标签分布熵值,从所述多个候选未标注文本中确定目标未标注文本,所述目标未标注文本用于训练所述文本类别分析模型。
[0010]根据本申请提供的一种未标注文本的确定方法,所述方法还包括:针对各候选未标注文本,根据所述候选未标注文本分别与各已标注文本之间的特征空间距离,从所述多个已标注文本中确定与所述候选未标注文本距离最近的第一数量个目标已标注文本。
[0011]根据所述第一数量个目标已标注文本各自的类别标签,确定所述候选未标注文本对应的类别标签分布熵值。
[0012]根据本申请提供的一种未标注文本的确定方法,所述根据所述第一数量个目标已标注文本各自的类别标签,确定所述候选未标注文本对应的类别标签分布熵值,包括:
根据,确定所述候选未标注文本对应的类别标签分布熵值。
[0013]其中,表示所述多个候选未标注文本中第个候选未标注文本,第个候选未标注文本对应的类别标签分布熵值,表示所述第一数量,表示第一个目标已标注文本的类别标签,表示第二个目标已标注文本的类别标签,表示第个目标已标注文本的类别标签。
[0014]根据本申请提供的一种未标注文本的确定方法,所述根据所述多个候选未标注文本各自对应的类别标签分布熵值,从所述多个候选未标注文本中确定目标未标注文本,包括:根据类别标签分布熵值由小到大的顺序,将所述多个候选未标注文本中,前第二数量个候选未标注文本确定为所述目标未标注文本。
[0015]根据本申请提供的一种未标注文本的确定方法,所述根据所述多个未标注文本各自对应的特征向量、所述多个已标注文本各自的类别标签和特征向量,从所述多个未标注文本中确定多个候选未标注文本,包括:根据所述多个已标注文本各自的类别标签和特征向量,确定各类别文本对应的均值向量。
[0016]针对各未标注文本,对所述未标注文本对应的特征向量与所述各类别文本对应的均值向量分别进行插值处理,得到所述各类别文本对应的插值特征向量。
[0017]根据所述多个未标注文本各自对应的特征向量和所述各类别文本对应的插值特征向量,从所述多个未标注文本中确定所述多个候选未标注文本。
[0018]根据本申请提供的一种未标注文本的确定方法,所述根据所述多个未标注文本各自对应的特征向量和所述各类别文本对应的插值特征向量,从所述多个未标注文本中确定所述多个候选未标注文本,包括:分别将所述多个未标注文本各自对应的特征向量和所述各类别文本对应的插值特征向量输入至所述文本类别分析模型的类别分析网络中,得到所述多个未标注文本各自对应的预测标签和所述各类别文本的插值特征向量对应的预测标签。
[0019]针对各未标注文本,在所述未标注文本对应的预测标签和所述各类别文本的插值特征向量对应的预测标签存在不同的情况下,将所述未标注文本确定为所述候选未标注文本。
[0020]根据本申请提供的一种未标注文本的确定方法,所述对所述未标注文本对应的特征向量与所述各类别文本对应的均值向量分别进行插值处理,得到所述各类别文本对应的插值特征向量,包括:根据,确定所述各类别文本对应的插值特征向量。
[0021]其中,表示类别,表示类别文本对应的插值特征向量,表示超参数,表示所述多个未标注文本中的第未标注文本对应的特征向量,表示所述类别文
本对应的均值向量。
[0022]本申请还提供一种未标注文本的确定装置,该未标注文本的确定装置可以包括:获取单元,用于获取多个未标注文本、多个已标注文本以及所述多个已标注文本各自的类别标签。
[0023]第一处理单元,用于分别将所述多个未标注文本和所述多个已标注文本输入至文本类别分析模型的特征提取网络中,得到所述多个未标注文本各自对应的特征向量和所述多个已标注文本各自对应的特征向量。
[0024]第二处理单元,用于根据所述多个未标注文本各自对应的特征向量、所述多个已标注文本各自的类别标签和特征向量,从所述多个未标注文本中确定多个候选未标注文本。
[0025]第三处理单元,用于根据所述多个候选未标注文本各自对应的类别标签分布熵值,从所述多个候选未标注文本中确定目标未标注文本,所述目标未标注文本用于训练所述文本类别分析模型。
[0026]根据本申请提供的一种未标注文本的确定装置,所述第二处理单元,还用于:针对各候选未标注文本,根据所述候选未标注文本分别与各已标注文本之间的特征空间距离,从所述多个已标注文本中确定与所述候选未标注文本距离最近的第一数量个目标已标注文本;根据所述第一数量个目标已标注文本各自的类别标签,确定所述候选未标注文本对应的类别标签分布熵值。
[0027]根据本申请提供的一种未标注文本的确定装置,所述第二处理单元,具体用于根据,确定所述候选未标注文本对应的类别标签分布熵值;其中,表示所述多个候选未标注文本中第个候选未标注文本,第个候选未标注文本对应的类别标签分布熵值,表示所述第一数量,表示第一个目标已标注文本的类别标签,表示第二个目标已标注文本的类别标签,表示第个目标已标注文本的类别标签。
[0028]根据本申请提供的一种未标注文本的确定装置,所述第三处理单元,具体用于:根据类别标签分布熵值由小到大的顺序,将所述多个候选未标注文本中,前第二数量个候选未标注文本确定为所述目标本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种未标注文本的确定方法,其特征在于,包括:获取多个未标注文本、多个已标注文本以及所述多个已标注文本各自的类别标签;分别将所述多个未标注文本和所述多个已标注文本输入至文本类别分析模型的特征提取网络中,得到所述多个未标注文本各自对应的特征向量和所述多个已标注文本各自对应的特征向量;根据所述多个未标注文本各自对应的特征向量、所述多个已标注文本各自的类别标签和特征向量,从所述多个未标注文本中确定多个候选未标注文本;根据所述多个候选未标注文本各自对应的类别标签分布熵值,从所述多个候选未标注文本中确定目标未标注文本,所述目标未标注文本用于训练所述文本类别分析模型。2.根据权利要求1所述的未标注文本的确定方法,其特征在于,所述方法还包括:针对各候选未标注文本,根据所述候选未标注文本分别与各已标注文本之间的特征空间距离,从所述多个已标注文本中确定与所述候选未标注文本距离最近的第一数量个目标已标注文本;根据所述第一数量个目标已标注文本各自的类别标签,确定所述候选未标注文本对应的类别标签分布熵值。3.根据权利要求2所述的未标注文本的确定方法,其特征在于,所述根据所述第一数量个目标已标注文本各自的类别标签,确定所述候选未标注文本对应的类别标签分布熵值,包括:根据,确定所述候选未标注文本对应的类别标签分布熵值;其中,表示所述多个候选未标注文本中第个候选未标注文本,第个候选未标注文本对应的类别标签分布熵值,表示所述第一数量,表示第一个目标已标注文本的类别标签,表示第二个目标已标注文本的类别标签,表示第个目标已标注文本的类别标签。4.根据权利要求1

3任一项所述的未标注文本的确定方法,其特征在于,所述根据所述多个候选未标注文本各自对应的类别标签分布熵值,从所述多个候选未标注文本中确定目标未标注文本,包括:根据类别标签分布熵值由小到大的顺序,将所述多个候选未标注文本中,前第二数量个候选未标注文本确定为所述目标未标注文本。5.根据权利要求1

3任一项所述的未标注文本的确定方法,其特征在于,所述根据所述多个未标注文本各自对应的特征向量、所述多个已标注文本各自的类别标签和特征向量,从所述多个未标注文本中确定多个候选未标注文本,包括:根据所述多个已标注文本各自的类别标签和特征向量,确定各类别文本对应的均值向量;针对各未标注文本,对所述未标注文本对应的特征向量与所述各类别文本对应的均值向量分别进行插值处理,得到所述各...

【专利技术属性】
技术研发人员:曾杰林李林静梁嘉琦曾大军
申请(专利权)人:中国科学院自动化研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1