一种用于训练缺失条件下的文本处理方法及处理系统技术方案

技术编号:38614235 阅读:16 留言:0更新日期:2023-08-26 23:41
本发明专利技术涉及数据处理技术领域,公开了一种用于训练缺失条件下的文本处理方法及系统,包括:基于目标小样本文本建立负样本数据集,并基于负样本增强算法对负样本数据集进行增强得到增强负样本数据集;基于目标小样本文本构建训练模型,并将训练模型的输出层替换成双指针网络得到目标处理模型;将增强负样本数据集输入目标处理模型中得到损失函数,并对损失函数进行优化得到目标函数;通过目标函数对目标小样本文本进行解码处理;本发明专利技术解决了现有的训练数据缺失条件下文本处理精度较低的问题。训练数据缺失条件下文本处理精度较低的问题。训练数据缺失条件下文本处理精度较低的问题。

【技术实现步骤摘要】
一种用于训练缺失条件下的文本处理方法及处理系统


[0001]本专利技术涉及数据处理
,尤其涉及一种用于训练缺失条件下的文本处理方法及处理系统。

技术介绍

[0002]当前机器学习依赖于训练集,然而有些场景下训练数据集规模较小甚至几乎没有,针对这种情况,就需要进行设计在训练缺失条件下的文本处理技术,目前,训练缺失条件下的文本处理技术包括:基于模型微调的小样本学习,基于模型微调的方法是小样本学习较为传统的方法,该方法通常在大规模数据上预训练模型,在目标小样本数据集上对神经网络模型的全连接层或者顶端几层进行参数微调,得到微调后的模型。基于模型微调的方法较简单,但是在真实场景中,目标数据集和源数据集往往并不类似,采用模型微调的方法会导致模型在目标数据集上过拟合。
[0003]基于数据增强的小样本学习,小样本学习的根本问题在于样本量过少,从而导致样本多样性变低。在数据量有限的情况下,可以通过数据增强来提高样本多样性。数据增强指借助辅助数据或辅助信息,对原有的小样本数据集进行数据扩充或特征增强。数据扩充是向原有数据集添加新的数据,可以是无标签数据或者合成的带标签数据;特征增强是在原样本的特征空间中添加便于分类的特征,增加特征多样性。
[0004]基于迁移学习的小样本学习,迁移学习是指利用旧知识来学习新知识,主要目标是将已经学会的知识很快地迁移到一个新的领域中。迁移学习解决了基于模型微调的方法中源数据集和目标数据集分布不相似时导致过拟合的问题。迁移学习只需要源领域和目标领域存在一定关联,使得在源领域和数据中学习到的知识和特征能够帮助在目标领域训练分类模型,从而实现知识在不同领域之间的迁移。可见,现有的文本处理方法在面对训练数据缺失的情况时存在文本处理精度较低的问题。

技术实现思路

[0005]本专利技术提供了一种用于训练缺失条件下的文本处理方法及处理系统,以解决现有的训练数据缺失条件下文本处理精度较低的问题。
[0006]为了实现上述目的,本专利技术通过如下的技术方案来实现:第一方面,本专利技术提供一种用于训练缺失条件下的文本处理方法,包括:基于目标小样本文本建立负样本数据集,并基于负样本增强算法对负样本数据集进行增强得到增强负样本数据集;基于目标小样本文本构建训练模型,并将训练模型的输出层替换成双指针网络得到目标处理模型;将增强负样本数据集输入目标处理模型中得到损失函数,并对损失函数进行优化得到目标函数;通过目标函数对目标小样本文本进行解码处理。
[0007]可选的,基于目标小样本本文建立负样本数据集,包括:基于目标小样本文本构建提示词,并将提示词与目标小样本文本结合得到负样本数据集。
[0008]可选的,基于负样本增强算法对负样本数据集进行增强得到增强负样本数据集,包括:基于处理要求确定文本标签类型,并将文本标签类型与增强负样本数据集中的样本类型进行对比;当增强负样本数据集中的样本类型与文本标签类型相符时,对该样本进行标记;当增强负样本数据集中的样本类型与文本标签类型不相符时,对该样本进行舍弃;将标记后的样本进行组合得到增强负样本数据集。
[0009]可选的,训练模型包括:融合了自回归网络和自编码网络的Bert预训练模型。
[0010]可选的,将训练模型的输出层替换成双指针网络得到目标处理模型,包括:将训练模型中的传统CRF层替换成双指针网络。
[0011]可选的,将损失函数,包括:;其中,为i到j的连续片段是一个类型为的实体的打分,也就是说,用和的内积,作为片段是类型为的实体的打分,这里的指的是序列t的第i个到第j个元素组成的连续子串。
[0012]可选的,目标函数,包括:;其中,是该样本的所有类型为的实体的首尾集合,是该样本的所有非实体或类型非的实体的首尾集合,只需要考虑i≤j的组合,即:;;;其中,是该样本的所有类型为的实体的首尾集合,是该样本的所有非实体或类型非的实体的首尾集合。
[0013]第二方面,本申请实施例提供一种用于训练缺失条件下的文本处理系统,包括处理器、存储器;存储器,用于存放计算机程序;处理器,用于执行存储器上所存放的程序时,实现第一方面中任一的方法步骤。
[0014]有益效果:本专利技术提供的用于训练缺失条件下的文本处理方法,能够在训练数据缺失条件下通过构造训练数据进行训练从而达到一定的文本处理精准度。
附图说明
[0015]图1为本专利技术优选实施例的用于训练缺失条件下的文本处理方法的流程图。
具体实施方式
[0016]下面对本专利技术的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0017]除非另作定义,本专利技术中使用的技术术语或者科学术语应当为本专利技术所属领域内具有一般技能的人士所理解的通常意义。本专利技术中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性,而只是用来区分不同的组成部分。同样,“一个”或者“一”等类似词语也不表示数量限制,而是表示存在至少一个。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电性的连接,不管是直接的还是间接的。“上”、“下”、“左”、“右”等仅用于表示相对位置关系,当被描述对象的绝对位置改变后,则该相对位置关系也相应地改变。
[0018]实施例1请参见图1,本申请实施例提供一种用于训练缺失条件下的文本处理方法,包括:基于目标小样本文本建立负样本数据集,并基于负样本增强算法对负样本数据集进行增强得到增强负样本数据集;基于目标小样本文本构建训练模型,并将训练模型的输出层替换成双指针网络得到目标处理模型;将增强负样本数据集输入目标处理模型中得到损失函数,并对损失函数进行优化得到目标函数;通过目标函数对目标小样本文本进行解码处理。
[0019]可选的,基于目标小样本本文建立负样本数据集,包括:基于目标小样本文本构建提示词,并将提示词与目标小样本文本结合得到负样本数据集。
[0020]可选的,基于负样本增强算法对负样本数据集进行增强得到增强负样本数据集,包括:基于处理要求确定文本标签类型,并将文本标签类型与增强负样本数据集中的样本类型进行对比;当增强负样本数据集中的样本类型与文本标签类型相符时,对该样本进行标记;当增强负样本数据集中的样本类型与文本标签类型不相符时,对该样本进行舍弃;将标记后的样本进行组合得到增强负样本数据集。
[0021]可选的,训练模型包括:融合了自回归网络和自编码网络的Bert预训练模型。
[0022]可选的,将训练模型的输出层替换成双指针网络得到目标处理模型,包括:将训练模型中的传统CRF层替换成双指针网络。
[0023]其中,CRF层表示条件随机场层(Conditional Random Fields)。
[0024]可选的,将损失函数,包括:
;其中,为i到j的连续片段是一个类型为的实体的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用于训练缺失条件下的文本处理方法,其特征在于,包括:基于目标小样本文本建立负样本数据集,并基于负样本增强算法对所述负样本数据集进行增强得到增强负样本数据集;基于目标小样本文本构建训练模型,并将所述训练模型的输出层替换成双指针网络得到目标处理模型;将所述增强负样本数据集输入目标处理模型中得到损失函数,并对所述损失函数进行优化得到目标函数;通过目标函数对目标小样本文本进行解码处理。2.根据权利要求1所述的用于训练缺失条件下的文本处理方法,其特征在于,所述基于目标小样本本文建立负样本数据集,包括:基于目标小样本文本构建提示词,并将所述提示词与目标小样本文本结合得到负样本数据集。3.根据权利要求1所述的用于训练缺失条件下的文本处理方法,其特征在于,所述基于负样本增强算法对所述负样本数据集进行增强得到增强负样本数据集,包括:基于处理要求确定文本标签类型,并将所述文本标签类型与增强负样本数据集中的样本类型进行对比;当增强负样本数据集中的样本类型与所述文本标签类型相符时,对该样本进行标记;当增强负样本数据集中的样本类型与所述文本标签类型不相符时,对该样本进行舍弃;将标记后的样本进行组合得到增强负样本数据集。4.根据权利要求1所述的用于训练缺失条件下的文本处理方法,...

【专利技术属性】
技术研发人员:夏东
申请(专利权)人:湖南视觉伟业智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1