一种用于训练缺失条件下的文本处理方法及处理系统技术方案

技术编号：38614235 阅读：16 留言：0更新日期：2023-08-26 23:41

本发明专利技术涉及数据处理技术领域，公开了一种用于训练缺失条件下的文本处理方法及系统，包括：基于目标小样本文本建立负样本数据集，并基于负样本增强算法对负样本数据集进行增强得到增强负样本数据集；基于目标小样本文本构建训练模型，并将训练模型的输出层替换成双指针网络得到目标处理模型；将增强负样本数据集输入目标处理模型中得到损失函数，并对损失函数进行优化得到目标函数；通过目标函数对目标小样本文本进行解码处理；本发明专利技术解决了现有的训练数据缺失条件下文本处理精度较低的问题。训练数据缺失条件下文本处理精度较低的问题。训练数据缺失条件下文本处理精度较低的问题。

全部详细技术资料下载

【技术实现步骤摘要】
一种用于训练缺失条件下的文本处理方法及处理系统

[0001]本专利技术涉及数据处理
，尤其涉及一种用于训练缺失条件下的文本处理方法及处理系统。

技术介绍

[0002]当前机器学习依赖于训练集，然而有些场景下训练数据集规模较小甚至几乎没有，针对这种情况，就需要进行设计在训练缺失条件下的文本处理技术，目前，训练缺失条件下的文本处理技术包括：基于模型微调的小样本学习，基于模型微调的方法是小样本学习较为传统的方法，该方法通常在大规模数据上预训练模型，在目标小样本数据集上对神经网络模型的全连接层或者顶端几层进行参数微调，得到微调后的模型。基于模型微调的方法较简单，但是在真实场景中，目标数据集和源数据集往往并不类似，采用模型微调的方法会导致模型在目标数据集上过拟合。
[0003]基于数据增强的小样本学习，小样本学习的根本问题在于样本量过少，从而导致样本多样性变低。在数据量有限的情况下，可以通过数据增强来提高样本多样性。数据增强指借助辅助数据或辅助信息，对原有的小样本数据集进行数据扩充或特征增强。数据扩充是向原有数据集添加新的数据，可以是无标签数据或者合成的带标签数据；特征增强是在原样本的特征空间中添加便于分类的特征，增加特征多样性。
[0004]基于迁移学习的小样本学习，迁移学习是指利用旧知识来学习新知识，主要目标是将已经学会的知识很快地迁移到一个新的领域中。迁移学习解决了基于模型微调的方法中源数据集和目标数据集分布不相似时导致过拟合的问题。迁移学习只需要源领域和目标领域存在一定关联，使得在源领域和数据中学...

【技术保护点】

【技术特征摘要】
1.一种用于训练缺失条件下的文本处理方法，其特征在于，包括：基于目标小样本文本建立负样本数据集，并基于负样本增强算法对所述负样本数据集进行增强得到增强负样本数据集；基于目标小样本文本构建训练模型，并将所述训练模型的输出层替换成双指针网络得到目标处理模型；将所述增强负样本数据集输入目标处理模型中得到损失函数，并对所述损失函数进行优化得到目标函数；通过目标函数对目标小样本文本进行解码处理。2.根据权利要求1所述的用于训练缺失条件下的文本处理方法，其特征在于，所述基于目标小样本本文建立负样本数据集，包括：基于目标小样本文本构建提示词，并将所述提示词与目标小样本文本结合得到负样本数据集。3.根据权利要求1所述的用于训练缺失条件下的文本处理方法，其特征在于，所述基于负样本增强算法对所述负样本数据集进行增强得到增强负样本数据集，包括：基于处理要求确定文本标签类型，并将所述文本标签类型与增强负样本数据集中的样本类型进行对比；当增强负样本数据集中的样本类型与所述文本标签类型相符时，对该样本进行标记；当增强负样本数据集中的样本类型与所述文本标签类型不相符时，对该样本进行舍弃；将标记后的样本进行组合得到增强负样本数据集。4.根据权利要求1所述的用于训练缺失条件下的文本处理方法，...

【专利技术属性】
技术研发人员：夏东，
申请(专利权)人：湖南视觉伟业智能科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人