文本数据增强方法、装置、相关设备及计算机程序产品制造方法及图纸

技术编号：42041119 阅读：44 留言：0更新日期：2024-07-16 23:25

本申请公开了一种文本数据增强方法、装置、相关设备及计算机程序产品，获取对原始文本集中的原始文本进行初始数据增强处理后的第一文本集，初始数据增强处理包括同义词替换、插入新增词、删除分词、分词交换四种编辑操作中的任意一种或多种组合；在第一文本集中选取长度小于设定长度阈值的目标文本；调用配置的大语言模型，通过第一提示指令指示大语言模型采用添加分词的方式对所述目标文本进行数据增强，可以获取目标文本在更多应用场景下的添加分词后的增强文本，既可以提高文本的多样性，又能够提升包含原始短文本中分词的训练文本的数量，平衡最终第一文本集中各类样本的数量，以此作为训练数据训练模型时，可以更好的提升模型效果。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及自然语言处理，更具体的说，是涉及一种文本数据增强方法、装置、相关设备及计算机程序产品。

技术介绍

1、随着人工智能的高速发展，自然语言处理(nlp)任务越来越多的依靠人工智能模型来实现。自然语言处理任务包括多种类型的任务，示例如：信息抽取、文本分类、关键词识别等。在利用人工智能模型来处理自然语言处理任务时，需要先采用大量的携带有标签的训练数据对模型进行预训练。而训练数据的质量会极大影响模型的效果。

2、有限的训练数据通常会导致模型在训练集上的过拟合，而数据增强工作通过自动或手动操作数据来创建额外的增强数据来缓解这一问题。文本在数据层面的增强方法，一般有交换(exchangr)、插入(insert)、删除(delete)、替换(replace)及其组合的操作方式。

3、但是在一些数据场景下，原始数据集由于自身分布差异往往呈现出分布不均衡的特点。具体表现如长文本与短文本的数量差异明显。相比于短文本，长文本中可交换的分词更多、可插入的位置及分词更多、可删除的成分更多、可替换的分词也更多，因此在经过上述交换、插...

【技术保护点】

1.一种文本数据增强方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，还包括：

3.根据权利要求1或2所述的方法，其特征在于，还包括：

4.根据权利要求1所述的方法，其特征在于，所述第一提示指令prompt还用于指示所述大语言模型对所述第一增强文本进行句式变换，得到第二增强文本，在此基础上，所述方法还包括：将所述第二增强文本添加到所述第一文本集中；

5.根据权利要求1所述的方法，其特征在于，所述目标文本中包含标签词，所述标签词为所需执行的自然语言处理任务所规定的词汇；

6.根据权利要求1所述的方法，其特征在于，...

【技术特征摘要】

1.一种文本数据增强方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，还包括：

3.根据权利要求1或2所述的方法，其特征在于，还包括：

5.根据权利要求1所述的方法，其特征在于，所述目标文本中包含标签词，所述标签词为所需执行的自然语言处理任务所规定的词汇；

6.根据权利要求1所述的方法，其特征在于，通过第一提示指令prompt指示所述大语言模型采用添加分词的方式对所述目标文本进行数据增强，得到第一增强文本的过程，包括：

7.根据权利要求2所述的方法，其特征在于，通过第二提示指令promp...

【专利技术属性】
技术研发人员：胡于平，汪鸿翔，方四安，
申请(专利权)人：合肥讯飞数码科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人