【技术实现步骤摘要】
本申请涉及自然语言处理,更具体的说,是涉及一种文本数据增强方法、装置、相关设备及计算机程序产品。
技术介绍
1、随着人工智能的高速发展,自然语言处理(nlp)任务越来越多的依靠人工智能模型来实现。自然语言处理任务包括多种类型的任务,示例如:信息抽取、文本分类、关键词识别等。在利用人工智能模型来处理自然语言处理任务时,需要先采用大量的携带有标签的训练数据对模型进行预训练。而训练数据的质量会极大影响模型的效果。
2、有限的训练数据通常会导致模型在训练集上的过拟合,而数据增强工作通过自动或手动操作数据来创建额外的增强数据来缓解这一问题。文本在数据层面的增强方法,一般有交换(exchangr)、插入(insert)、删除(delete)、替换(replace)及其组合的操作方式。
3、但是在一些数据场景下,原始数据集由于自身分布差异往往呈现出分布不均衡的特点。具体表现如长文本与短文本的数量差异明显。相比于短文本,长文本中可交换的分词更多、可插入的位置及分词更多、可删除的成分更多、可替换的分词也更多,因此在经过上述交换、插
...【技术保护点】
1.一种文本数据增强方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,还包括:
3.根据权利要求1或2所述的方法,其特征在于,还包括:
4.根据权利要求1所述的方法,其特征在于,所述第一提示指令prompt还用于指示所述大语言模型对所述第一增强文本进行句式变换,得到第二增强文本,在此基础上,所述方法还包括:将所述第二增强文本添加到所述第一文本集中;
5.根据权利要求1所述的方法,其特征在于,所述目标文本中包含标签词,所述标签词为所需执行的自然语言处理任务所规定的词汇;
6.根据权利要求1所述
...【技术特征摘要】
1.一种文本数据增强方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,还包括:
3.根据权利要求1或2所述的方法,其特征在于,还包括:
4.根据权利要求1所述的方法,其特征在于,所述第一提示指令prompt还用于指示所述大语言模型对所述第一增强文本进行句式变换,得到第二增强文本,在此基础上,所述方法还包括:将所述第二增强文本添加到所述第一文本集中;
5.根据权利要求1所述的方法,其特征在于,所述目标文本中包含标签词,所述标签词为所需执行的自然语言处理任务所规定的词汇;
6.根据权利要求1所述的方法,其特征在于,通过第一提示指令prompt指示所述大语言模型采用添加分词的方式对所述目标文本进行数据增强,得到第一增强文本的过程,包括:
7.根据权利要求2所述的方法,其特征在于,通过第二提示指令promp...
【专利技术属性】
技术研发人员:胡于平,汪鸿翔,方四安,
申请(专利权)人:合肥讯飞数码科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。