【技术实现步骤摘要】
本专利技术涉及自然语言处理,尤其涉及数据增强方法、装置、电子设备及存储介质。
技术介绍
1、信息抽取是自然语言处理中的一个关键任务,旨在从非结构化的文本中提取结构化的信息,例如实体、关系和事件等,信息抽取在金融和医疗等各个领域都有广泛应用。然而信息抽取的相关模型需要大量的标注样本参与训练,为了减少人工标注的高成本和高工作量,相关技术中通常采用数据增强方法对原有标注样本进行扩充。但是扩充得到的样本与原有标注样本的语义相似,缺乏语义多样性,最终导致信息抽取模型的泛化性差。
技术实现思路
1、本专利技术实施例的主要目的在于提出数据增强方法、装置、电子设备及存储介质,生成并筛选得到多样化的增强数据。
2、为实现上述目的,本专利技术实施例的第一方面提出了一种数据增强方法,包括:
3、对初始信息文本进行信息要素提取,得到非主体片段,并基于所述非主体片段的掩码,根据所述初始信息文本得到初始文本句;
4、将所述初始文本句输入预先训练的内容填充模型进行掩码填充,得到多个增
...
【技术保护点】
1.一种数据增强方法,其特征在于,包括:
2.根据权利要求1所述的数据增强方法,其特征在于,所述对初始信息文本进行信息要素提取,得到非主体片段,并基于所述非主体片段的掩码,根据所述初始信息文本得到初始文本句,包括:
3.根据权利要求1所述的数据增强方法,其特征在于,所述将所述初始文本句输入预先训练的内容填充模型进行掩码填充,得到多个增强掩码,包括:
4.根据权利要求1所述的数据增强方法,其特征在于,所述将所述初始信息文本和多个所述增强候选数据输入数据筛选模型进行数据筛选,从所述增强候选数据选取所述初始信息文本的信息增强数据,包括:<
...【技术特征摘要】
1.一种数据增强方法,其特征在于,包括:
2.根据权利要求1所述的数据增强方法,其特征在于,所述对初始信息文本进行信息要素提取,得到非主体片段,并基于所述非主体片段的掩码,根据所述初始信息文本得到初始文本句,包括:
3.根据权利要求1所述的数据增强方法,其特征在于,所述将所述初始文本句输入预先训练的内容填充模型进行掩码填充,得到多个增强掩码,包括:
4.根据权利要求1所述的数据增强方法,其特征在于,所述将所述初始信息文本和多个所述增强候选数据输入数据筛选模型进行数据筛选,从所述增强候选数据选取所述初始信息文本的信息增强数据,包括:
5.根据权利要求4所述的数据增强方法,其特征在于,所述基于所述分类标签、所述第一嵌入特征和所述第二嵌入特征计算所述初始信息文本和所述增强候选数据的信息熵差值,包括:
6.根据权...
【专利技术属性】
技术研发人员:曾志贤,王伟,张兴,夏修理,
申请(专利权)人:华润数字科技南京有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。