数据增强方法、装置、电子设备及存储介质制造方法及图纸

技术编号：41231945 阅读：15 留言：0更新日期：2024-05-09 23:47

本发明专利技术提供数据增强方法、装置、电子设备及存储介质，涉及自然语言处理技术领域。根据信息要素对初始信息文本提取非主体片段，并基于非主体片段的掩码得到初始文本句，并输入内容填充模型进行填充生成多个增强掩码。利用增强掩码替换非主体片段得到增强候选数据，最后将初始信息文本和增强候选数据输入数据筛选模型，从增强候选数据选取初始信息文本的信息增强数据。由此根据信息要素提取初始信息文本，保持文本的主体结构不变。利用内容填充模型填充非主体片段生成多样化的增强样本，再通过数据筛选模型对增强样本进行筛选，从而在保持文本主体结构不变的情况下生成更多样化更合理的增强数据，有助于提高信息抽取模型的效果和泛化性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及自然语言处理，尤其涉及数据增强方法、装置、电子设备及存储介质。

技术介绍

1、信息抽取是自然语言处理中的一个关键任务，旨在从非结构化的文本中提取结构化的信息，例如实体、关系和事件等，信息抽取在金融和医疗等各个领域都有广泛应用。然而信息抽取的相关模型需要大量的标注样本参与训练，为了减少人工标注的高成本和高工作量，相关技术中通常采用数据增强方法对原有标注样本进行扩充。但是扩充得到的样本与原有标注样本的语义相似，缺乏语义多样性，最终导致信息抽取模型的泛化性差。

技术实现思路

1、本专利技术实施例的主要目的在于提出数据增强方法、装置、电子设备及存储介质，生成并筛选得到多样化的增强数据。

2、为实现上述目的，本专利技术实施例的第一方面提出了一种数据增强方法，包括：

3、对初始信息文本进行信息要素提取，得到非主体片段，并基于所述非主体片段的掩码，根据所述初始信息文本得到初始文本句；

4、将所述初始文本句输入预先训练的内容填充模型进行掩码填充，得到多个增强掩码；

...

【技术保护点】

1.一种数据增强方法，其特征在于，包括：

2.根据权利要求1所述的数据增强方法，其特征在于，所述对初始信息文本进行信息要素提取，得到非主体片段，并基于所述非主体片段的掩码，根据所述初始信息文本得到初始文本句，包括：

3.根据权利要求1所述的数据增强方法，其特征在于，所述将所述初始文本句输入预先训练的内容填充模型进行掩码填充，得到多个增强掩码，包括：

4.根据权利要求1所述的数据增强方法，其特征在于，所述将所述初始信息文本和多个所述增强候选数据输入数据筛选模型进行数据筛选，从所述增强候选数据选取所述初始信息文本的信息增强数据，包括：</p>

5.根据...

【技术特征摘要】

1.一种数据增强方法，其特征在于，包括：

3.根据权利要求1所述的数据增强方法，其特征在于，所述将所述初始文本句输入预先训练的内容填充模型进行掩码填充，得到多个增强掩码，包括：

4.根据权利要求1所述的数据增强方法，其特征在于，所述将所述初始信息文本和多个所述增强候选数据输入数据筛选模型进行数据筛选，从所述增强候选数据选取所述初始信息文本的信息增强数据，包括：

5.根据权利要求4所述的数据增强方法，其特征在于，所述基于所述分类标签、所述第一嵌入特征和所述第二嵌入特征计算所述初始信息文本和所述增强候选数据的信息熵差值，包括：

6.根据权...

【专利技术属性】
技术研发人员：曾志贤，王伟，张兴，夏修理，
申请(专利权)人：华润数字科技南京有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人