一种序列标注任务的文本数据增强方法及系统技术方案

技术编号：35870489 阅读：18 留言：0更新日期：2022-12-07 11:05

一种序列标注任务的文本数据增强方法及系统，该方法包括：将序列标注任务的文本数据集按照7:1:2的比例划分为训练集、验证集和测试集；从序列标注任务的训练集中提取实体和实体类型；将每种实体类型的不同实体合并为实体列表，每种实体类型和对应的实体列表为一个键值对，多个键值对构成实体字典；对序列标注任务的训练集进行数据增强，生成增强文本；对于生成的若干个增强本文进行去重处理将训练集和增强文本合并，得到增强文本集，进行深度学习模型训练。本申请的序列标注任务包括：命名实体识别任务或关系抽取任务，通过实体替换的方法进行数据增强，能够有效保留实体间上下文语义，提高模型的泛化能力。提高模型的泛化能力。提高模型的泛化能力。

全部详细技术资料下载

【技术实现步骤摘要】
一种序列标注任务的文本数据增强方法及系统
[0001]

[0002]本专利技术涉及自然语言处理
，尤其是一种序列标注任务的文本数据增强方法及系统。

技术介绍

[0003]随着各种深度学习技术的发展，各种深度学习模型被应用于命名实体识别任务和关系抽取任务。构建深度学习模型往往需要大量标记样本，然而在特定领域这样的标记样本是并不存在的，对特定领域数据进行标记不仅需要相关专家的专业知识，还需要耗费大量时间。
[0004]数据增强方法是一种对训练数据扩充的方法，通过对训练集进行变换来扩充训练集数量，进而提高模型的泛化能力。起初的数据增强方法应用于图像数据增强，后来发展到文本数据增强。传统文本数据增强方法应用于命名实体识别任务具有较好的效果，但缺少对于关系抽取任务的数据增强方法。
[0005]命名实体识别任务和关系抽取任务都是序列标注任务，目前针对序列标注任务的文本数据增强，尚未提出有效的解决方案。

技术实现思路

[0006]为了满足序列标注任务对数据增强的需要，本专利技术的目的是提供一种序列标注任务的文本数据增强方法及系统，通过实体替换的数据增强方法，实现序列标注任务的数据增强，以提高相应模型的泛化能力。
[0007]为实现上述目的，本专利技术的技术方案如下：一种序列标注任务的文本数据增强方法，该方法包括以下步骤：步骤1：数据集划分，将序列标注任务的文本数据集按照7:1:2的比例划分为训练集、验证集和测试集；步骤2：实体获取，从序列标注任务的训练集中提取实体和实体类型；步骤3：实体...

【技术保护点】

【技术特征摘要】
1.一种序列标注任务的文本数据增强方法，其特征在于，该方法包括以下步骤：步骤1：数据集划分，将序列标注任务的文本数据集按照7:1:2的比例划分为训练集、验证集和测试集；步骤2：实体获取，从序列标注任务的训练集中提取实体和实体类型；步骤3：实体字典构造，将每种实体类型的不同实体合并为实体列表，每种实体类型和对应的实体列表为一个键值对，多个键值对构成实体字典；步骤4：数据增强，对序列标注任务的训练集进行数据增强，生成增强文本；步骤5：增强文本去重，对于生成的若干个增强本文进行去重处理，得到增强文本集；步骤6：模型训练，将训练集和增强文本集合并，进行深度学习模型训练，通过验证集测试模型的泛化误差，通过测试集对模型效果进行评估；其中：步骤4所述对序列标注任务的训练集进行数据增强，具体包括：从序列标注任务的训练集中选定一个目标文本，确定目标文本的待替换实体；对于待替换实体，在概率P的二项式分布下，随机选择该实体是否进行实体替换；如果待替换实体需要进行替换，根据待替换实体的实体类型和实体字典，得到实体列表，从实体列表中随机选择一个实体，替换原来的实体；如果实体不需要进行替换，该实体保持不变；对于目标文本中的所有待替换实体类型进行替换操作，得到增强文本。2.根据权利要求1所述的序列标注任务的文本数据增强方法，其特征在于，所述序列标注任务包括命名实体识别任务或关系抽取任务。3.一种序列标注任务的文本数据增强系统，其特征在于，包括：数据获取模块，用于获取并建立序列标注任务的文本数据集，按照7:1...

【专利技术属性】
技术研发人员：何道敬，成青园，顾鸿杰，
申请(专利权)人：上海境山科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人