一种序列标注任务的文本数据增强方法及系统技术方案

技术编号:35870489 阅读:18 留言:0更新日期:2022-12-07 11:05
一种序列标注任务的文本数据增强方法及系统,该方法包括:将序列标注任务的文本数据集按照7:1:2的比例划分为训练集、验证集和测试集;从序列标注任务的训练集中提取实体和实体类型;将每种实体类型的不同实体合并为实体列表,每种实体类型和对应的实体列表为一个键值对,多个键值对构成实体字典;对序列标注任务的训练集进行数据增强,生成增强文本;对于生成的若干个增强本文进行去重处理将训练集和增强文本合并,得到增强文本集,进行深度学习模型训练。本申请的序列标注任务包括:命名实体识别任务或关系抽取任务,通过实体替换的方法进行数据增强,能够有效保留实体间上下文语义,提高模型的泛化能力。提高模型的泛化能力。提高模型的泛化能力。

【技术实现步骤摘要】
一种序列标注任务的文本数据增强方法及系统
[0001]

[0002]本专利技术涉及自然语言处理
,尤其是一种序列标注任务的文本数据增强方法及系统。

技术介绍

[0003]随着各种深度学习技术的发展,各种深度学习模型被应用于命名实体识别任务和关系抽取任务。构建深度学习模型往往需要大量标记样本,然而在特定领域这样的标记样本是并不存在的,对特定领域数据进行标记不仅需要相关专家的专业知识,还需要耗费大量时间。
[0004]数据增强方法是一种对训练数据扩充的方法,通过对训练集进行变换来扩充训练集数量,进而提高模型的泛化能力。起初的数据增强方法应用于图像数据增强,后来发展到文本数据增强。传统文本数据增强方法应用于命名实体识别任务具有较好的效果,但缺少对于关系抽取任务的数据增强方法。
[0005]命名实体识别任务和关系抽取任务都是序列标注任务,目前针对序列标注任务的文本数据增强,尚未提出有效的解决方案。

技术实现思路

[0006]为了满足序列标注任务对数据增强的需要,本专利技术的目的是提供一种序列标注任务的文本数据增强方法及系统,通过实体替换的数据增强方法,实现序列标注任务的数据增强,以提高相应模型的泛化能力。
[0007]为实现上述目的,本专利技术的技术方案如下:一种序列标注任务的文本数据增强方法,该方法包括以下步骤:步骤1:数据集划分,将序列标注任务的文本数据集按照7:1:2的比例划分为训练集、验证集和测试集;步骤2:实体获取,从序列标注任务的训练集中提取实体和实体类型;步骤3:实体字典构造,将每种实体类型的不同实体合并为实体列表,每种实体类型和对应的实体列表为一个键值对,多个键值对构成实体字典;步骤4:数据增强,对序列标注任务的训练集进行数据增强,生成增强文本;步骤5:增强文本去重,对于生成的若干个增强本文进行去重处理,得到增强文本集;步骤6:模型训练,将训练集和增强文本集合并,进行深度学习模型训练,通过验证集测试模型的泛化误差,通过测试集对模型效果进行评估;其中:步骤4所述对序列标注任务的训练集进行数据增强,具体包括:从序列标注任务的训练集中选定一个目标文本,确定目标文本的待替换实体;
对于待替换实体,在概率P的二项式分布下,随机选择该实体是否进行实体替换;如果待替换实体需要进行替换,根据待替换实体的实体类型和实体字典,得到实体列表,从实体列表中随机选择一个实体,替换原来的实体;如果实体不需要进行替换,该实体保持不变;对于目标文本中的所有待替换实体类型进行替换操作,得到增强文本。
[0008]所述序列标注任务的文本数据增强方法,序列标注任务包括命名实体识别任务或关系抽取任务。
[0009]一种序列标注任务的文本数据增强系统,它包括:数据获取模块,用于获取并建立序列标注任务的文本数据集,按照7:1:2的比例划分为训练集、验证集和测试集;实体字典生成模块,用于利用序列标注任务的训练集生成实体字典;数据增强模块,对序列标注任务的训练集进行数据增强,生成增强文本;增强文本去重模块,对于生成的若干个增强本文进行去重处理,得到增强文本集;模型训练模块,将训练集和增强文本集合并,进行深度学习模型训练,通过验证集测试模型的泛化误差,通过测试集对模型效果进行评估。
[0010]所述序列标注任务的文本数据增强系统,序列标注任务包括命名实体识别任务或关系抽取任务。
[0011]所述实体字典生成模块进一步包括:实体获取单元,从序列标注任务的训练集中提取实体和实体类型;实体字典构造单元,将每种实体类型的不同实体合并为实体列表,每种实体类型和对应的实体列表为一个键值对,多个键值对构成实体字典。
[0012]所述数据增强模块进一步包括:目标文本选择单元,从序列标注任务的训练集中选定一个目标文本,确定目标文本的待替换实体;实体替换单元,对于待替换实体,在概率P的二项式分布下,随机选择该实体是否进行实体替换;如果待替换实体需要进行替换,根据待替换实体的实体类型和实体字典,得到实体列表,从实体列表中随机选择一个实体,替换原来的实体;如果实体不需要进行替换,该实体保持不变;增强文本生成单元,对于目标文本中的所有待替换实体类型进行替换操作,得到增强文本。
[0013]与现有技术相比,本专利技术的有益效果是:本专利技术提供一种序列标注任务的文本数据增强方法及系统,传统的文本数据增强方法只针对命名实体识别任务,应用场景有限。本专利技术设计的数据增强方法能够应用于含有实体类型的序列标注任务,如命名实体识别任务或关系抽取任务,通过实体替换的数据增强方法,能够极大的保留实体间上下文语义,利用增强文本构建的模型具有更好的泛化能力。
附图说明
[0014]图1为本专利技术的文本数据增强方法的流程图;图2为本专利技术实施例1示意图;图3为本专利技术实施例2示意图;图4为本专利技术的文本数据增强系统的结构示意框图。
具体实施方式
[0015]以下结合附图及实施例对本专利技术做进一步的阐述。
[0016]参阅图1,本专利技术提出一种序列标注任务的文本数据增强方法,能够应用于含有实体类型的序列标注任务。对于含有实体类型的序列标注任务,如命名实体识别任务或关系抽取任务,利用实体替换的方法构造增强文本,以提高深度学习模型的泛化能力。具体方法如下:1.数据集划分,将序列标注任务的文本数据集按照7:1:2的比例划分为训练集、验证集和测试集;2.实体获取,从序列标注任务的训练集中提取实体和实体类型;3.实体字典构造,将每种实体类型的不同实体合并为实体列表,每种实体类型和对应的实体列表为一个键值对,多个键值对构成实体字典;4.数据增强,对序列标注任务的训练集进行数据增强,生成增强文本;5.增强文本去重,对于生成的若干个增强本文进行去重处理,得到增强文本集;6.模型训练,将训练集和增强文本集合并,进行深度学习模型训练,通过验证集测试模型的泛化误差,通过测试集对模型效果进行评估;其中:所述对序列标注任务的训练集进行数据增强,具体包括:从序列标注任务的训练集中选定一个目标文本,确定目标文本的待替换实体;对于待替换实体,在概率P的二项式分布下,随机选择该实体是否进行实体替换;如果待替换实体需要进行替换,根据待替换实体的实体类型和实体字典,得到实体列表,从实体列表中随机选择一个实体,替换原来的实体;如果实体不需要进行替换,该实体保持不变;对于目标文本中的所有待替换实体类型进行替换操作,得到增强文本。
[0017]所述序列标注任务包括命名实体识别任务或关系抽取任务。
[0018]对于数据增强的方式,给出一个数据增强样例,表1是根据本专利技术提出的数据增强样例,如表所示:表1
对于训练集中的一个目标文本“BRONZE PRESIDENT leverages Wmiexec”,其对应的序列标注标签为“B

AttackerI

AttackerOB

Tool”,其中“B

AttackerI

Attacker”序列标注标签表示实体“BRON本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种序列标注任务的文本数据增强方法,其特征在于,该方法包括以下步骤:步骤1:数据集划分,将序列标注任务的文本数据集按照7:1:2的比例划分为训练集、验证集和测试集;步骤2:实体获取,从序列标注任务的训练集中提取实体和实体类型;步骤3:实体字典构造,将每种实体类型的不同实体合并为实体列表,每种实体类型和对应的实体列表为一个键值对,多个键值对构成实体字典;步骤4:数据增强,对序列标注任务的训练集进行数据增强,生成增强文本;步骤5:增强文本去重,对于生成的若干个增强本文进行去重处理,得到增强文本集;步骤6:模型训练,将训练集和增强文本集合并,进行深度学习模型训练,通过验证集测试模型的泛化误差,通过测试集对模型效果进行评估;其中:步骤4所述对序列标注任务的训练集进行数据增强,具体包括:从序列标注任务的训练集中选定一个目标文本,确定目标文本的待替换实体;对于待替换实体,在概率P的二项式分布下,随机选择该实体是否进行实体替换;如果待替换实体需要进行替换,根据待替换实体的实体类型和实体字典,得到实体列表,从实体列表中随机选择一个实体,替换原来的实体;如果实体不需要进行替换,该实体保持不变;对于目标文本中的所有待替换实体类型进行替换操作,得到增强文本。2.根据权利要求1所述的序列标注任务的文本数据增强方法,其特征在于,所述序列标注任务包括命名实体识别任务或关系抽取任务。3.一种序列标注任务的文本数据增强系统,其特征在于,包括:数据获取模块,用于获取并建立序列标注任务的文本数据集,按照7:1...

【专利技术属性】
技术研发人员:何道敬成青园顾鸿杰
申请(专利权)人:上海境山科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1