一种基于注意力机制的针对信息抽取任务的数据增强方法技术

技术编号：33653419 阅读：20 留言：0更新日期：2022-06-02 20:32

本发明专利技术涉及一种基于注意力机制的针对信息抽取任务的数据增强方法，包括以下步骤：将信息抽取数据集文本标注为关系分类数据集，每条信息抽取数据包含文本和三元组两部分，三元组由主体、客体和关系组成，将三元组中的关系作为文本的标签，构成一条关系分类数据；将标注完成的关系分类数据集在基于BERT的文本分类模型训练；将待增强文本输入训练完成的分类模型进行分类预测，待分类文本被切分成由若干个字或单词组成的序列；将针对每个字或单词的多头注意分数进行叠加，得到每个字或单词的注意力分数，将字或单词按照注意力分数进行排序，排序靠后的字或单词按照进行随机删除，产生增强文本，增强文本与原三元组共同构成一条信息抽取数据。信息抽取数据。信息抽取数据。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于注意力机制的针对信息抽取任务的数据增强方法

[0001]本专利技术涉及自然语言处理
，尤其涉及一种基于注意力机制的针对信息抽取任务的数据增强方法。

技术介绍

[0002]关系抽取作为信息抽取的一个子任务，是在给定非结构化或半结构化文本情况下，通过一定技术方法来自动的识别实体以及实体之间的关系。近年来，随着深度学习的繁荣，在自然语言处理领域都取得了巨大的成功。通常，训练数据的数量和质量对于深度学习模型的泛化性能具有重要意义。然而，准备一个大规模的标记数据集是一个费时费力的工作。因此，通过数据增强获得高质量标记数据变得尤为重要。
[0003]数据增强旨在通过转换生成现有数据的变体来创建额外的数据。它在深度生成模式等计算机视觉中得到了成功的应用，然而，数据增强被广泛认为是一个难以应用于自然语言处理的方法，原因是文本的抗干扰能力较差，因为对文本的小干扰可能会完全改变意义。同义词替换(SR)可能是其中最简单和直观的方法之一，通过随机替换其中一个同义词来增加文本。然而，单词的同义词数量非常有限的，SR不能产生各种数...

【技术保护点】

【技术特征摘要】
1.一种基于注意力机制的针对信息抽取任务的数据增强方法，包括以下步骤：第一步，将信息抽取数据集文本标注为关系分类数据集，每条信息抽取数据包含文本和三元组两部分，三元组由主体、客体和关系组成，将三元组中的关系作为文本的标签，构成一条关系分类数据；第二步，将标注完成的关系分类数据集在基于BERT的文本分类模型训练，训练过程如下：(1)待分类文本先进行预处理，预处理过程中若文本为中文，则切分成单个字组成的序列，若为英文，则按空格切分成英文单词组成的序列；所述的序列经过BERT编码器，获取BERT倒数第一层编码器的多头注意力分数和倒数第二层编码器的输出隐藏状态，二者做矩阵相乘得到多个中间隐藏状态，其中，BERT编码器由残差网络、多头注意力机制和全连接层网络组成，多头注意力分数由自注意力机制的查询矩阵和关键字矩阵相乘得到的；(2)将得到的多个中间隐藏状态经过多头选择器选择获得固...

【专利技术属性】
技术研发人员：高镇，朱旭，江海，王化，
申请(专利权)人：天津大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人