一种文本抽取任务中的事件分割抽取方法及系统技术方案

技术编号:36434221 阅读:9 留言:0更新日期:2023-01-20 22:47
本发明专利技术公开一种文本抽取任务中的事件分割抽取方法及系统,包括:采用Span片段的数据分割标注策略,搭建基于预训练模型的神经网络分割算法模型,使网络能够学习到事件的首尾token位置,进行事件的分割,以此减少抽取模型单次处理事件的数目;搭建基于预训练模型的神经网络抽取算法模型,将事件抽取任务转换成为论元识别,事件划分及图搜索三个子任务。上述方法能够避免抽取模型解码过于复杂,提升文本事件抽取的正确率,减少抽取错误。此外,本发明专利技术简单易实施,采用分割与抽取Pipeline的方式大大提升了文本事件抽取的正确率,抽取效率高,并且理论上不存在传统自回归模型的曝光偏差问题。问题。问题。

【技术实现步骤摘要】
一种文本抽取任务中的事件分割抽取方法及系统


[0001]本专利技术属于深度学习与人工智能
,涉及一种文本事件分割及信息抽取的方法及系统,具体涉及一种文本抽取任务中的先分割事件后抽取事件的Pipeline技术。

技术介绍

[0002]事件抽取任务,是信息抽取领域最重要,也是最常见的问题之一,其在文本摘要、自动问答、信息检索等领域有着广泛的应用。“事件”是指在特定的时空下,由一个或多个角色(事件主体)参与的,围绕某个主题开展的一系列活动。组成事件的各元素包括:触发词(trigger)、事件类型(event type)、事件论元(argument)及论元角色(role)。事件抽取的目标是在文本中抽取出较为关键的信息(组成事件的各元素),将无结构化数据转换为结构化数据。根据事件所处的位置,事件抽取可分为句子级别以及文档级别。用深度学习解决这类问题的一般方式为,构造一个端到端的神经网络模型,目前事件抽取领域的主流方法分为四个步骤:触发词检测、事件/触发词类型识别、事件论元检测、论元角色识别。虽然这类方法在多个数据集中均取得了良好的效果,但是针对一些多事件且事件交叉较少的文本,随着文本中事件数目的增多,模型性能将会受到严重影响,并且大多现有方法只能处理单事件中论元角色与事件论元一对一的情况。
[0003]事件抽取的正确率受文本中事件数目的影响较大,因此降低处理的文本事件数目对模型事件抽取正确率的提升至关重要。但是依靠人工去划分事件之间的边界往往会耗费大量的人力资源。

技术实现思路

[0004]本专利技术技术解决问题:克服现有技术的不足,提供一种文本抽取任务中的事件分割抽取方法及系统,采用分割与抽取Pipeline的方式大大提升了文本事件抽取的正确率。
[0005]本专利技术的目的是通过以下技术方案实现的:
[0006]第一方面,本专利技术提供了一种文本抽取任务中的事件分割抽取方法,文本抽取任务中先分割事件后抽取事件,分割的目的是尽可能的识别出事件之间的边界,使得模型一次处理较少的事件数目;抽取的目的是尽可能的识别出组成事件中的各元素;采用分割与抽取Pipeline的方式大大提升了文本事件抽取的正确率。
[0007]上述方法包括以下步骤:
[0008]步骤1:对每篇文档中的若干事件进行首尾标注,生成分割标注的样本数据集;所述首尾标注采用Span片段的标注策略;
[0009]步骤2:搭建基于预训练模型的神经网络分割算法模型,并对步骤1得到的分割标注的样本数据集进行训练;
[0010]步骤3:利用训练后的所述分割算法模型,对外部测试集进行事件的分割,得到事件分割结果;
[0011]步骤4:根据事件分割结果中已完成分割的事件,对组成事件的元素进行标注,生
成抽取标注的样本数据集;
[0012]步骤5:搭建基于预训练模型的神经网络抽取算法模型,并对步骤4得到的抽取标注的样本数据集进行训练;
[0013]步骤6:利用训练后的所述抽取算法模型,对外部测试集进行事件元素的抽取,得到文本中的事件抽取结果。
[0014]进一步,所述步骤2中:基于预训练模型的神经网络分割算法模型实现如下:
[0015](1)在预训练模型中的特征提取部分,使用中文预训练模型进行token

level的特征表征后得到向量序列[h1,h2,

,h
i
],对向量序列[h1,h2,

,h
i
]进行线性变换,得到变换结果,即向量序列[q1,q2,

,q
i
]和[k1,k2,

,k
i
],其中线性变换公式:q
i
=W
q
h
i
+b
q
和k
i
=W
k
h
i
+b
k
,将q
i
和k
i
作为识别事件位置的向量序列,i的序列取值范围为1

n,W
q
,W
k
为权重系数,b
q
,b
k
为偏置项;
[0016](2)基于向量序列,采用如下公式
[0017]计算从i到j的事件得分,i,j均为事件位置下标,1≤i≤j≤n;在得分中加入位置编码Q,Q满足相对位置编码;
[0018](3)采用改进的多标签分类损失函数,得到最终的优化目标loss为:
[0019][0020]其中,E是分割标注的样本数据集中样本的所有事件的首尾集合,NE是分割标注的样本数据集中样本的所有非事件的首尾集合;
[0021]NE=Ω

E
[0022]Ω={(i,j)|1≤i≤j≤n}
[0023]E={(i,j)|Span[i,j]is a event}。
[0024]进一步,所述步骤4中,所述基于预训练模型的神经网络抽取算法模型实现如下:
[0025]将事件抽取任务转换成为论元识别,事件划分以及图搜索三个子任务;三者呈现递进关系,首先进行论元识别用于找出所有论元,找出所有论元后进行事件的划分,构建一个事件图,每一个论元为事件图上的一个节点,若两个论元同属一个事件,则两个节点间连上一条边,最后在构建好的事件图中以递归的方式进行图搜索,用以识别图中的事件集合;
[0026]对于论元识别,将触发词作为事件的一个论元角色,统一事件中有无触发词的情况,将事件类型及论元角色组合,进而论元识别转化为实体识别任务,以此识别出事件中存在的所有论元;
[0027]事件的划分由图的构建完成,事件中的每一个论元看作图上的一个节点,此节点拥有事件类型、论元角色和位置下标相关信息,对于同一个事件中的任意两个论元之间存在关联,则在图上连上一条边使之成为相邻节点;如果两个论元从未出现在同一事件中,则对应的节点没有边,即图上不相邻;对于图上存在关联的两个节点,即同一个事件中的两个论元,定义Score
e
(s
h
,s
t
,p,o
h
,o
t
)=S(s
h
,s
t
)+S(o
h
,o
t
)+S(s
h
,o
h
|p)+S(s
t
,o
t
|p)作为两个节点存在关联的打分函数;
[0028]其中,S(s
h
,s
t
)与S(o
h
,o
t
)分别用来识别对应的节点,S(s
h
,o
h
|p)与S(s
t
,o
t
|p)分别用来匹配关系为p的首token位置与尾token位置特征对;本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本抽取任务中的事件分割抽取方法,其特征在于,包括以下步骤:步骤1:对每篇文档中的若干事件进行首尾标注,生成分割标注的样本数据集;步骤2:搭建基于预训练模型的神经网络分割算法模型,并对步骤1得到的分割标注的样本数据集进行训练;步骤3:利用训练后的所述分割算法模型,对外部测试集进行事件的分割,得到事件分割结果;步骤4:根据事件分割结果中已完成分割的事件,对组成事件的元素进行标注,生成抽取标注的样本数据集;步骤5:搭建基于预训练模型的神经网络抽取算法模型,并对步骤4得到的抽取标注的样本数据集进行训练;步骤6:利用训练后的所述抽取算法模型,对外部测试集进行事件元素的抽取,得到文本中的事件抽取结果。2.根据权利要求1所述的文本抽取任务中的事件分割抽取方法,其特征在于:所述步骤1中:所述首尾标注采用Span片段的标注策略;3.根据权利要求1所述的文本抽取任务中的事件分割抽取方法,其特征在于:所述步骤2中:基于预训练模型的神经网络分割算法模型实现如下:(1)在预训练模型中的特征提取部分,使用中文预训练模型进行token

level的特征表征后得到向量序列[h1,h2,...,h
i
],对向量序列[h1,h2,...,h
i
]进行线性变换,得到变换结果,即向量序列[q1,q2,...,q
i
]和[k1,k2,...,k
i
],其中线性变换公式:q
i
=W
q
h
i
+b
q
和k
i
=W
k
h
i
+b
k
,将q
i
和k
i
作为识别事件位置的向量序列,i的序列取值范围为1

n,W
q
,W
k
为权重系数,b
q
,b
k
为偏置项;(2)基于向量序列,采用如下公式计算从i到j的事件得分,i,j均为事件位置下标,1≤i≤j≤n;Q为位置编码,Q满足计算从i到j的事件得分,i,j均为事件位置下标,1≤i≤j≤n;Q为位置编码,Q满足相对位置编码;(3)采用改进的多标签分类损失函数,得到最终的优化目标loss为:其中,E是分割标注的样本数据集中样本的所有事件的首尾集合,NE是分割标注的样本数据集中样本的所有非事件的首尾集合;NE=Ω

EΩ={(i,j)|1≤i≤j≤n}E={(i,j)|Span[i,j]is a event}。4.根据权利要求1所述的文本抽取任务中的事件分割抽取方法,其特征在于:所述步骤5中,所述基于预训练模型的神经网络抽取算法模型实现如下:将事件抽取任务转换成为论元识别,事件划分以及图搜索三个子任务;三者呈现递进关系,首先进行论元识别用于找出所有论元,找出所有论元后进行事件的划分,构建一个事件图,每一个论元为事件图上的一个节点,若两个论元同属一个事件,则两个节点间连上一条边,最后在构建好的事件图中以递归的方式进行图搜索,用以识别图中的事件集合;
对于论元识别,将触发词作为事件的一个论元角色,统一事件中有无触发词的情况,将事件类型及论元角色组合,进而论元识别转化为实体识别任务,以此识别出事件中存在的所有论元;事件的划分由图的构建完成,事件中的每一个论元看作图上的一个节点,此节点拥有事件...

【专利技术属性】
技术研发人员:宋艳枝吴同洲杨周旺
申请(专利权)人:中国科学技术大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1