【技术实现步骤摘要】
一种文本抽取任务中的事件分割抽取方法及系统
[0001]本专利技术属于深度学习与人工智能
,涉及一种文本事件分割及信息抽取的方法及系统,具体涉及一种文本抽取任务中的先分割事件后抽取事件的Pipeline技术。
技术介绍
[0002]事件抽取任务,是信息抽取领域最重要,也是最常见的问题之一,其在文本摘要、自动问答、信息检索等领域有着广泛的应用。“事件”是指在特定的时空下,由一个或多个角色(事件主体)参与的,围绕某个主题开展的一系列活动。组成事件的各元素包括:触发词(trigger)、事件类型(event type)、事件论元(argument)及论元角色(role)。事件抽取的目标是在文本中抽取出较为关键的信息(组成事件的各元素),将无结构化数据转换为结构化数据。根据事件所处的位置,事件抽取可分为句子级别以及文档级别。用深度学习解决这类问题的一般方式为,构造一个端到端的神经网络模型,目前事件抽取领域的主流方法分为四个步骤:触发词检测、事件/触发词类型识别、事件论元检测、论元角色识别。虽然这类方法在多个数据集中均取得了良好的效果,但是针对一些多事件且事件交叉较少的文本,随着文本中事件数目的增多,模型性能将会受到严重影响,并且大多现有方法只能处理单事件中论元角色与事件论元一对一的情况。
[0003]事件抽取的正确率受文本中事件数目的影响较大,因此降低处理的文本事件数目对模型事件抽取正确率的提升至关重要。但是依靠人工去划分事件之间的边界往往会耗费大量的人力资源。
技术实现思路
[0004]本专利 ...
【技术保护点】
【技术特征摘要】
1.一种文本抽取任务中的事件分割抽取方法,其特征在于,包括以下步骤:步骤1:对每篇文档中的若干事件进行首尾标注,生成分割标注的样本数据集;步骤2:搭建基于预训练模型的神经网络分割算法模型,并对步骤1得到的分割标注的样本数据集进行训练;步骤3:利用训练后的所述分割算法模型,对外部测试集进行事件的分割,得到事件分割结果;步骤4:根据事件分割结果中已完成分割的事件,对组成事件的元素进行标注,生成抽取标注的样本数据集;步骤5:搭建基于预训练模型的神经网络抽取算法模型,并对步骤4得到的抽取标注的样本数据集进行训练;步骤6:利用训练后的所述抽取算法模型,对外部测试集进行事件元素的抽取,得到文本中的事件抽取结果。2.根据权利要求1所述的文本抽取任务中的事件分割抽取方法,其特征在于:所述步骤1中:所述首尾标注采用Span片段的标注策略;3.根据权利要求1所述的文本抽取任务中的事件分割抽取方法,其特征在于:所述步骤2中:基于预训练模型的神经网络分割算法模型实现如下:(1)在预训练模型中的特征提取部分,使用中文预训练模型进行token
‑
level的特征表征后得到向量序列[h1,h2,...,h
i
],对向量序列[h1,h2,...,h
i
]进行线性变换,得到变换结果,即向量序列[q1,q2,...,q
i
]和[k1,k2,...,k
i
],其中线性变换公式:q
i
=W
q
h
i
+b
q
和k
i
=W
k
h
i
+b
k
,将q
i
和k
i
作为识别事件位置的向量序列,i的序列取值范围为1
‑
n,W
q
,W
k
为权重系数,b
q
,b
k
为偏置项;(2)基于向量序列,采用如下公式计算从i到j的事件得分,i,j均为事件位置下标,1≤i≤j≤n;Q为位置编码,Q满足计算从i到j的事件得分,i,j均为事件位置下标,1≤i≤j≤n;Q为位置编码,Q满足相对位置编码;(3)采用改进的多标签分类损失函数,得到最终的优化目标loss为:其中,E是分割标注的样本数据集中样本的所有事件的首尾集合,NE是分割标注的样本数据集中样本的所有非事件的首尾集合;NE=Ω
‑
EΩ={(i,j)|1≤i≤j≤n}E={(i,j)|Span[i,j]is a event}。4.根据权利要求1所述的文本抽取任务中的事件分割抽取方法,其特征在于:所述步骤5中,所述基于预训练模型的神经网络抽取算法模型实现如下:将事件抽取任务转换成为论元识别,事件划分以及图搜索三个子任务;三者呈现递进关系,首先进行论元识别用于找出所有论元,找出所有论元后进行事件的划分,构建一个事件图,每一个论元为事件图上的一个节点,若两个论元同属一个事件,则两个节点间连上一条边,最后在构建好的事件图中以递归的方式进行图搜索,用以识别图中的事件集合;
对于论元识别,将触发词作为事件的一个论元角色,统一事件中有无触发词的情况,将事件类型及论元角色组合,进而论元识别转化为实体识别任务,以此识别出事件中存在的所有论元;事件的划分由图的构建完成,事件中的每一个论元看作图上的一个节点,此节点拥有事件...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。