一种文档级别的中文事件抽取方法技术

技术编号:34490678 阅读:14 留言:0更新日期:2022-08-10 09:09
一种文档级别的中文事件抽取方法,包括:步骤1、从文档中粗筛中文事件数据,对获取到的中文事件数据进行预处理后获取事件数据集;步骤2、对事件数据集制定不同领域下的典型事件进行标注,得到每一类事件类别的标注数据集;步骤3、构建中文通用领域事件抽取模型:基于卷积神经网络和图卷积神经网络,对标注数据集进行特征提取后,进行事件类别分类和论元角色抽取。本方法将原始文档重构为“图像”结构和图结构,完成事件分类和相应论元分类任务,提高事件抽取精度和模型的泛化能力。件抽取精度和模型的泛化能力。件抽取精度和模型的泛化能力。

【技术实现步骤摘要】
一种文档级别的中文事件抽取方法


[0001]本专利技术涉及事件数据处理技术,具体说的是一种文档级别的中文事件抽取方法。

技术介绍

[0002]随着信息技术以及新闻媒体和社交媒体等媒介的快速发展,信息以各种形式满足人们的日常信息获取需要,如图像形式,文本形式和流媒体形式等,种类繁多,数量庞大的信息群造成了信息冗余,可读性差等问题,如何在非结构化信息中自动化地抽取出结构化的重要信息成为了亟待解决的问题,事件作为信息表示的基本单元,如何快速、有效的进行事件抽取对于信息抽取任务和信息理解任务至关重要,为了响应“互联网+”的号召,各个领域与计算机的联系愈加密切,比如金融领域、医疗领域等。
[0003]目前,事件抽取模型主要有两种方式:管道模型和联合模型,管道模型是指将事件抽取中各项子任务(事件检测和分类、论元检测和分类)以“串行”的方式进行,这种方式实现比较简单,易于操作,并且前一个任务完成会减少后一个任务的检测样本数量,但是如果前一个任务出现错误将会影响后一个任务的检测精度,从而带来“错误传播”问题。联合模型是指能够联合事件抽取中各项子任务之间的联系和依赖关系,能够以“并行”的方式进行,这种方式在模型训练时能够尽量缓解管道模型带来的“错误传播”问题,但是在模型测试时仍然会存在此问题。
[0004]在新闻网站中,文本一般以文档形式出现,因此句子级别的事件抽取方法并不适用于此任务,在文档级别的事件抽取任务中,由于一个文档从头到尾的文本跨度较大,并且一个事件的论元可能分布在多个句子中,因此如何解决论元分散问题是文档级别事件抽取任务最重要和急迫需要解决的问题。

技术实现思路

[0005]为解决上述技术问题,本专利技术提供一种文档级别的中文事件抽取方法,采用基于卷积神经网络和图卷积神经网络的中文文档领域事件抽取方法,将原始文档重构为“图像”结构和图结构,完成事件分类和相应论元分类任务,提高事件抽取精度和模型的泛化能力。
[0006]为实现上述技术目的,所采用的技术方案是:一种文档级别的中文事件抽取方法,所述方法包括:步骤1、从文档中粗筛中文事件数据,对获取到的中文事件数据进行预处理后获取事件数据集;步骤2、对事件数据集制定不同领域下的典型事件进行标注,得到每一类事件类别的标注数据集;步骤3、构建中文通用领域事件抽取模型:基于卷积神经网络和图卷积神经网络,对标注数据集进行特征提取后,进行事件类别分类和论元角色抽取。
[0007]从文档中粗筛中文事件数据的方法为,设置通用领域事件关键词典,并设置正则表达式过滤不相关事件。
[0008]对中文事件数据进行预处理的方法包括对原始数据中不相关事件的筛选、网站中特殊标签的删除。
[0009]构建中文通用领域事件抽取模型,具体包括:步骤3.1:将标注数据集以句子为粒度进行分割,然后将分割后的所有句子依次输入预训练模型中,获得对应的句子向量e
s
;步骤3.2:将句子以实体为粒度进行分割,然后将分割后的所有实体依次输入预训练模型中,获得对应的实体向量,然后将实体向量再输入至卷积神经网络的Maxpool层对特征进行压缩,得到压缩后实体向量e
t
。步骤3.3:对于步骤3.2的压缩后实体向量,按照从上到下的顺序依次进行排列成文档向量,使排列后的文档向量行向量和竖向量维度相等,将得到的行向量和竖向量维度相等的文档向量复制2次,得到最终的文档向量D
i
;步骤3.4:对于步骤3.1中的句子向量e
s
和步骤3.2中的压缩后实体向量e
t
,根据不同句子中实体间和同一句子中实体间的依赖关系构建文档图结构向量D
g
;步骤3.5:对于步骤3.3中的文档向量D
i
和步骤3.4中的文档图结构向量D
g
,分别使用卷积神经网络和图卷积神经网络进行特征提取;步骤3.6:根据标注过程中事件类别和典型事件的论元,综合步骤3.5中提取的文档向量D
i
和步骤3.4中的文档图结构向量D
g
的特征,对每个句子进行事件类型分类和论元角色抽取。
[0010]对每个句子进行事件类型判断和论元角色抽取的具体方法为:步骤3.6.1:将文档图结构向量D
g
的特征与文档向量D
i
的特征经过拼接,然后进行特征筛选,最终将进行筛选后的特征向量输入到卷积神经网络的全连接层后,得到对应的典型事件类别概率,取最大概率为对应的事件类别,完成事件类别分类;步骤3.6.2、将文档图结构向量D
g
经过图卷积神经网络提取的特征,再输入卷积神经网络的Maxpool层,得到候选论元向量,最终将候选论元向量输入到卷积神经网络的全连接层,得到对应的事件类别的论元概率,取最大概率为对应的论元角色,完成论元角色抽取。
[0011]预训练模型可采用BERT模型、Word2Vec模型或ELMO模型。
[0012]使排列后的文档向量行向量和竖向量维度相等的具体方法为:如果压缩后实体向量个数小于压缩后实体向量的行维数,则补充相同维度的0向量,如果压缩的实体向量个数大于压缩后实体向量的行维数,则截断压缩后的实体向量。
[0013]步骤3.6.1中进行特征筛选的方法为,利用Transformer模型、长短期记忆网络和循环神经网络实现。
[0014]本专利技术有益效果是:1、本专利技术提出的文档级别的事件抽取方法,以文档为单位,将一篇文档重新组合为一张“图像”,使“图像”内包含了文档的全部信息,并使用卷积神经网络对“图像”进行特征提取,最终将整个文档信息压缩为一维向量,能够获取到整个文档的语义特征。2、本专利技术提出的文档级别的事件抽取方法通过文档内句子间实体的依赖关系,将文档重构为图结构,使同一个事件的不同论元即使分布在不同句子内,也可以通过以上图结构增加相互之间的联系和依赖关系,并且在进行事件分类和论元分类过程中,结合了文
档的局部特征和全局特征,增强了特征利用率,提高了抽取性能。
附图说明
[0015]图1为本专利技术流程图;图2为本专利技术模型结构图。
具体实施方式
[0016]本实施方案为面向中文通用领域的文档级别事件抽取方法,针对于句子级别的事件抽取方法无法解决文档级别事件抽取任务中论元分散问题,通过将原始文档重构为“图像”形式和图结构,充分应用文档的全局特征和单个句子的局部特征,提高了文档级别事件抽取的能力。
[0017]结合图1和图2,本专利技术涉及的是一种文档级别的中文事件抽取方法,具体包括以下步骤:步骤1:从各类新闻网站和公开通用领域事件抽取数据集中粗筛获取中文事件数据,通过设置通用领域事件关键词典,并设置正则表达式过滤不相关事件,由于部分原始数据来源为通用领域相关新闻网站,因此在数据中会出现html标签,因此仍然需要设置正则表达式删除标签。对获取到的口文事件数据数据进行预处理,预处理包括对原始数据中不相关事件的筛选、网站中特殊标签的删除等,最终得到事件数据集。
...

【技术保护点】

【技术特征摘要】
1.一种文档级别的中文事件抽取方法,其特征在于,所述方法包括:步骤1、从文档中粗筛中文事件数据,对获取到的中文事件数据进行预处理后获取事件数据集;步骤2、对事件数据集制定不同领域下的典型事件进行标注,得到每一类事件类别的标注数据集;步骤3、构建中文通用领域事件抽取模型:基于卷积神经网络和图卷积神经网络,对标注数据集进行特征提取后,进行事件类别分类和论元角色抽取。2.如权利要求1所述的一种文档级别的中文事件抽取方法,其特征在于:从文档中粗筛中文事件数据的方法为,设置通用领域事件关键词典,并设置正则表达式过滤不相关事件。3.如权利要求1所述的一种文档级别的中文事件抽取方法,其特征在于:对中文事件数据进行预处理的方法包括对原始数据中不相关事件的筛选、网站中特殊标签的删除。4.如权利要求1所述的一种文档级别的中文事件抽取方法,其特征在于:构建中文通用领域事件抽取模型,具体包括:步骤3.1:将标注数据集以句子为粒度进行分割,然后将分割后的所有句子依次输入预训练模型中,获得对应的句子向量e
s
;步骤3.2:将句子以实体为粒度进行分割,然后将分割后的所有实体依次输入预训练模型中,获得对应的实体向量,然后将实体向量再输入至卷积神经网络的Maxpool层对特征进行压缩,得到压缩后实体向量e
t
。步骤3.3:对于步骤3.2的压缩后实体向量,按照从上到下的顺序依次进行排列成文档向量,使排列后的文档向量行向量和竖向量维度相等,将得到的行向量和竖向量维度相等的文档向量复制2次,得到最终的文档向量D
i
;步骤3.4:对于步骤3.1中的句子向量e
s
和步骤3.2中的压缩后实体向量e
t
,根据不同句子中实体间和同一句子中实体间的依赖关系构建文档图结构向量D
g
;步骤3.5:对于步骤3.3中的文...

【专利技术属性】
技术研发人员:王剑双锴周冀安镇宙于勇涛杨健
申请(专利权)人:北京合立春天科技发展有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1