一种文档级别的中文事件抽取方法技术

技术编号：34490678 阅读：14 留言：0更新日期：2022-08-10 09:09

一种文档级别的中文事件抽取方法，包括：步骤1、从文档中粗筛中文事件数据，对获取到的中文事件数据进行预处理后获取事件数据集；步骤2、对事件数据集制定不同领域下的典型事件进行标注，得到每一类事件类别的标注数据集；步骤3、构建中文通用领域事件抽取模型：基于卷积神经网络和图卷积神经网络，对标注数据集进行特征提取后，进行事件类别分类和论元角色抽取。本方法将原始文档重构为“图像”结构和图结构，完成事件分类和相应论元分类任务，提高事件抽取精度和模型的泛化能力。件抽取精度和模型的泛化能力。件抽取精度和模型的泛化能力。

全部详细技术资料下载

【技术实现步骤摘要】
一种文档级别的中文事件抽取方法

[0001]本专利技术涉及事件数据处理技术，具体说的是一种文档级别的中文事件抽取方法。

技术介绍

[0002]随着信息技术以及新闻媒体和社交媒体等媒介的快速发展，信息以各种形式满足人们的日常信息获取需要，如图像形式，文本形式和流媒体形式等，种类繁多，数量庞大的信息群造成了信息冗余，可读性差等问题，如何在非结构化信息中自动化地抽取出结构化的重要信息成为了亟待解决的问题，事件作为信息表示的基本单元，如何快速、有效的进行事件抽取对于信息抽取任务和信息理解任务至关重要，为了响应“互联网+”的号召，各个领域与计算机的联系愈加密切，比如金融领域、医疗领域等。
[0003]目前，事件抽取模型主要有两种方式：管道模型和联合模型，管道模型是指将事件抽取中各项子任务(事件检测和分类、论元检测和分类)以“串行”的方式进行，这种方式实现比较简单，易于操作，并且前一个任务完成会减少后一个任务的检测样本数量，但是如果前一个任务出现错误将会影响后一个任务的检测精度，从而带来“错误传播”问题。联合模型是指能够联合事件抽取中各项子任务之间的联系和依赖关系，能够以“并行”的方式进行，这种方式在模型训练时能够尽量缓解管道模型带来的“错误传播”问题，但是在模型测试时仍然会存在此问题。
[0004]在新闻网站中，文本一般以文档形式出现，因此句子级别的事件抽取方法并不适用于此任务，在文档级别的事件抽取任务中，由于一个文档从头到尾的文本跨度较大，并且一个事件的论元可能分布在多个句子中，因此如何解决论元分散问题是文档

【技术保护点】

【技术特征摘要】
1.一种文档级别的中文事件抽取方法，其特征在于，所述方法包括：步骤1、从文档中粗筛中文事件数据，对获取到的中文事件数据进行预处理后获取事件数据集；步骤2、对事件数据集制定不同领域下的典型事件进行标注，得到每一类事件类别的标注数据集；步骤3、构建中文通用领域事件抽取模型：基于卷积神经网络和图卷积神经网络，对标注数据集进行特征提取后，进行事件类别分类和论元角色抽取。2.如权利要求1所述的一种文档级别的中文事件抽取方法，其特征在于：从文档中粗筛中文事件数据的方法为，设置通用领域事件关键词典，并设置正则表达式过滤不相关事件。3.如权利要求1所述的一种文档级别的中文事件抽取方法，其特征在于：对中文事件数据进行预处理的方法包括对原始数据中不相关事件的筛选、网站中特殊标签的删除。4.如权利要求1所述的一种文档级别的中文事件抽取方法，其特征在于：构建中文通用领域事件抽取模型，具体包括：步骤3.1：将标注数据集以句子为粒度进行分割，然后将分割后的所有句子依次输入预训练模型中，获得对应的句子向量e
s
；步骤3.2：将句子以实体为粒度进行分割，然后将分割后的所有实体依次输入预训练模型中，获得对应的实体向量，然后将实体向量再输入至卷积神经网络的Maxpool层对特征进行压缩，得到压缩后实体向量e
t
。步骤3.3：对于步骤3.2的压缩后实体向量，按照从上到下的顺序依次进行排列成文档向量，使排列后的文档向量行向量和竖向量维度相等，将得到的行向量和竖向量维度相等的文档向量复制2次，得到最终的文档向量D
i
；步骤3.4：对于步骤3.1中的句子向量e
s
和步骤3.2中的压缩后实体向量e
t
，根据不同句子中实体间和同一句子中实体间的依赖关系构建文档图结构向量D
g
；步骤3.5：对于步骤3.3中的文...

【专利技术属性】
技术研发人员：王剑，双锴，周冀，安镇宙，于勇涛，杨健，
申请(专利权)人：北京合立春天科技发展有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人