一种事件抽取方法及装置制造方法及图纸

技术编号：38465445 阅读：10 留言：0更新日期：2023-08-11 14:42

本发明专利技术提供了一种事件抽取方法及装置，该方法包括：通过预先训练好的事件判别模型判断输入文本是否为事件；在判断结果为是的情况下，将输入文本输入预先训练好的事件抽取模型，得到第一层结构输出的事件类型与对应的触发词和第二层结构输出的论元类型与对应的论元，其中，事件抽取模型包括第一层结构和第二层结构；根据预设的规则模板将事件类型与对应的触发词和论元类型与对应的论元组装成目标事件。通过本发明专利技术可以解决相关技术中对海量数据进行事件抽取耗时较长的问题，仅对判断为事件的文本进行事件抽取，降低了批量文本的整体处理时间，同时实现了对事件类型与对应的触发词和论元类型与对应的论元的同时抽取，提高了事件抽取效果。事件抽取效果。事件抽取效果。

全部详细技术资料下载

【技术实现步骤摘要】
一种事件抽取方法及装置

[0001]本专利技术涉及数据处理领域，具体而言，涉及一种事件抽取方法及装置。

技术介绍

[0002]事件抽取(Event Extraction,简称EE)是自然语言处理(Natural Language Processing，简称NLP)领域中一种经典的信息抽取任务，用于从海量文本数据中快速获取事件信息，在商业、军事等领域的情报工作中应用非常广泛。事件抽取任务可分解为触发词识别、事件类型分类、事件元素(argument,又称论元)识别和角色分类四个子任务，后者的输入通常依赖于前者的输出。
[0003]相关技术中通常直接采用事件抽取模型进行事件抽取，但由于实际工作中产生的数据样本中的事件数据较为稀疏，在进行海量数据处理时耗时较长。另外，针对事件抽取中常见的触发词重叠和论元重叠的问题，相关技术中虽然提出了解决方法，但该方法不能识别触发词，同时由于目标实体词通常比非目标实体词少的多，还存在数据类别分布不均衡的问题。
[0004]综上，针对相关技术中事件抽取中存在的上述技术问题，还没有很好的解决方案。

技术实现思路

[0005]本专利技术实施例提供了一种事件抽取方法及装置，以至少解决相关技术中对海量数据进行事件抽取耗时较长的问题。
[0006]根据本专利技术的一个实施例，提供了一种事件抽取方法，包括：通过预先训练好的事件判别模型判断输入文本是否为事件；在判断结果为是的情况下，将所述输入文本输入预先训练好的事件抽取模型，得到第一层结构输出的事件类型与对应的触发词

【技术保护点】

【技术特征摘要】
1.一种事件抽取方法，其特征在于，包括：通过预先训练好的事件判别模型判断输入文本是否为事件；在判断结果为是的情况下，将所述输入文本输入预先训练好的事件抽取模型，得到第一层结构输出的事件类型与对应的触发词和第二层结构输出的论元类型与对应的论元，其中，所述事件抽取模型包括所述第一层结构和所述第二层结构；根据预设的规则模板将所述事件类型与对应的触发词和所述论元类型与对应的论元组装成目标事件。2.根据权利要求1所述的方法，其特征在于，在通过预先训练好的事件判别模型判断输入文本是否为事件之前，所述方法还包括：分别在所述输入文本的头部和尾部添加头部标记和尾部标记；在所述输入文本和所述尾部标记之间添加预设数量的样本增强符号，得到预处理后的输入文本，其中，所述事件抽取模型的输入为所述预处理后的输入文本。3.根据权利要求1所述的方法，其特征在于，通过预先训练好的事件判别模型判断输入文本是否为事件，包括：通过所述事件判别模型对所述输入文本进行二分类，得到所述输入文本的分类结果，其中，所述事件判别模型的结构依次包括编码层BERT、全连接层FNN以及分类层Softmax；在所述分类结果为事件的情况下，确定所述输入文本是事件；在所述分类结果为非事件的情况下，确定所述输入文本不是事件。4.根据权利要求1所述的方法，其特征在于，将所述输入文本输入预先训练好的事件抽取模型，得到第一层结构输出的事件类型与对应的触发词和第二层结构输出的论元类型与对应的论元，包括：将所述输入文本输入所述第一层结构，得到所述第一层结构输出的所述事件类型与对应的触发词和中间输出结果；将所述中间输出结果输入所述第二层结构，得到所述第二层结构输出的所述论元类型与对应的论元。5.根据权利要求4所述的方法，其特征在于，将所述输入文本输入所述第一层结构，得到所述第一层结构输出的所述事件类型与对应的触发词和中间输出结果，包括：将所述输入文本转换成符号嵌入向量、片段嵌入向量以及位置嵌入向量；将所述符号嵌入向量、所述片段嵌入向量以及所述位置嵌入向量输入所述第一层结构中的编码BERT层，得到所述BERT层输出的编码结果；将所述编码结果输入所述第一层结构中的第一密集连接Dense层，得到第一Dense层输出的第一概率矩阵；将所述第一概率矩阵输入所述第一层结构中的条件随机场CRF层，得到所述CRF层输出的所述事件类型与对应的触发词；其中，所述第一层结构依次包括所述BERT层、所述第一Dense层以及所述CRF层，所述中间输出结果包括所述编码结果和所述第一概率矩阵。6.根据权利要求5所述的方法，其特征在于，将所述中间输出结果输入所...

【专利技术属性】
技术研发人员：王田利，史晨阳，裴亚民，张洁，张彬，
申请(专利权)人：中国光大银行股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人