一种事件抽取方法、装置和计算机可读存储介质制造方法及图纸

技术编号：25803452 阅读：27 留言：0更新日期：2020-09-29 18:37

本申请实施例公开了一种事件抽取方法、装置和计算机可读存储介质，该方法包括：获得待进行事件抽取的文本中每一条语句的向量化语义表示W1；通过多标签分类对每一条语句的向量化语义表示W1进行事件类型识别；并对每一条语句的向量化语义表示W1进行片段span划分，获得每个span的语义表示W2；将识别出的每种事件类型以及每个span的语义表示W2进行两两配对获取多个事件类型‑span对，对多个事件类型‑span对进行分类以确定每一个事件类型‑span对中的span是否属于该事件类型‑span对中的事件类型所对应事件的论元。通过该实施例方案，不依赖于特定的自然语言处理工具，解决了事件主体存在交叉的情况，提高了事件抽取的效率，且适用于很多领域。

全部详细技术资料下载

【技术实现步骤摘要】
一种事件抽取方法、装置和计算机可读存储介质
本文涉及事件数据处理技术，尤指一种事件抽取方法、装置和计算机可读存储介质。
技术介绍
互联网上每天都会产生大量的新闻数据，描述许多已经发生的事件。但由于事件种类繁多，无法快速而且准确地分辨事件的类型以及事件的各个因素，如时间，地点，参与人等信息。对发生的公共事件或者特定行业内所发生的事件进行区分和主要因素识别，不仅有助于实时把握事件的发展趋势以及整个行业的发展方向，也可辅助高层决策，降低风险，具有重要的实际应用价值和研究意义。现有的识别方法：[1]基于图神经网络的模型；[2]基于深度学习、注意力机制、序列标注的模型等。现有方法存在以下缺点：1、现有方法很多进行触发词的抽取，但是往往准确度不高且严重影响后续论元的抽取，同时触发词不容易标注，因此在实际应用中使用很少。2、现有方法大都使用特定的自然语言处理工具如Jieba、ltp、standfordNLP等首先对句子进行分词，建立依存树，然后再将这些特征输入模型。缺点在于：处理繁琐，并且这些工具在处理的过程中本身具有一定的误差，因此在后续建模分析的过程中会存在误差累积的问题。3、基于序列标注的一系列模型很难解决事件主体存在交叉的情况，比如“北京的法院”为一个事件论元(机构)，但是“北京”本身也是一种论元(地名)。
技术实现思路
本申请实施例提供了一种事件抽取方法、装置和计算机可读存储介质，能够不依赖于特定的自然语言处理工具，解决事件主体存在交叉的情况，提高事件抽...

【技术保护点】
1.一种事件抽取方法，其特征在于，所述方法包括：/n获得待进行事件抽取的文本中每一条语句的向量化语义表示W1；/n通过多标签分类对所述每一条语句的向量化语义表示W1进行事件类型识别；并对所述每一条语句的向量化语义表示W1进行片段span划分，获得每个span的语义表示W2；/n将识别出的每种事件类型以及所述每个span的语义表示W2进行两两配对，获取多个事件类型-span对，对所述多个事件类型-span对进行分类，以确定每一个事件类型-span对中的span是否属于该事件类型-span对中的事件类型所对应事件的论元。/n

【技术特征摘要】
1.一种事件抽取方法，其特征在于，所述方法包括：
获得待进行事件抽取的文本中每一条语句的向量化语义表示W1；
通过多标签分类对所述每一条语句的向量化语义表示W1进行事件类型识别；并对所述每一条语句的向量化语义表示W1进行片段span划分，获得每个span的语义表示W2；
将识别出的每种事件类型以及所述每个span的语义表示W2进行两两配对，获取多个事件类型-span对，对所述多个事件类型-span对进行分类，以确定每一个事件类型-span对中的span是否属于该事件类型-span对中的事件类型所对应事件的论元。

2.根据权利要求1所述的事件抽取方法，其特征在于，所述方法还包括：预先将事件类型划分为x种，将事件的论元类型划分为y种，将所述事件类型以及所述论元类型以外的类型作为其他类型other；其中，x、y均为正整数；
在获得语句的向量化语义表示W1之前，包括以下操作：
事件类型标记：对所述文本进行事件类型标记，其中，如果所述文本中包含几种事件类型，则将预先划分出的x种事件类型和所述其他类型other所构成的事件类型向量中该几种事件类型的对应位置处记为第一标识，并将所述事件类型向量中非该几种事件类型对应位置处标记为第二标识；获取所标记的事件类型的embedding以及所述事件类型的embedding的向量D_event；
论元标记：对每种事件类型以及每个span进行两两组合，并标记每个组合是否为事件类型-论元对；其中，当该组合是事件类型-论元对时，标记论元类型，当该组合不是事件类型-论元对时，标记为所述其他类型other。

3.根据权利要求2所述的事件抽取方法，其特征在于，所述获得待进行事件抽取的文本中每一条语句的向量化语义表示W1包括：通过双向LSTM网络模型或BERT模型获得每一条语句的向量化语义表示W1。

4.根据权利要求3所述的事件抽取方法，其特征在于，在通过双向LSTM网络获得每一条语句的向量化语义表示W1之前，所述方法还包括：
将语句中的a个字符随机初始化为一个维度为[a，b]的b维向量D，其中，对于从0到a-1的索引id，每个id对应一个不同的字符；对于长度为S的语句，该语句中每一个字符能够在向量D中找到对应的id，从而获得维度为[S，D]的向量；
通过双向LSTM网络获得每一条语句的向量化语义表示W1包括：将维度为[S，D]的向量输入预设的双向LSTM神经网络，将所述双向LSTM神经网络的输出作为语句的向量化语义表示W1；
其中，所述向量化语义表示W1的维度为[S，D1]；D1为2*LSTM隐层节点数。

5.根据权利要求3所述的事件抽取方法，其特征在于，通过BERT模型获得每一条语句的向量化语义表示W1包括：将语句直接输入所述BERT模型，将所述BERT模型的输出作为语句的向量化语义表示W1；
其中，所述...

【专利技术属性】
技术研发人员：徐猛，付骁弈，张杰，
申请(专利权)人：上海明略人工智能集团有限公司，
类型：发明
国别省市：上海;31

全部详细技术资料下载我是这个专利的主人