一种事件抽取方法、相关装置、设备及存储介质制造方法及图纸

技术编号:31230205 阅读:52 留言:0更新日期:2021-12-08 10:00
本申请实施例公开了一种事件抽取方法、相关装置、设备及存储介质,用于将句级自然语言转化为结点和边,再将结点和边转化为语义特征来进行事件抽取,能够保证获取事件的精度。本申请实施例方法包括:获取待处理文本;根据待处理文本生成抽象语义表示,抽象语义表示包括与词语一一对应的结点,以及用于连接结点之间边;对抽象语义和文本表示进行语义编码处理,得到语义嵌入向量,语义嵌入向量用于表示每个词语的与事件之间的语义特征;对抽象语义表示进行图编码处理,得到图嵌入向量,其中,图嵌入向量为用于表示通过边相连接的结点的结构特征;将语义嵌入向量与图嵌入向量进行拼接,得到拼接特征向量;对拼接特征向量进行识别,输出目标事件。出目标事件。出目标事件。

【技术实现步骤摘要】
一种事件抽取方法、相关装置、设备及存储介质


[0001]本申请实施例涉及互联网
,尤其涉及一种事件抽取方法、相关装置、设备及存储介质。

技术介绍

[0002]事件抽取是从非结构化信息中抽取出用户感兴趣的事件,并以结构化呈现给用户,一般是先通过对信息进行事件检测,然后在对检测出的事件进行事件角色抽取。
[0003]而传统的事件抽取方法主要是采用有监督学习的方法,一般是需要预先通过人工进行数据集标签的标注来获取标准语料,以及预先对数据集中的事件进行定义架构,再利用标注好的语料和定义好的事件架构来训练高级神经网络,进而通过训练好的高级神经网络来进行事件抽取。
[0004]而传统的事件抽取方法虽然不依赖于语料的内容与格式,但事件抽取数据集的构建难度高以及需要大规模的标准语料,否则会出现较为严重的数据稀疏问题,导致高级神经网络训练受限,从而造成事件抽取的效果不佳。

技术实现思路

[0005]本申请实施例提供了一种事件抽取方法,用于通过将句级的自然语言转化为方便识别的结点和边,再将结点和边转化为能够准确反映每个结点之间本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种事件抽取方法,其特征在于,包括:获取待处理文本,其中,所述待处理文本包括N个词语,所述N为大于1的整数;根据所述待处理文本生成抽象语义表示,其中,所述抽象语义表示包括与所述词语一一对应的结点,以及用于连接所述结点之间边;对所述抽象语义表示以及所述待处理文本进行语义编码处理,得到语义嵌入向量,其中,所述语义嵌入向量用于表示每个所述词语与事件之间的语义特征;对所述抽象语义表示进行图编码处理,得到图嵌入向量,其中,所述图嵌入向量为用于表示通过所述边相连接的所述结点之间的结构特征;将所述语义嵌入向量与所述图嵌入向量进行拼接,得到拼接特征向量;对所述拼接特征向量进行识别,输出目标事件,其中,所述目标事件包括从N个所述词语中抽取出的触发词以及角色词,所述触发词用于指示所述待处理文本中的发生的所述事件,所述角色词用于指示所述待处理文本中的各个实体在所述事件中角色。2.根据权利要求1所述的方法,其特征在于,在所述对所述抽象语义表示进行图编码处理,得到图嵌入向量之前,所述方法还包括:将所述待处理文本进行结点编码处理,得到结点编码向量,所述结点编码向量用于初始化每个所述词语与所述事件之间的语义特征;所述对所述抽象语义表示进行图编码处理,得到图嵌入向量包括:将所述结点编码向量以及所述抽象语义表示通过图编码模型进行图编码处理,得到所述图嵌入向量。3.根据权利要求1所述的方法,其特征在于,所述对所述拼接特征向量进行事件识别,输出目标事件包括:根据动态最大池化算法确定所述语义嵌入向量对应的触发词最大池化特征向量以及角色词最大池化特征向量;将所述触发词最大池化特征向量以及所述角色词最大池化特征向量与所述拼接特征向量进行拼接,得到待识别特征向量;对所述待识别特征向量进行分类识别,得到所述目标事件。4.根据权利要求1所述的方法,其特征在于,所述对所述拼接特征向量进行事件识别,输出目标事件还包括:对所述拼接特征向量进行谱聚类,得到结点聚类图,其中,所述结点聚类图包括聚类结点以及连接所述聚类结点的聚类边;根据所述聚类边的距离确定所述聚类结点之间的边权重值;对所述结点聚类图进行切图处理,得到K个聚类子图,所述K为大于1的整数;当每个所述聚类子图的边权重值符合预设的权重值时,输出所述目标事件。5.根据权利要求1所述的方法,其特征在于,所述对所述抽象语义表示进行语义编码处理,得到语义嵌入向量包括:根据序列编码模型对所述抽象语义表示进行编码,得到所述语义嵌入向量,所述序列编码模型用于对通过所述边连接的所述结点进行时序性编码。6.根据权利要求1所述的方法,其特征在于,在根据所述待处理文本生成抽象语义表示之前,所述方法还包括:
获取数据库中的待处理语料,所述待处理语料包括M个句子,所述M为大于等于1的整数;将所述待处理语料生成抽象语义表示集合,所述抽象语义表示集合包括与所述句子对应结点集,以及连接所述结点之间边形成的边集。7.根据权利要求6所述的方法,其特征在于,在所述将所述待处理语料生成抽象语义表示集合之后,所述方法还包括:根据所述抽象语义表示集合生成对比学习训练数据集;根据所述对比学习训练数据集对基础模型进行预训练,得到训练模型。8.根据权利要求7所述的方法,其特征在于,所述对比训练数据集包括对比学习语义训练数据集,所述根据所述抽象语义表示集合生成对比学习训练数据集包括:根据所述边、所述结点、所述边集以及所述结点集构建所述语义正例,其中,所述语义正例用于表示所述触发词与所述角色之间的语义亲近关系;对所述语义正例进行结点替换操作,得到语义负例,其中,所述语义负例用于表示所述触发词与所述角色之...

【专利技术属性】
技术研发人员:李涓子王子奇王晓智韩旭林衍凯侯磊刘知远李鹏周杰
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1