【技术实现步骤摘要】
事件抽取方法、装置、电子设备和介质
[0001]本专利技术涉及大数据
和人工智能
,更具体地涉及一种事件抽取方法、装置、电子设备和介质。
技术介绍
[0002]事件抽取(Event Extraction)是一种面向非结构化文本或半结构化数据的信息抽取(Information Extraction)任务,事件抽取是从描述事件信息的文本中抽取出用户感兴趣的事件信息并以结构化的形式呈现出来。与传统面向知识图谱的实体、关系、属性等信息抽取有所不同的是,事件抽取抽取的是“事件”,即某些事物在时空范围内的运动。“事件”可以被描述成:“在特定时间内,发生的,同时有参与者的,存在状态变化的事情”。
[0003]“事件抽取”是金融领域的重要任务之一,“事件”在金融领域是投资分析,资产管理的重要决策参考。“事件抽取”的挑战体现在文本的复杂和任务的复杂。文本的复杂体现在事件抽取的输入文本可能是句子、段落或者篇章,不定长度的文本使得限制文本长度的模型无法使用;任务的复杂体现在事件识别的任务包括:事件类型识别,事件主体抽取和事件要 ...
【技术保护点】
【技术特征摘要】
1.一种事件抽取方法,其特征在于,所述方法包括:获取语料集,所述语料集包括待进行事件抽取的文本,所述文本包括多个句子;利用词嵌入模型,将所述文本中的多个句子分别转换为多个向量;基于所述文本中的多个句子和所述多个向量,构建无向图,其中,所述无向图包括多个节点和多个边,所述多个节点分别表示所述文本中的多个句子,所述多个边分别表示具有相同实体的句子的关联关系;将所述无向图作为图神经网络模型的输入,利用所述图神经网络模型对所述无向图中的多个节点进行分类;基于分类后的多个节点,确定多个句子集合,其中,每一个所述句子集合包括至少一个句子,同一个所述句子集合包括的句子对应的节点属于同一类;对于所述多个句子集合中的每一个句子集合,从预设的多个事件类型中确定出与该句子集合对应的事件类型;以及根据所述多个句子集合中每一个句子集合对应的事件类型,抽取出该句子集合中至少一个句子的事件要素。2.根据权利要求1所述的方法,其特征在于,所述利用词嵌入模型,将所述文本中的多个句子分别转换为多个向量,包括:利用词嵌入模型,将所述多个句子中的实体分别转换为多个向量;所述多个边包括至少一个第一边,所述第一边连接的两个节点对应的句子具有一个相同实体,所述第一边具有第一权重,所述第一权重为所述一个相同实体对应的向量。3.根据权利要求2所述的方法,其特征在于,所述多个边还包括至少一个第二边,所述第二边连接的两个节点对应的句子具有至少两个相同实体,所述第二边具有第二权重,所述第二权重为所述至少两个相同实体对应的向量之和。4.根据权利要求2或3所述的方法,其特征在于,所述图神经网络模型为图注意力网络模型;以及将所述无向图作为图神经网络模型的输入包括:至少将所述无向图中的多个节点对应的多个向量的特征向量值和所述无向图中多个边的特征向量值,作为所述图注意力网络模型的输入层。5.根据权利要求4所述的方法,其特征在于,所述对于所述多个句子集合中的每一个句子集合,从预设的多个事件类型中确定出与该句子集合对应的事件类型,包括:对于所述多个句子集合中的每一个句子集合,使用最大池化层处理该句子集合,以获取与该句子集合对应的最大化特征,然后使用softmax函数处理该最大化特征,以计算该句子集合落入预设的多个事件类型的概率值,将概率值最大的事情类型确定为与该句子集合对应的事件类型。6.根据权利要求1
‑
3和5中任一项所述的方法,其特征在于,所述方法还包括:利用专家经验,对预设的各个事件类型预先构建结构化的事件模板;所述根据所述多个句子集合中每一个句子集合对应的事件类型,抽取出该句子集合中至少一个句子的事件要素,包括:根据所述多个句子集合中每一个句子集合对应的事件类型,从预先构建的结构化的事件模板中筛选出与该句子集合对应的事件...
【专利技术属性】
技术研发人员:李明亮,任瑾璇,毕国耀,
申请(专利权)人:中国工商银行股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。