一种基于多头自注意力机制的多任务篇章级事件抽取方法技术

技术编号:31233601 阅读:26 留言:0更新日期:2021-12-08 10:12
本发明专利技术提供一种基于多头自注意力机制的多任务篇章级事件抽取方法,包括如下步骤:将单一句子级事件抽取转换为打包句子集合的篇章级事件抽取;利用预训练的语言模型BERT模型进行词嵌入表示;对单句中所有单词嵌入和位置嵌入作为输入,利用卷积神经网络模型进行编码,结合分段最大池策略捕获句子内部的最有价值的特征;利用多头自注意力模型,获得融合全文语义信息的篇章表示和注意力权重;利用分类器得到预测的事件类型;利用事件类型作为先验信息,链接到事件元素提取的输入序列中,利用预训练模型结合机器阅读理解方法提取序列中所有相关元素。本发明专利技术可用于篇章级事件抽取任务,实现了将序列标注问题转换为机器阅读理解问题的突破。问题的突破。问题的突破。

【技术实现步骤摘要】
一种基于多头自注意力机制的多任务篇章级事件抽取方法


[0001]本专利技术涉及自然语言处理
,尤其涉及一种基于多头自注意力机制的多任务篇章级事件抽取方法。

技术介绍

[0002]当今时代数据信息呈几何级别爆炸式增长,依托互联网技术的发展,每时每刻都有大量的数据产生,新闻数据的迅猛增加,娱乐数据的急剧增多,广告数据的飞速攀升,科技数据的剧猛增长
……
现如今,我们已全面进入大数据时代。如此众多的数据信息,形式多样,错综复杂,难以挖掘和处理,难以利用和分析。为了从新闻数据中提取出更多有价值的信息,关键的就是对新闻文本中包含的实体,关系以及事件进行抽取,对他们之间的作用关系进行分析和预测,以将提取的信息展现的更加系统化规范化。当前已知的知识资源(例如,维基百科等),其所描述的实体及实体之间存在的关系绝大多数都是静态的,而事件更能描述动态的知识。事件,作为信息的表现形式之一,主要描述特定时间、地点、人和物相互作用的客观事实。事件抽取主要是从描述事件信息的文本中抽取出什么人,什么时间,在什么地点,做了什么事,以更加结构化的方式呈现出本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于多头自注意力机制的多任务篇章级事件抽取方法,其特征在于,具体包括如下步骤:步骤1、利用框架网络进行事件类型的建模,将框架网络与事件类型进行相应映射,根据框架得到标注数据集,并对触发词进行上下位词的发现和同义词的扩充,生成扩充触发词后的标注数据集;步骤2、利用预训练的语言模型进行词嵌入表示;对单句中所有单词嵌入和位置嵌入作为输入,利用卷积神经网络模型进行编码,结合分段最大池策略,将特征图根据事件触发词划分为两段,分段提取每个句子段中单词的最大特征,全连接后得到单一句子的语义特征表示;步骤3、利用假设:如果一个文本中含有某个事件类型,那么该文档中至少有一个句子可以完全概括该事件类型,将同一篇文本中的句子打包为一个句子包;句子包中含有步骤2得到的单一句子的语义特征表示,将句子包中的所有单一句子的语义特征表示输入到多头自注意力模型中,获得每个句子在整个文本中的融合了全文语义信息后的增强向量表示,即文本的篇章级语义特征表示;步骤4、输入步骤3得到的篇章级语义特征表示,利用分类器函数进行分类,进而得到最终的事件类型;步骤5、利用步骤4预测出的事件类型作为先验信息,链接到事件元素提取的输入序列中,构造基于微调的BERT模型的规范输入序列,并结合机器阅读理解方法进行序列标注;步骤6、基于步骤5预测实体开始索引和结束索引的概率分布,利用二分类策略提取所有可能的参数实体。2.根据权利要求1所述一种基于多头自注意力机制的多任务篇章级事件抽取方法,其特征在于,所述对触发词进行上下位词的发现和同义词的扩充是利用基于认知学的英语词汇词典对框架网络中事件类型涉及的触发词进行的。3.根据权利要求1所述一种基于多头自注意力机制的多任务篇章级事件抽取方法,其特征在于,所述步骤2前,还包括步骤200:将扩充后的标注数据集进行数据预处理,获得符合预训练的语言模型的输入格式的规范数据。4.根据权利要求1所述一种基于多头自注意力机制的多任务篇章级事件抽取方法,其特征在于,所述步骤2,具体包括如下步骤:步骤201、对各个篇章中的句子进行处理,将篇章划分为每个最大长度为500个单词的句子,对句子进行分词处理;步骤202、利用预训练的语言模型BERT进行词嵌入表示,用word表示通过查找词嵌入转换而成的每个单词标记向量,将每个单词映射到一个维向量中;步骤203、用position表示当前词到触发词的距离嵌入,通过查找位置嵌入矩阵,将当前词到触发词的相对距离转换为实值向量;步骤204、将词嵌入和位置嵌入输入到卷积神经网络模型的卷积层得到句子特征矩阵;将特征矩阵输入到池化层获取细粒度特征,最后利用全连接层得到单个句子的特征表示。5.根据权利要求4所述一种基于多头自注意力机制的多任务篇章级事件抽取方法,其特征在于,所述池化层为了进一步获取更加细粒度的句子表示特征,利用触发词将每个特征映射依据是否包含事件触发词划分为两个部分{c
i1
,c
i2
},使用分段最大池策略对每个部
分分别捕获最大值特征:p
ij
=max(c
ij
)1≤i≤n,1≤j≤2
ꢀꢀꢀꢀ
(5)p
ij
表示取两部分句子特征的最大值,因此,每个卷积核输出得到一个二维向量p
i
={p
i1
,p
i2
},因此,每个卷积核输出得到一个二维向量p
i
={p
i1
,p
i2
},利用非线性函数如双曲正切函数tanh(
·
)连接所有输出向量p
1:n
,得到分段最大池的输出向量如下:g=tanh(p
1:n
)∈R
2n
ꢀꢀꢀꢀ
(6)则可得到单个句子的向量表示,其中g
i
为文本中第i个句子的向量表示。6.根据权利要求1所述一种基于多头自注意力机制的多任务篇章级事件抽取方法,其特征在于,所述步骤3,具体包括如下步骤:步骤301、假设:每篇文本至少有一个句子可以完整的表述该文本所提及的事件,通过多头自注意力机制多场景多层面融合句子特征,以得到文本的篇章级表示,采用乘法注意力机制的策略来实现高度优化的矩阵乘法的运行;输入一个句子包,句子包中有m个句子,其句子包表示为:G=[g1,g2,

,g
m
]
ꢀꢀꢀꢀ
(7)其中,...

【专利技术属性】
技术研发人员:丁建睿吴明瑞丁卓张立斌
申请(专利权)人:长江时代通信股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1