【技术实现步骤摘要】
基于框架语义映射和类型感知的篇章事件抽取方法及系统
[0001]本专利技术涉及知识图谱和自然语言处理领域,具体为一种基于框架语义映射和类型感知的篇章事件抽取方法及系统。
技术介绍
[0002]篇章事件抽取(Document Event Extraction,DEE)是信息抽取(Information Extraction)中的一个重要研究方向,旨在从非结构化文本中抽取结构化事件类型和事件要素。DEE是舆情监控和金融领域的重要任务之一,事件也是知识图谱(Knowledge Graph)的重要组成部分,事件抽取对于图谱推理和事件分析至关重要。
[0003]DEE包含事件检测和论元识别两部分,其任务难点主要在于文本的复杂性和事件结构的复杂性。文本的复杂性体现在输入文本为篇章,这使得输入文本受限的模型需要在考虑篇章全局信息的情况下进行数据预处理;事件结构的复杂性体现在篇章中包含多事件,不同事件之间互有重叠,较单一事件抽取难度更大。
[0004]分析主流的篇章事件抽取数据集发现,DEE任务面临的挑战主要体现在两个方面:1)篇章数据稀疏。现有数据集人工标注难度较大,导致篇章中各事件类型呈现长尾分布;2)篇章包含多事件。同一论元分布于不同事件中,存在多值论元耦合现象,也即论元重叠。因此本文探索引入汉语框架网(Chinese FrameNet,CFN)与事件建立一定的映射以改善数据稀疏问题,融合事件类型信息和篇章全局信息缓解多值论元耦合问题。
[0005]基于深度学习的事件抽取方法避免了人工设计特征的繁琐工作 ...
【技术保护点】
【技术特征摘要】
1.一种基于框架语义映射和类型感知的篇章事件抽取方法,其特征在于:包括以下步骤:步骤1:通过编码器模块对事件检测模块和论元识别模块的文本分别进行编码,得到篇章片段、触发词释义信息以及事件类型标签中每个字或词的向量表示;步骤2:在事件检测模块中针对篇章事件数据稀疏问题,建立了CFN框架与中文事件的两级映射,进而融合篇章触发词释义信息和CFN相关事件句对预先定义的事件类型进行预测;步骤3:在论元识别模块中针对多值论元耦合问题,建立了基于类型标签感知的多事件分离器,通过预先定义的事件论元角色对文本中的论元进行预测;步骤4,将事件检测模块预测的全部事件类型标签与论元识别模块预测的所有论元标签进行拼接,即完成最终的篇章事件抽取。2.根据权利要求1所述的一种基于框架语义映射和类型感知的篇章事件抽取方法,其特征在于:所述步骤1的具体操作为:采用预训练语言模型BERT
‑
Fin作为编码器,对事件检测模块和论元识别模块的文本分别进行编码;其中,对事件检测模块文本的编码具体为:采用滑窗机制对输入文本进行数据预处理,将文本切分为多片段,每个片段s={c1,c2,c3,...,c
i
}作为事件检测任务的一次输入,c
i
表示文本片段中的第i个字符;同时为了增强触发词对事件类型的语义理解,将其汉语释义信息t={t1,t2,...,t
j
}拼接到文本片段的触发词之后,共同作为文本的输入,t
j
表示触发词释义中的第j个字符,计算公式如下所示:s1=[CLS]+s+[SEP]+t+[SEP]s1′
=Bert
‑
FinEncoder(s1)其中,s1表示事件检测模型的输入,[CLS]表示开始位置,[SEP]表示分隔符;s1′
={c1,c2,...,c
len
},s1′
∈R
len
×
d
,len表示文本片段与释义信息的总长度,d为隐层维度;对论元识别模块文本的编码具体为:采用滑窗机制对输入文本进行数据预处理,将文本切分为多片段,每个片段s={c1,c2,c3,...,c
i
}作为论元识别任务的一次输入,c
i
表示文本片段中的的第i个字符;将事件检测阶段预测的每个事件类型标签e={e1,e2,...,e
j
}分别与输入文本片段进行拼接共同作为模型输入特征,e
j
表示当前事件类型的第j个字符,计算公式如下所示:s2=[CLS]+s+[SEP]+e+[SEP]s
′2=Bert
‑
FinEncoder(s2)其中,s2表示论元识别模型的输入,s
′2={c1,c2,...,c
len
},s
′2∈R
len
×
d
,len表示文本片段与类型标签的总长度,d为隐层维度。3.根据权利要求1所述的一种基于框架语义映射和类型感知的篇章事件抽取方法,其特征在于:所述步骤2包括CFN框架与中文事件映射和序列建模两部分;具体操作为:(1)CFN框架与中文事件映射:将篇章事件与CFN框架映射后的相关事件句、触发词释义以及滑动窗口的文本片段通过编码器模块得到片段和触发词释义的向量s1′
,为了进一步增强篇章中的长实体信息的表示,在预训练模型之后加入bi_lstm进一步增强其语义表示,具体计算过程见如下公式所示:h=bi_lstm(s1′
)
h表示隐层向量,包含前向向量和后向向量,经过向量拼接作为下一层的输入I;(2)序列建模:在解码阶段,将隐层输出作为CRF发射概率,CRF层转移概率矩阵A
i,j
表示从第i个标签tag
i
到第j个标签tag
j
的转移得分,因此对于已知的输入序列s1′
={c1,c2,...,c
len
}对应的输出标签结果为y
e
=(y1,y2,...,y
n
),定义当前序列得分的计算如...
【专利技术属性】
技术研发人员:李茹,卢江,梁吉业,谭红叶,王智强,
申请(专利权)人:山西大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。