一种应急事件事理图谱构建方法技术

技术编号:35916101 阅读:30 留言:0更新日期:2022-12-10 10:58
本发明专利技术公开了一种应急事件事理图谱构建方法,其特征在于:包括以下步骤:步骤一:预先进行事件类型分类,并预设种子触发词;步骤二:基于符号空间和向量空间进行事件表示;步骤三:识别包含突发事件触发词的文本句,并判断事件触发词所对应的预定义事件类型;步骤四:基于已获得的突发事件触发词及事件类型得到事件表示框架,基于事件表示框架抽取事件中的元素;步骤五:对事件的因果关系进行抽取;步骤六:进行事件融合,输出图谱数据。本发明专利技术能够快速收集突发事件的相关信息,描绘事件的演化过程,辅助专家学者进行事件发生前的准备工作,事件发展过程中的快速决策,以及事件发展结束后的科学研究。后的科学研究。后的科学研究。

【技术实现步骤摘要】
一种应急事件事理图谱构建方法


[0001]本专利技术属于自然语言处理
,尤其涉及一种应急事件事理图谱构建方法。

技术介绍

[0002]应急事件的事理图谱是以应急事件为节点,以事件之间的因果关系为边的事理图谱,描述了应急事件之间的演化过程。如何构建事理图谱对于快速收集突发事件的相关信息,描绘事件的演化过程,辅助专家学者进行事件发生前的准备工作,事件发展过程中的快速决策,以及事件发展结束后的科学研究具有重要意义。

技术实现思路

[0003]本专利技术的目的在于克服现有技术存在的以上问题,提供一种应急事件事理图谱构建方法。
[0004]为实现上述技术目的,达到上述技术效果,本专利技术通过以下技术方案实现:
[0005]一种应急事件事理图谱构建方法,包括以下步骤:
[0006]步骤一:预先进行事件类型分类,并预设种子触发词;
[0007]步骤二:基于符号空间和向量空间进行事件表示;
[0008]步骤三:识别包含突发事件触发词的文本句,并判断事件触发词所对应的预定义事件类型;
[0009]步骤四:基于已获得的突发事件触发词及事件类型得到事件表示框架,基于事件表示框架抽取事件中的元素;
[0010]步骤五:对事件的因果关系进行抽取;
[0011]步骤六:进行事件融合,输出图谱数据。
[0012]进一步地,所述步骤二包括事件组成要素表示法和事件核心词汇表示法;
[0013]事件组成要素表示法用于事件发生类的事件,具体包括:将事件表示为由事件的类型、事件发生的时间、发生的地点、参与的对象、相关动作和事件提及句共同组成的复合知识单元;并将事件表示符号化为六元组的形式E={C,T,V,O,A,M};
[0014]事件核心词汇表示法用于事件影响类和应急决策类的事件,具体包括:结合依存句法关系和词性,通过核心关键词来表示事件,保证减少事件中的冗余信息的同时,不会过多的丢失事件中的关键性信息。
[0015]进一步地,所述步骤三具体采用序列标注模型对文本句进行实体和事件触发词的联合识别,利用BERT

BiLSTM

CRF模型对实体和突发事件触发词进行联合标注:利用BERT模型进行文本特征提取,然后将特征向量输入BiLSTM

CRF模型中进行实体和触发词的标注,并判断他们的类别。
[0016]进一步地,所述BERT

BiLSTM

CRF模型依次包括词嵌入层、双向LSTM层和CRF层;
[0017]词嵌入层用于将输入序列的文本信息转为向量的形式,通过BERT预训练模型将文本句中的词语转化为低维稠密的向量序列的形式,输出到双向长短时记忆网络层中;
[0018]双向LSTM层用于将每个时间序列的前向LSTM捕获上文特征信息和后向LSTM捕获的下文特征信息进行拼接,通过线性全连接层将输出映射为一个维度等于输出标签数的向量,并使用Softmax函数得到每个单词对应每个标签的概率;
[0019]CRF层用于将双向LSTM层的输出概率作为状态特征向量,对序列进行字符化序列标注。
[0020]进一步地,所述步骤四具体包括依存句法分析、融合实体和触发词信息的事件元素抽取方法;
[0021]依存句法分析用于事件影响类和应急决策类的事件元素抽取任务,使用LTP工具抽取出包含此类事件触发词的核心词汇;
[0022]融合实体和触发词信息的事件元素抽取方法用于事件发生类的事件元素抽取任务。
[0023]进一步地,所述步骤五采用模式匹配与神经网络相结合的方法:
[0024]首先,将突发事件识别和元素抽取任务得到的结构化的事件,两两组队构成事件对的形式,然后判断两个事件是否来自同一个事件描述句,若两个事件来自同一事件描述句且存在因果连接词,说明该事件描述句中存在显示因果关系,因此用模式匹配的方法来进行因果关系的抽取,否则,说明该事件描述句中存在隐式因果关系或不存在因果关系,用神经网络的方法来进行事件因果关系的抽取。
[0025]进一步地,所述两两组队构成事件对的形式具体如下:
[0026](1)将每篇语料中包含的事件放入对应的事件列表中;
[0027](2)开始对事件列表进行遍历:将事件列表中的事件进行两两组队,构成事件对,直至遍历完所有语料。
[0028]进一步地,所述步骤六中事件融合具体包括:首先,构建侯选事件对,并对结构化的事件元素进行规范化处理,然后进行事件综合相似度计算。
[0029]进一步地,所述构建侯选事件对具体如下:
[0030](1)将事件抽取任务抽取的事件放入事件列表s={E1,E2,

,E
n
}中,其中,n为抽取的事件总数;
[0031](2)开始对事件列表s进行遍历,判断事件E
i
与事件E
j
是否是同一类型,其中i≠j;若是同一类型事件,则将事件E
i
与事件E
j
组成事件对
[0032]<E
i
,E
j
,0>,直至遍历完所有的事件;
[0033](3)对于事件对<E
i
,E
j
,lable>,lable∈{0,

1,

2};lable=

2表示事件E
i
和事件E
j
是同一事件,需要进行事件融合;lable=

1表示事件E
i
和事件E
j
是相似事件,不需要进行事件融合;lable=0表示事件E
i
和事件E
j
没有关系。
[0034]进一步地,所述事件综合相似度计算具体包括事件描述句相似度计算、事件元素相似度计算、事件描述句实体共现计算;
[0035]事件描述句相似度计算公式为:
[0036]sim
sen
(s1,s2)=0.4
×
sim
syntax
(s1,s2)+0.6
×
sim
semantic
(s1,s2);
[0037]事件元素相似度计算公式为:
[0038]Sim
ele
(e1,e2)=0.5
×
Sim(Set
e1
,Set
e2
)+0.5
×
Sim
com
(e1,e2);
[0039]事件描述句实体共现计算公式为:
[0040][0041]本专利技术的有益效果是:
[0042]本专利技术能够快速收集突发事件的相关信息,描绘事件的演化过程,辅助专家学者进行事件发生前的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种应急事件事理图谱构建方法,其特征在于:包括以下步骤:步骤一:预先进行事件类型分类,并预设种子触发词;步骤二:基于符号空间和向量空间进行事件表示;步骤三:识别包含突发事件触发词的文本句,并判断事件触发词所对应的预定义事件类型;步骤四:基于已获得的突发事件触发词及事件类型得到事件表示框架,基于事件表示框架抽取事件中的元素;步骤五:对事件的因果关系进行抽取;步骤六:进行事件融合,输出图谱数据。2.根据权利要求1所述的一种应急事件事理图谱构建方法,其特征在于:所述步骤二包括事件组成要素表示法和事件核心词汇表示法;事件组成要素表示法用于事件发生类的事件,具体包括:将事件表示为由事件的类型、事件发生的时间、发生的地点、参与的对象、相关动作和事件提及句共同组成的复合知识单元;并将事件表示符号化为六元组的形式E={C,T,V,O,A,M};事件核心词汇表示法用于事件影响类和应急决策类的事件,具体包括:结合依存句法关系和词性,通过核心关键词来表示事件,保证减少事件中的冗余信息的同时,不会过多的丢失事件中的关键性信息。3.根据权利要求1所述的一种应急事件事理图谱构建方法,其特征在于:所述步骤三具体采用序列标注模型对文本句进行实体和事件触发词的联合识别,利用BERT

BiLSTM

CRF模型对实体和突发事件触发词进行联合标注:利用BERT模型进行文本特征提取,然后将特征向量输入BiLSTM

CRF模型中进行实体和触发词的标注,并判断他们的类别。4.根据权利要求3所述的一种应急事件事理图谱构建方法,其特征在于:所述BERT

BiLSTM

CRF模型依次包括词嵌入层、双向LSTM层和CRF层;词嵌入层用于将输入序列的文本信息转为向量的形式,通过BERT预训练模型将文本句中的词语转化为低维稠密的向量序列的形式,输出到双向长短时记忆网络层中;双向LSTM层用于将每个时间序列的前向LSTM捕获上文特征信息和后向LSTM捕获的下文特征信息进行拼接,通过线性全连接层将输出映射为一个维度等于输出标签数的向量,并使用Softmax函数得到每个单词对应每个标签的概率;CRF层用于将双向LSTM层的输出概率作为状态特征向量,对序列进行字符化序列标注。5.根据权利要求1所述的一种应急事件事理图谱构建方法,其特征在于:所述步骤四具体包括依存句法分析、融合实体和触发词信息的事件元素抽取方法;依存句法分析用于事件影响类和应急决策类的事件元素抽取任务,使用LTP工具抽取出包含此类事件触发词的核心词汇;融合实体和触发词信息的事件元素抽取方法用于事件发生类的事件元素抽取任务。6.根据权利要求1所述的一种应急事件事理图谱构建方法,其特征在于:所述步骤五采用模式匹配与神经网络相结合的方法:首先,将突发事件识别和元素抽取任务得到的结构化的事件,两两组队构成事件对的形式,然后判断两个事件是否来自同一个事件描述句,若两个事件来自同一事件描述句且存在因果连接词,说明该事件描述句中存在显示因果关系,...

【专利技术属性】
技术研发人员:杨钰雯
申请(专利权)人:北京清博智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1