一种面向异常事件的关系抽取方法技术

技术编号:26377664 阅读:36 留言:0更新日期:2020-11-19 23:46
本发明专利技术公开了一种面向异常事件的关系抽取方法,该方法是先对突发事件相关的实体关系数据集按照结构化三元组形式进行整理,并将相关领域语句转为向量化表示;然后使用双向长短期记忆网络结合自注意力机制构建共享编码层;使用softmax函数对主实体的标注进行预测,使用卷积神经网络对关系‑客实体进行共享编码,并通过主实体的预测结果增强编码表示;再次使用自注意力机制对训练参数进行优化。本发明专利技术可很好的处理突发事件文本中多对实体和关系类别的冲突问题,能提高该领域内文本实体关系的抽取质量。

【技术实现步骤摘要】
一种面向异常事件的关系抽取方法
本专利技术涉及自然语言处理技术关系抽取领域,特指一种面向异常事件的关系抽取方法。
技术介绍
随着全球经济的不断发展以及世界人口的不断增涨,景区的游客数量不断增加,因此景区也成为人口高度密集的场合,使得其容易出现各式的异常事件影响景区秩序甚至造成严重的公共财产损失。目前景区异常事件的研究主要运用监控手段进行预防,但各类异常事件具有复杂性和多变性,实时监控只能在事件发生后进行相应准备,无法从根源上进行预防,检测系统也无法在事件后续的处理过程中为异常事件进行决策上的帮助。实体关系抽取是信息抽取的核心任务之一,具体是指从给定的领域文本中自动识别出实体所在位置范围和类别,并对不同实体之间的语义关系进行判别。信息抽取是从自然语言文本中抽取实体、属性、关系及事件等事实类信息的文本处理技术,是信息检索、智能问答、智能对话等人工智能应用的重要基础,一直受到业界的广泛关注。随着知识谱图应用的发展,信息抽取作为构建领域知识图谱的重要一环,成为了新的研究热点。如何解决语义的复杂性对信息抽取的影响是目前面临的主要问题之一。目前主流的信息抽取模型,都无法很好的覆盖信息抽取的重要特点。如果有两个以上的实体同时出现的情况,单纯基于实体识别的系统模型在面对一对多的样本时有召回率低采样率差的问题;对文本整体进行序列标注的方法在面对多对多的样本时无法解决实体重叠的影响,抽取效率也大大降低。
技术实现思路
本专利技术的目的在于克服现有技术的不足,而提供一种面向异常事件的关系抽取方法,以提高异常事件文本关系抽取的质量和效率。实现本专利技术目的的技术方案是:一种面向异常事件的关系抽取方法,包括如下步骤:S1:获取带有标注的异常事件文本实体关系数据集,按照三元组方式进行整理;S2:采用序列化文本嵌入方法将异常事件文本语句转为向量化表示;S3:利用双向长短期记忆网络结合自注意力机制,从领域文本语句向量中学习文本序列的潜在语义信息,构建共享编码层;S4:使用softmax函数对主实体标注进行预测,得到基于输入语句预测的主实体集合;S5:使用卷积神经网络对关系-客实体进行共享编码,并结合主实体的预测结果,得到关系-客实体的标注预测;S6:使用自注意力机制对训练参数进行优化。进一步的,步骤S1中所述对异常事件文本实体关系数据集按照三元组方式进行整理的方法如下:设定实体1为e1,开始位置为heade1,结束位置为taile1,实体类别为k1,相应的实体2为e2,heade2,taile2,k2,关系为r,n为实体总个数,重新整理与实体1有相同主实体的三元组,重构形式表示为:{(heade1,taile1,k1):[(heade1,taile1,r),(heade2,taile2,r),...(headen,tailen,r)]}。进一步的,步骤S2中所述采用序列化文本嵌入方法将异常事件文本语句向量化表示方法如下:将异常事件文本语句中的每个词映射为低维向量,将向量进行拼接构成完整句子,表示为:X=(x1,x2,x3,...xn)其中X为异常事件文本语句的向量化表示,xi为词wi的向量表示,其中wi为词向量,k1为基于字符的向量表示。进一步的,步骤S3中所述利用双向长短期记忆网络结合自注意力机制,从领域文本语句向量中学习文本序列的潜在语义信息的方法如下:使用前向LSTM从左至右在句子中每个单词收集从开始至当前位置i的信息,并使用后向LSTM从右至左在句子中每个单词收集从结束至当前位置i的信息,表示为:其中和表示前向LSTM的参数权重和后向LSTM的参数权重;使用注意力机制获取不同单词在文本中所占权重的向量,表示为:其中softmax表示归一化指数函数,W表示待学习的权重矩阵,而ht则表示为ht=(h1,h2,h3,...hn)。进一步的,步骤S3中所述构建共享编码层的方法如下:将双向长短时记忆网络每一时刻的隐藏层向量与注意力向量拼接,构建两个模块参数的共享编码层,表示为:其中表示隐藏层向量与注意力向量拼接后的向量。进一步的,步骤S4中所述使用softmax函数预测主实体标注,得到其后验概率的分布情况,表示为:其中e′i表示主实体标注,X为输入文本向量序列,表示共享编码层的权重参数集合,We为词向量嵌入矩阵。进一步的,步骤S5中所述使用卷积神经网络对关系-客实体进行共享编码,并结合主实体的预测结果,得到关系-客实体的标注预测,得到其后验概率分布情况,表示为:P(li|X;θrp;We)=softmax(RELU(WCNN·σi))其中li表示预测标注,θrp表示关系-客实体的参数权重,σi表示启发特征向量。进一步的,步骤S6中所述使用自注意力机制对训练参数进行优化,其方法如下:将主实体-关系-客实体进行联合编码,表示为:其中Z为归一化因子,r、e为主实体对应的关系和客实体的集合,m为对应实体的总数。本专利技术具有以下有益效果:(1)本专利技术使用主实体-关系-客实体组成联合抽取框架,解决了同一语句中多对实体关系三元组带来的信息混淆问题;(2)本专利技术使用共享编码的方式,能有效提高联合抽取模块之间的交互性,增加信息的利用率;(3)本专利技术不依赖过多的人工标注特征,提高了专利技术的泛用性,有效提升了领域文本的联合抽取效率。附图说明图1是本专利技术方法的流程图;图2是本专利技术的异常事件文本实体关系抽取的网络结构图。具体实施方式下面结合附图和具体实施对本专利技术进行详细说明。本实施用例以本专利技术技术方案为前提进行实施,给出了详细的实施方式和具体的操作过程,但本专利技术的保护范围不限于下述的实施用例。实施例:本实施例提供一种面向异常事件的关系抽取方法,如图1方法流程图所示,以火灾事件为例,该方法包括如下步骤:S1:获取带有标注的异常事件文本实体关系数据集,按照三元组方式进行整理;在本实施例中,本专利技术对异常事件文本实体关系数据集按照三元组方式进行整理的具体方式为:设定实体1为e1,开始位置为heade1,结束位置为taile1,实体类别为k1,相应的实体2为e2,heade2,taile2,k2,关系为r,n为实体总个数,重新整理与实体1有相同主实体的三元组,重构形式表示为:{(heade1,taile1,k1):[(heade1,taile1,r),(heade2,taile2,r),...(headen,tailen,r)]}以异常事件文本“火灾是指在时间或空间上失去控制的燃烧所造成的灾害。”为例,重构形式为(0,1,自然灾害):[(11,18,异常事件表现),(23,24,异常事件表现)];S2:采用序列化文本嵌入方法将异常事件本文档来自技高网...

【技术保护点】
1.一种面向异常事件的关系抽取方法,其特征在于:包括如下步骤:/nS1:获取带有标注的异常事件文本实体关系数据集,按照三元组方式进行整理;/nS2:采用序列化文本嵌入方法将异常事件文本语句转为向量化表示;/nS3:利用双向长短期记忆网络结合自注意力机制,从领域文本语句向量中学习文本序列的潜在语义信息,构建共享编码层;/nS4:使用softmax函数对主实体标注进行预测,得到基于输入语句预测的主实体集合;/nS5:使用卷积神经网络对关系-客实体进行共享编码,并结合主实体的预测结果,得到关系-客实体的标注预测;/nS6:使用自注意力机制对训练参数进行优化。/n

【技术特征摘要】
1.一种面向异常事件的关系抽取方法,其特征在于:包括如下步骤:
S1:获取带有标注的异常事件文本实体关系数据集,按照三元组方式进行整理;
S2:采用序列化文本嵌入方法将异常事件文本语句转为向量化表示;
S3:利用双向长短期记忆网络结合自注意力机制,从领域文本语句向量中学习文本序列的潜在语义信息,构建共享编码层;
S4:使用softmax函数对主实体标注进行预测,得到基于输入语句预测的主实体集合;
S5:使用卷积神经网络对关系-客实体进行共享编码,并结合主实体的预测结果,得到关系-客实体的标注预测;
S6:使用自注意力机制对训练参数进行优化。


2.根据权利要求1所述的一种面向异常事件的关系抽取方法,其特征在于:步骤S1中所述对异常事件文本实体关系数据集按照三元组方式进行整理的方法如下:
设定实体1为e1,开始位置为heade1,结束位置为taile1,实体类别为k1,相应的实体2为e2,heade2,taile2,k2,关系为r,n为实体总个数,重新整理与实体1有相同主实体的三元组,重构形式表示为:
{(heade1,taile1,k1):[(heade1,taile1,r),(heade2,taile2,r),...(headen,tailen,r)]}。


3.根据权利要求1所述的一种面向异常事件的关系抽取方法,其特征在于:步骤S2中所述采用序列化文本嵌入方法将异常事件文本语句向量化表示方法如下:
将异常事件文本语句中的每个词映射为低维向量,将向量进行拼接构成完整句子,表示为:
X=(x1,x2,x3,...xn)
其中X为异常事件文本语句的向量化表示,xi为词wi的向量表示,其中wi为词向量,k1为基于字符的向量表示。


4.根据权利要求1所述的一种面向异常事件的关系抽取方法,其特征在于:步骤S3中所述利用双向长短期记忆网络结合自注意力机制,从领域文本语句向量中学习文本序列的潜在语义信息的方法如下:
S4-1:使用前向LSTM从左至右在句子中每个单...

【专利技术属性】
技术研发人员:钟艳如贺昭荣赵蕾先汪先登李芳罗笑南
申请(专利权)人:桂林电子科技大学
类型:发明
国别省市:广西;45

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1