【技术实现步骤摘要】
一种面向异常事件的关系抽取方法
本专利技术涉及自然语言处理技术关系抽取领域,特指一种面向异常事件的关系抽取方法。
技术介绍
随着全球经济的不断发展以及世界人口的不断增涨,景区的游客数量不断增加,因此景区也成为人口高度密集的场合,使得其容易出现各式的异常事件影响景区秩序甚至造成严重的公共财产损失。目前景区异常事件的研究主要运用监控手段进行预防,但各类异常事件具有复杂性和多变性,实时监控只能在事件发生后进行相应准备,无法从根源上进行预防,检测系统也无法在事件后续的处理过程中为异常事件进行决策上的帮助。实体关系抽取是信息抽取的核心任务之一,具体是指从给定的领域文本中自动识别出实体所在位置范围和类别,并对不同实体之间的语义关系进行判别。信息抽取是从自然语言文本中抽取实体、属性、关系及事件等事实类信息的文本处理技术,是信息检索、智能问答、智能对话等人工智能应用的重要基础,一直受到业界的广泛关注。随着知识谱图应用的发展,信息抽取作为构建领域知识图谱的重要一环,成为了新的研究热点。如何解决语义的复杂性对信息抽取的影响是目前面临的主要问题之一。目前主流的信息抽取模型,都无法很好的覆盖信息抽取的重要特点。如果有两个以上的实体同时出现的情况,单纯基于实体识别的系统模型在面对一对多的样本时有召回率低采样率差的问题;对文本整体进行序列标注的方法在面对多对多的样本时无法解决实体重叠的影响,抽取效率也大大降低。
技术实现思路
本专利技术的目的在于克服现有技术的不足,而提供一种面向异常事件的关系抽取方法,以提高 ...
【技术保护点】
1.一种面向异常事件的关系抽取方法,其特征在于:包括如下步骤:/nS1:获取带有标注的异常事件文本实体关系数据集,按照三元组方式进行整理;/nS2:采用序列化文本嵌入方法将异常事件文本语句转为向量化表示;/nS3:利用双向长短期记忆网络结合自注意力机制,从领域文本语句向量中学习文本序列的潜在语义信息,构建共享编码层;/nS4:使用softmax函数对主实体标注进行预测,得到基于输入语句预测的主实体集合;/nS5:使用卷积神经网络对关系-客实体进行共享编码,并结合主实体的预测结果,得到关系-客实体的标注预测;/nS6:使用自注意力机制对训练参数进行优化。/n
【技术特征摘要】
1.一种面向异常事件的关系抽取方法,其特征在于:包括如下步骤:
S1:获取带有标注的异常事件文本实体关系数据集,按照三元组方式进行整理;
S2:采用序列化文本嵌入方法将异常事件文本语句转为向量化表示;
S3:利用双向长短期记忆网络结合自注意力机制,从领域文本语句向量中学习文本序列的潜在语义信息,构建共享编码层;
S4:使用softmax函数对主实体标注进行预测,得到基于输入语句预测的主实体集合;
S5:使用卷积神经网络对关系-客实体进行共享编码,并结合主实体的预测结果,得到关系-客实体的标注预测;
S6:使用自注意力机制对训练参数进行优化。
2.根据权利要求1所述的一种面向异常事件的关系抽取方法,其特征在于:步骤S1中所述对异常事件文本实体关系数据集按照三元组方式进行整理的方法如下:
设定实体1为e1,开始位置为heade1,结束位置为taile1,实体类别为k1,相应的实体2为e2,heade2,taile2,k2,关系为r,n为实体总个数,重新整理与实体1有相同主实体的三元组,重构形式表示为:
{(heade1,taile1,k1):[(heade1,taile1,r),(heade2,taile2,r),...(headen,tailen,r)]}。
3.根据权利要求1所述的一种面向异常事件的关系抽取方法,其特征在于:步骤S2中所述采用序列化文本嵌入方法将异常事件文本语句向量化表示方法如下:
将异常事件文本语句中的每个词映射为低维向量,将向量进行拼接构成完整句子,表示为:
X=(x1,x2,x3,...xn)
其中X为异常事件文本语句的向量化表示,xi为词wi的向量表示,其中wi为词向量,k1为基于字符的向量表示。
4.根据权利要求1所述的一种面向异常事件的关系抽取方法,其特征在于:步骤S3中所述利用双向长短期记忆网络结合自注意力机制,从领域文本语句向量中学习文本序列的潜在语义信息的方法如下:
S4-1:使用前向LSTM从左至右在句子中每个单...
【专利技术属性】
技术研发人员:钟艳如,贺昭荣,赵蕾先,汪先登,李芳,罗笑南,
申请(专利权)人:桂林电子科技大学,
类型:发明
国别省市:广西;45
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。