一种预警数据危险性计算方法、装置和计算机设备制造方法及图纸

技术编号:38377192 阅读:10 留言:0更新日期:2023-08-05 17:37
本发明专利技术涉及计算机技术领域,具体涉及一种预警数据危险性计算方法、装置和计算机设备。本发明专利技术的技术方案,通过BERT预训练模型,构建了事件Schema模型将预警数据结构化,并用指针网络进行事件论元角色的提取和打分,根据打分确定预警数据的危险程度,实现了对预警数据结构化管理,同时能够实现事件论元角色的提取和研判,用户体验度好,满意度高。满意度高。满意度高。

【技术实现步骤摘要】
一种预警数据危险性计算方法、装置和计算机设备


[0001]本专利技术涉及计算机
,具体涉及一种预警数据危险性计算方法、装置和计算机设备。

技术介绍

[0002]针对现有舆情,自动预警数据平台会针对负面数据进行预警,对于负面数据中情节较为严重的重大负面事件,客户需要第一时间知晓,并重点关注;对于负面数据中情节不太重要的负面事件,客户只需要了解,并不会重点关注。
[0003]但是,不太重要的负面事件往往在舆情中占比较大,因此如何在众多的负面事件中精准地识别出客户需要重点关注的、情节较为严重的重大负面事件,是亟待解决的问题。
[0004]在一些现有技术中,通过文本分类的方式来识别情节较为严重的重大负面事件,包括:单标签、多标签的方案,这种方式是通过上下文的语义特征来计算事件的标签,并通过标签来区分负面事件的严重程度,这种方法能够实现语义消歧,识别出事件标签;但是这种方法只能计算事件标签,无法结构化事件要点,并且无法准确的做出时间、地点、事件主体等要点的研判。

技术实现思路

[0005]有鉴于此,本专利技术的目的在于提供一种预警数据危险性计算方法、装置和计算机设备,以解决现有技术中通过文本分类的方式对负面事件进行严重程度判断时,无法结构化事件知识点,并且无法对时间、地点、事件主体等要点进行研判的问题。
[0006]根据本专利技术实施例的第一方面,提供一种预警数据危险性计算方法,包括:将预警数据输入至BERT预训练模型中进行词向量转换,得到词向量矩阵;其中,所述词向量矩阵中包括所有预警数据对应的连续子串;
[0007]根据所述词向量矩阵,构建事件Schema模型,且所述事件Schema模型至少包括:预警数据类型和事件的论元角色;
[0008]通过指针网络将预警数据切换成连续的子序列,并提取所述子序列中的事件的论元角色;
[0009]根据所述事件的论元角色对向量序列进行打分,得到预警数据的危险程度。
[0010]优选地,还包括:构建多层并列的指针网络,实现在一个预警数据中抽取多个事件。
[0011]优选地,还包括:对BERT预训练模型融合噪音处理,具体为:
[0012][0013]其中,表示加入噪音之后的BERT预训练模型参数;w
i
表示BERT预训练模型参数;u(a,b)表示从a到b的均匀分布噪音,且u(a,b)是与w
i
形状相同的矩阵;λ表示控制相对噪音强度的参数,一般取[0.5,1];std代表标准差。
[0014]优选地,所述根据所述事件的论元角色对向量序列进行打分,具体为:
[0015]设输入的预警数据长度为n,经过BERT预训练模型融合噪音处理,得到token向量序列[h1,h2,h3...hn];
[0016]通过全连接层对所述token向量序列进行矩阵变换,得到两个形状相同的矩阵q,k,具体为:
[0017]q
i,s
=w
q,s
h
i
+b
q,s
[0018]k
i,s
=w
k,s
h
i
+b
k,s
[0019]其中,q
1,s
、w
q,s
、k
i,s
和w
k,s
表示需要学习的参数矩阵;h表示token的向量序列;b
q,s
和b
k,s
表示偏置;
[0020]矩阵变换后,得到q,k向量序列:
[0021][q
1,s
,q
2,s
,...,q
n,s
],[k
1,s
,k
2,s
,...,k
n,s
];
[0022]q,k向量序列为识别第s类事件,具体识别公式为:
[0023][0024]其中,score
s
(i,j)表示从i到j的连续子序列span作为预警数据类型s的事件的论元打分,即用q
i,s
与k
j,s
矩阵的内积作为连续子序列span[i:j]对事件的论元打分;
[0025]其中,q,k向量计算方法为:
[0026]标记出论元的起始和终止位置,得到论元的span;
[0027]根据所述span和qk矩阵对论元进行打分计算。
[0028]优选地,所述打分值越高,表明预警数据危险程度越大。
[0029]优选地,所述预警数据类型至少包括:爆炸、火灾、车祸、生产事故、违法事故、举报和贪污;所述事件的论元角色至少包括:时间、地点、触发词、主体、伤亡情况和官方介入。
[0030]根据本专利技术实施例的第二方面,提供一种预警数据危险性计算装置,包括:
[0031]转换模块,用于将预警数据输入至BERT预训练模型中进行词向量转换,得到词向量矩阵;其中,所述词向量矩阵中包括所有预警数据对应的连续子串;
[0032]第一构建模块,用于根据所述词向量矩阵,构建事件Schema模型,且所述事件Schema模型至少包括:预警数据类型和事件的论元角色;
[0033]提取模块,用于通过指针网络将预警数据切换成连续的子序列,并提取所述子序列中的事件的论元角色;
[0034]打分模块,用于根据所述事件的论元角色对向量序列进行打分,得到预警数据的危险程度。
[0035]优选地,还包括:
[0036]第二构建模块,用于构建多层并列的指针网络,实现在一个预警数据中抽取多个事件。
[0037]优选地,还包括:
[0038]融合模块,用于对BERT预训练模型融合噪音处理,具体为:
[0039][0040]其中,表示加入噪音之后的BERT预训练模型参数;w
i
表示BERT预训练模型参数;
u(a,b)表示从a到b的均匀分布噪音,且u(a,b)是与w
i
形状相同的矩阵;λ表示控制相对噪音强度的参数,一般取[0.5,1];std代表标准差。
[0041]根据本专利技术实施例的第三方面,提供一种计算机设备,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器用于执行所述计算机程序时,实现上述方法的步骤。
[0042]本专利技术的实施例提供的技术方案可以包括以下有益效果:
[0043]本专利技术将预警数据输入至BERT预训练模型中进行词向量转换,得到词向量矩阵,根据所述词向量矩阵,构建事件Schema模型,且所述事件Schema模型至少包括:预警数据类型和事件的论元角色,其中,所述预警数据类型至少包括:爆炸、火灾、车祸、生产事故、违法事故、举报和贪污,所述事件的论元角色至少包括:时间、地点、触发词、主体、伤亡情况和官方介入,通过指针网络将预警数据切换成连续的子序列,并提取所述子序列中的事件的论元角色,根据所述事件的论本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种预警数据危险性计算方法,其特征在于,包括:将预警数据输入至BERT预训练模型中进行词向量转换,得到词向量矩阵;其中,所述词向量矩阵中包括所有预警数据对应的连续子串;根据所述词向量矩阵,构建事件Schema模型,且所述事件Schema模型至少包括:预警数据类型和事件的论元角色;通过指针网络将预警数据切换成连续的子序列,并提取所述子序列中的事件的论元角色;根据所述事件的论元角色对向量序列进行打分,得到预警数据的危险程度。2.根据权利要求1所述的方法,其特征在于,还包括:构建多层并列的指针网络,实现在一个预警数据中抽取多个事件。3.根据权利要求2所述的方法,其特征在于,还包括:对BERT预训练模型融合噪音处理,具体为:其中,表示加入噪音之后的BERT预训练模型参数;w
i
表示BERT预训练模型参数;u(a,b)表示从a到b的均匀分布噪音,且u(a,b)是与w
i
形状相同的矩阵;λ表示控制相对噪音强度的参数,一般取[0.5,1];std代表标准差。4.根据权利要求1所述的方法,其特征在于,所述根据所述事件的论元角色对向量序列进行打分,具体为:设输入的预警数据长度为n,经过BERT预训练模型融合噪音处理,得到token向量序列[h1,h2,h3...hn];通过全连接层对所述token向量序列进行矩阵变换,得到两个形状相同的矩阵q,k,具体为:q
i,s
=w
q,s
h
i
+b
q,s
k
i,s
=w
k,s
h
i
+b
k,s
其中,q
1,s
、w
q,s
、k
i,s
和w
k,s
表示需要学习的参数矩阵;h表示token的向量序列;b
q,s
和b
k,s
表示偏置;矩阵变换后,得到q,k向量序列:[q
1,s
,q
2,s
,...,q
n,s
],[k
1,s
,k

【专利技术属性】
技术研发人员:韩勇李青龙骆飞赵冲
申请(专利权)人:北京智慧星光信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1