基于增量和分层结构熵最小化的无监督社会事件检测方法技术

技术编号:38728674 阅读:14 留言:0更新日期:2023-09-08 23:19
本发明专利技术公开基于增量和分层结构熵最小化的无监督社会事件检测方法,包括:将社会信息语料输入优化BERT语义相似度模型,获得语句嵌入;基于所获得的语句嵌入,利用增量一维结构熵最小化算法,建立具有增量一维结构熵最小化的消息图;基于消息图,利用分层二维结构熵最小化算法,获取基于分层二维结构熵最小化的社会事件检测;输出多个消息图分区,每个分区对应一个社会事件。本发明专利技术将以图结构熵为切入点对传统图神经网络方法做出改良,从信息论的角度去解决社会事件检测问题;基于结构熵的最小化理论和最小化优化算法,提出的社会事件检测方法,保留了图神经网络方法的优点,提高性能,适用于大规模社交网络和消息图上的社会事件检测。检测。检测。

【技术实现步骤摘要】
基于增量和分层结构熵最小化的无监督社会事件检测方法


[0001]本专利技术属于数据处理
,特别是涉及基于增量和分层结构熵最小化的无监督社会事件检测方法。

技术介绍

[0002]随着互联网技术的发展,当今社会拥有多种媒介用于传播社会信息,而从社会信息中发现社会事件,尤其是政治事件、自然灾害、国际会议甚至战争等热点社会事件尤为重要,它能够帮助我们理解当今世界趋势变化。相较文本挖掘等工作,社会事件检测具有更大的难度。社会事件检测需要大量的、真实的社会信息中进行高效的聚类,进而提取出相互关联的簇,由于社会信息具有很强的流动性,社会事件往往不是孤立的,而是包含了多元关系的、更加错综复杂的关系网络,在高容量、复杂且有噪声动态社交媒体的探索上面临着诸多挑战,例如对文本、时间戳、各类用户和社交网络结构等。图结构十分适合对这种关系网络进行建模,实现各种社会事件的嵌入并描述其关系。而社会事件检测的任务也就同时转化为图处理任务。
[0003]图神经网络利用神经网络来学习图结构数据,进一步提取、发掘图结构的特征,进而完成聚类、分类、预测等任务。对于社会事件检测而言,各种社会消息被构建和划分为消息图,然后利用图神经网络对消息图做进一步的分割、聚类,将聚类结果视为一个社会事件,最终提取出多个社会事件。然而,这种方法只是连接了共享完全相同属性的消息,语义相近但没有相同属性的消息之间没有建立有效连接。此外,这种方法对标签的依赖度也较高,因为需要对神经网络进行预训练,并预先确定用于预测的事件总数。
[0004]近年来,舆情事件的多发让越来越多的人和团体机构意识到了社会舆情相关工作的重要性。如今,网络环境复杂多变,这无疑进一步增大了舆情分析工作的难度,而社会事件检测则是舆情挖掘、假新闻检测等舆情分析工作的基础。学术界在这一领域提出了许多方法,其中,基于图神经网络的方法在处理复杂社会结构信息等方面受到了广泛的认可。然而,基于图神经网络的方法仍然存在不少缺陷急需改进。

技术实现思路

[0005]为了解决上述问题,本专利技术提出了基于增量和分层结构熵最小化的无监督社会事件检测方法,将以图结构熵为切入点对传统图神经网络方法做出进一步的改良,从信息论的角度去解决社会事件检测问题;基于结构熵的最小化理论和最小化优化算法,提出的社会事件检测方法,保留了图神经网络方法的优点,在性能上有进一步的提高,适用于大规模社交网络和消息图上的社会事件检测。
[0006]为达到上述目的,本专利技术采用的技术方案是:基于增量和分层结构熵最小化的无监督社会事件检测方法,包括步骤:
[0007]S10,将社会信息语料输入优化BERT语义相似度模型,获得语句嵌入;
[0008]S20,基于所获得的语句嵌入,利用增量一维结构熵最小化算法,建立具有增量一
维结构熵最小化的消息图;
[0009]S30,基于消息图,利用分层二维结构熵最小化算法,获取基于分层二维结构熵最小化的社会事件检测;
[0010]S40,输出多个消息图分区,每个分区对应一个社会事件。
[0011]进一步的是,所述优化BERT语义相似度模型,采用两个BERT模型作为子网络,两个BERT模型参数共享;
[0012]输入A和B两个不同的语句嵌入时,它们先分别进入两个BERT网络输出得到句子表征向量x和y,其中池化策略采用均值池化,即对局部接受域中的所有值求均值;
[0013]计算向量x和y间距|x

y|后,在利用分类器对进行分类,确定两个句子之间的相似度。
[0014]进一步的是,建立具有增量一维结构熵最小化的消息图,包括步骤:
[0015]S21,捕获语句嵌入中每个社会消息m
i
的用户、命名实体和标签,将它们并入集合A
i

[0016]S22,如果两个社会消息m
i
、m
j
共享相同的属性,在m
i
、m
j
对应的节点之间添加一条连边,加入属性相似边集E
a
,用这种方式初步构建消息图的边;
[0017]S23,使用增量一维结构熵最小化的方法来确定Es,得到边集Es后与边集Ea求并集得到边集E,获得最终的消息图。
[0018]进一步的是,对于增量一维结构熵最小化的方法,从Es为空集开始,并将边集增量插入消息图G中;第k个集称为k

NN边集,包含每个节点与其第k个最近邻居之间的边;
[0019]当k=1时,图G在编码树T上的一维结构熵为:
[0020][0021]并且得到更新后的一维结构熵为:
[0022][0023]其中,|V|表示点集包含节点数量,即社会消息m的总数;di表示G中节点i的原始度,初始di是用i链接到其第一个最近邻居计算得到的,vol(λ)和vol'(λ)表示插入k

NN边集之前和之后G的体积;dj表示G中节点j的原始度;d
j
'表示j的更新度,伴随着j与其插入到G中的第k个最近邻居之间的边;a
k
是度受k

NN边集的插入影响的节点集;
[0024]使用这种初始化和更新的方法,每次选择适当的k值,遵循增量一维结构熵最小化算法,将用于补充边集合E
a
的边集合Es完全确定下来。
[0025]进一步的是,使用这种初始化和更新的方法,每次选择适当的k值,遵循增量一维结构熵最小化算法,将用于补充边集合E
a
的边集合Es完全确定下来,增量一维结构熵最小化算法确定Es的包括步骤:
[0026]S231,算法输入:消息图节点集合V,算法输出:边集合Es;
[0027]S232,Es赋初始值空集,对V中每个消息m
i
利用语义相似度模型进行语句嵌入得到每个消息m
i
的句向量及其涉及到的标签最终将得到所有节点所具有的标签集合
[0028]S233,对V中每个消息m
i
遍历其邻居节点m
j
(j=1,2...,|V|且j≠i),根据m
j
与m
i

似度由高到低排序,相似度利用m
j
、m
i
对应的标签余弦值判定,若则认为与相似度更高,m
j
‑1这一节点排序更靠前;
[0029]S234,排序完成后得到邻居节点集合选取其中相似度最高的节点m
j
,加入集合E;
[0030]S235,计算图结构熵H
(1)
(G)加入集合SEs;
[0031]S236,令k=2,当k<|V|时循环执行:将邻居节点集合的第k个元素加入集合E,然后计算H
(1)
'(G)作为新的结构熵,加入集合SEs,然后令k+1,完成一轮循环;如果(k

1)是一个稳定点本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于增量和分层结构熵最小化的无监督社会事件检测方法,其特征在于,包括步骤:S10,将社会信息语料输入优化BERT语义相似度模型,获得语句嵌入;S20,基于所获得的语句嵌入,利用增量一维结构熵最小化算法,建立具有增量一维结构熵最小化的消息图;S30,基于消息图,利用分层二维结构熵最小化算法,获取基于分层二维结构熵最小化的社会事件检测;S40,输出多个消息图分区,每个分区对应一个社会事件。2.根据权利要求1所述的基于增量和分层结构熵最小化的无监督社会事件检测方法,其特征在于,所述优化BERT语义相似度模型,采用两个BERT模型作为子网络,两个BERT模型参数共享;输入A和B两个不同的语句嵌入时,它们先分别进入两个BERT网络输出得到句子表征向量x和y,其中池化策略采用均值池化,即对局部接受域中的所有值求均值;计算向量x和y间距|x

y|后,在利用分类器对进行分类,确定两个句子之间的相似度。3.根据权利要求1所述的基于增量和分层结构熵最小化的无监督社会事件检测方法,其特征在于,建立具有增量一维结构熵最小化的消息图,包括步骤:S21,捕获语句嵌入中每个社会消息m
i
的用户、命名实体和标签,将它们并入集合A
i
;S22,如果两个社会消息m
i
、m
j
共享相同的属性,在m
i
、m
j
对应的节点之间添加一条连边,加入属性相似边集E
a
,用这种方式初步构建消息图的边;S23,使用增量一维结构熵最小化的方法来确定Es,得到边集Es后与边集Ea求并集得到边集E,获得最终的消息图。4.根据权利要求3所述的基于增量和分层结构熵最小化的无监督社会事件检测方法,其特征在于,对于增量一维结构熵最小化的方法,从Es为空集开始,并将边集增量插入消息图G中;第k个集称为k

NN边集,包含每个节点与其第k个最近邻居之间的边;当k=1时,图G在编码树T上的一维结构熵为:并且得到更新后的一维结构熵为:其中,|V|表示点集包含节点数量,即社会消息m的总数;di表示G中节点i的原始度,初始di是用i链接到其第一个最近邻居计算得到的,vol(λ)和vol'(λ)表示插入k

NN边集之前和之后G的体积;dj表示G中节点j的原始度;d
j
'表示j的更新度,伴随着j与其插入到G中的第k个最近邻居之间的边;a
k
是度受k

NN边集的插入影响的节点集;使用这种初始化和更新的方法,每次选择适当的k值,遵循增量一维结构熵最小化算法,将用于补充边集合E
a
的边集合Es完全确定下来。5.根据权利要求4所述的基于增量和分层结构熵最小化的无监督社会事件检测方法,其特征在于,使用这种初始化和更新的方法,每次选择适当的k值,遵循增量一维结构熵最小化算法,将用于补充边集合E
a
的边集合Es完全确定下来,增量一维结构熵最小化算法确定Es的包括步骤:
S231,算法输入:消息图节点集合V,算法输出:边集合Es;S232,Es赋初始值空集,对V中每个消息m
i
利用语义相似度模型进行语句嵌入得到每个消息m
i
的句向量及其涉及到的标签最终将得到所有节点所具有的标签集合S233,对V中每个消息m
i
遍历其邻居节点m
j
(j=1,2...,|V|且j≠i),根据m
j
与m
i
相似度由高到低排序,相似度利用m
j
、m
i
对应的标签余弦值判定,若则认为与相似度更高,m
j
‑1这一节点排序更靠前;S234,排序完成后得到邻居节点集合选取其中相似度最高的节点m
j
,加入集合E;S235,计算图结构熵H
(1)
(G)加入集合SEs;S236,令k=2,当k<|V|时循环执行:将邻居节点集合的第k个元素加入集合E,然后计算H
(1)
'(G)作为新的结构熵,加入集合SEs,然后令k+1,完成一轮循环;如果(k

1)是一个稳定点,如果SEs中的第(k

1)个元素小于其前面和后面的元素,则称(k

1)为稳定点,则结束循环;S237,将边集作为最终得到的边集Es输出。6.根据权利要求5所述的基于增量和分层结构熵最小化的无监督社会事件检测方法,其特征在于,得到边集Es...

【专利技术属性】
技术研发人员:彭浩冉沛筠许涵杰孙硕张靖赟蒋燕玲
申请(专利权)人:北京航空航天大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1