一种基于多尺度异构图嵌入算法的事件检测方法技术

技术编号:33552396 阅读:19 留言:0更新日期:2022-05-26 22:48
本发明专利技术公开了一种基于多尺度异构图嵌入算法的事件检测方法,该检测方法通过异构随机游走、信息素传播算法以及基于三元组采样的异构图嵌入算法完成跨域的多视图事件检测任务,属于计算机技术领域。首先通过异构随机游走算法结合异构信息素散布算法,游走获取出一系列的路径集合,并根据信息素的浓度进行图的塌缩获取一系列尺度的异构图;然后通过获取到的不同尺度异构图的游走序列,进行三元组的采样优化,从而计算出不同尺度下异构图的节点的嵌入,并将其拼接再降维至合适的维度向量用于事件检测任务。本发明专利技术提出的方法可以建模复杂的新闻事件数据,并利用图嵌入的方法得到不同新闻事件的嵌入向量表示,并有效用于下游的事件检测任务。检测任务。检测任务。

【技术实现步骤摘要】
一种基于多尺度异构图嵌入算法的事件检测方法


[0001]本专利技术属于计算机
,涉及图嵌入技术,具体涉及一种通过异构随机游走、信息素传播算法以及基于三元组采样的多尺度异构图嵌入算法完成跨域的多视图事件检测任务的方法。

技术介绍

[0002]事件检测旨在从互联网平台发现现实世界中的事件。事件检测任务是舆情监控、舆情分析、风控检测等任务的重要基础。社会上的新闻事件传播快,范围广,影响大,快速准确对新闻事件划分归类有利于对事件进行全方面的了解评价并且可以及时采取措施遏制不良信息的进一步扩散。基于不同发表者的主观性以及事件的非全面性信息,同一件事情在这两个领域中可能有着不一样的视角甚至表达着完全相反的观点。这给传统的事件检测任务带来了巨大的挑战。于是多域事件检测任务(MED)应运而生,它综合多个域的不同新闻事件,可以提供对事件的全面的描述。多个领域同时观察事件就可以更加贴切地感知到事件的全面,但同时多域的复杂性也给研究带来了挑战。首先,来自不同域的数据是多种形式的,例如来自在线新闻媒体的文本新闻文章,以及类似Flickr的社交媒体上的视觉图像,很多判别模型都很难处理异构的数据。除此之外多模式数据有多个视图,文本文章具有报告时间,数据源(例如,雅虎、谷歌、CNN)以及文本内容,而Flickr帖子拥有时间、用户身份、标签、GPS数据以及视觉图像。多个数据视图对于识别和描述事件也是至关重要的,而多个视图的数据在形式上也构成了异构。其次,数据量大,更新率高,要求方法计算成本低,适用于动态更新的数据流。第三,由于大量的数据变化,例如新闻文章的不同立场和观点,以及不同的观点、分辨率、照明条件、不断变化的背景以及不同的采用时间或标记单词,原始数据通常在判别力方面较低。因此,在MED的背景下学习数据的有效表示是至关重要的。
[0003]在事件检测领域,研究人员为了利用异构数据和数据视图,提出了后期融合和早期融合模型,用于在不同层次上进行信息融合。后期融合方法受困于昂贵的学习代价以及容易受单一模态的低分辨力所影响。早期融合模型基于亲和力图但也是计算密集型的。数据表示学习模型从多个低维子空间的联合中近似采样的同时利用了各种假设(例如非负性、稀疏性,低秩、局部不变性等)。多模态数据表示模型单纯地连接单个模态或者分别学习每个模态的表示,这忽略了模态之间的内在结构以及连接关系。
[0004]如何找到一种合适的方案既可以学习每个域内的事件特征又可以维护每一个模态之间的内在结构以及连接关系成为解决多模态事件检测问题的关键。而这也正是前面提到的异构网络嵌入技术所要解决的问题。

技术实现思路

[0005]本专利技术的目的是为了解决现有技术中事件检测跨域事件检测任务的上述缺陷,提供一种基于三元组采样的多尺度异构图嵌入算法的事件检测方法。考虑到现实生活中的新闻事件普遍具有多种不同类型的特征例如文本特征、图像特征、时序特征等等,而这构成了
数据的异构性。当涉及到多领域数据的异构性时,图数据结构就可以很好地建模这样的异构数据形式,而事件检测任务它可以被认为是图上的节点分类任务。为此,本专利技术使用异构图建模异构的数据以解决多视图数据的异构性。此外,异构图嵌入技术来解决MED任务,因为图嵌入方法在获得节点的低维表示方面有比较优秀的能力,所以本专利技术提出了一种新型的异构图嵌入方法。
[0006]本专利技术的目的可以通过采取如下技术方案达到:
[0007]本专利技术提出一种新型的异构图建模方法,对多视图的新闻事件数据集使用异构图进行建模数据,并开创性地在多域事件检测中使用图嵌入技术。另外,本专利技术还提出了一种多尺度的异构图嵌入方法,对异构图中节点之间的邻域特征以及长距离的图结构特征进行建模,可以很好地获得每个事件的嵌入表示,并利用获得的嵌入表示进行后续的事件分类任务。
[0008]一种基于三元组采样的多尺度异构图嵌入算法完成跨域的多视图事件检测任务的方法,该方法包含以下步骤:
[0009]S1、对新闻事件数据集,进行数据清洗和预处理的操作;
[0010]S2、对经过步骤S1处理的新闻事件数据集,根据定义的连边类型和节点类型进行异构图的构造;
[0011]S3、对步骤S2中获得的异构图,通过异构随机游走算法和异构信息素散布算法分别获得一系列的游走序列和原始图;
[0012]S4、对步骤S3中通过异构信息素散布算法获得的原始图,根据事先选择的阈值对原始图的连边以及节点进行合并,从而得到压缩后的子图;
[0013]S5、重复迭代进行步骤S4,直到压缩后的子图的边和节点的规模小于最小的连边压缩比例或者迭代的次数到达预设的最大值,获取得到一系列尺度的异构图;
[0014]S6、对步骤S5中获得的一系列尺度的异构图以及步骤S3中获取的各个尺度上的游走序列,进行滑动窗口采样得到三元组,并使用定义的三元组损失函数进行优化,得到不同尺度上异构图节点嵌入矩阵;
[0015]S7、对步骤S6中获得的每一个尺度图上的节点嵌入矩阵进行拼接,再运行PCA降维算法将嵌入矩阵降维至预设指定的维度大小,从而得到最终的嵌入向量;
[0016]S8、对步骤S7中获得的嵌入矩阵,使用部分带标签的嵌入向量作为输入,训练一个线性分类器,对测试集中的嵌入向量作为线性分类器的输入,预测得到新闻事件的类别作为输出。
[0017]进一步地,在步骤S1中,由于新闻媒体和社交媒体中数据的复杂性,在构建异构图之前对原始数据进行预处理。来自新闻样本的异质性多视图数据对于描述和发现事件非常重要。因此,为了有效检测语义信息和上下文之间的关系,考虑以下数据视图:时空s、用户u、标签t、内容c、标题 i、图片m。进一步对原始数据进行预处理,以解决地中海任务数据中的数据缺失问题和低区分度问题。使用NLTK和spaCy工具提取新闻事件中的地理位置名词,并选择出现频率前三的地理位置名词作为本事件的地理信息特征。因此,将新闻报道的年份和提取的地点结合起来作为时空信息。例如,在一篇描述2015年天津的新闻报道中,提取的位置信息是天津和中国。可以将"2015年天津"和"2015年中国"作为两个时空节点来构建。使用词频

逆项文件频率模型(TF

IDF)和句子嵌入来提取内容和标题的文本特征,使用
VGG

16模型提取图像特征。
[0018]进一步地,在步骤S2中,对于处理好的多个信息特征的原始数据,为了从中构建异构图,需要定义好异构图的连边类型以及节点类型,并且设计好如何建立不同特征信息和连边以及节点之间的构建关系。因此,对经过步骤S1处理的新闻事件数据集,定义四种类型的节点和六种类型的连边,其中,节点包括新闻字节(N)、时空节点(S)、标签节点(T)、用户节点 (U),连边包括新闻

新闻连边(R
nn
)、新闻

用户连边(R
nu
)、新闻

标签连边 (R
nt
)、新闻
...

【技术保护点】

【技术特征摘要】
1.一种基于多尺度异构图嵌入算法的事件检测方法,其特征在于,所述事件检测方法包括以下步骤:S1、对新闻事件数据集,进行数据清洗和预处理的操作;S2、对经过步骤S1处理的新闻事件数据集,根据定义的连边类型和节点类型进行异构图的构造;S3、对步骤S2中获得的异构图,通过异构随机游走算法和异构信息素散布算法分别获得一系列的游走序列和原始图;S4、对步骤S3中通过异构信息素散布算法获得的原始图,根据事先选择的阈值对原始图的连边以及节点进行合并,从而得到压缩后的子图;S5、重复迭代进行步骤S4,直到压缩后的子图的边和节点的规模小于最小的连边压缩比例或者迭代的次数到达预设的最大值,获取得到一系列尺度的异构图;S6、对步骤S5中获得的一系列尺度的异构图以及步骤S3中获取的各个尺度上的游走序列,进行滑动窗口采样得到三元组,并使用定义的三元组损失函数进行优化,得到不同尺度上异构图节点嵌入矩阵;S7、对步骤S6中获得的每一个尺度图上的节点嵌入矩阵进行拼接,再运行PCA降维算法将嵌入矩阵降维至预设指定的维度大小,从而得到最终的嵌入向量;S8、对步骤S7中获得的嵌入矩阵,使用部分带标签的嵌入向量作为输入,训练一个线性分类器,对测试集中的嵌入向量作为线性分类器的输入,预测得到新闻事件的类别作为输出。2.根据权利要求1所述的一种基于多尺度异构图嵌入算法的事件检测方法,其特征在于,所述步骤S1过程如下:对新闻事件数据集,考虑以下数据视图:时空s、用户u、标签t、内容c、标题i、图片m,使用NLTK和spaCy工具提取新闻事件中的地理位置名词,并选择出现频率前三的地理位置名词作为本事件的地理信息特征。将新闻报道的年份和提取的地点结合起来作为时空信息,使用词频

逆项文件频率模型TF

IDF和句子嵌入来提取新闻内容和新闻标题的文本特征,使用VGG

16模型提取图像特征。3.根据权利要求1所述的一种基于多尺度异构图嵌入算法的事件检测方法,其特征在于,所述步骤S2中,对经过步骤S1处理的新闻事件数据集,定义四种类型的节点和六种类型的连边,其中,节点包括新闻字节N、时空节点S、标签节点T、用户节点U,连边包括新闻

新闻连边R
nn
、新闻

用户连边R
nu
、新闻

标签连边R
nt
、新闻

时空连边R
ns
、标签

标签连边R
tt
、时空

时空连边R
ss
;所述新闻

新闻连边R
nn
包括三种不同的构造方式,分别通过计算新闻内容文本特征、新闻标题语义特征、新闻图片图像特征两两之间的相似度构造,计算公式如下:其中表示节点i与节点j之间根据m类型特征构建的连边的权重,1表示节点i与节点j之间构建一条连边,0表示不构建连边,m=1,2,3表示第m种类型的特征,表示第i个节
点v
i
第m种类型特征下的特征表示向量,表示第j个节点v
j
第m种类型特征下的特征表示向量,特征表示向量的特征维度为H维,是事先设定的维度值,T
m
表示第m类型特征下的连边构造阈值,当特征之间相似度大于阈值时构造连边,其中Θ(
·
)函数定义如下:其中A、B表示两个特征向量,A
h
表示A向量第h维,B
h
表示B向量第h维,通过Θ(
·
)函数计算两个特征向量之间的相似度;剩余的类型连边根据原始数据中是否存在对应的关系建立连边,公式如下:剩余的类型连边根据原始数据中是否存在对应的关系建立连边,公式如下:表示节点i与节点j之间根据(a,b)类型特征组合构建的连边的权重,1表示节点i与节点j之间构建一条连边,0表示不构建连边,a,b均代表提取的特征模态,包括标签模态t、用户模态u、新闻模态n、时空模态s,(a,b)代表模态的组合,总共有五种类型,包括:新闻

标签模态组合(n,t)、新闻

时空模态组合(n,s)、新闻

用户模态组合(n,u)、时空

时空模态组合(s,s)、标签

标签模态组合(t,t),V
ia
表示节点v
i
在特征模态a下的特征向量表示,V
ib
表示表示节点v
i
在特征模态b下的特征向量表示,通过上述的连边构造函数,将多个信息特征的原始新闻事件数据构造成设计好连边类型的异构图。4.根据权利要求1所述的一种基于多尺度异构图嵌入算法的事件检测方法,其特征在于,所述步骤S3中,对步骤S2中获得的异构图使用异构随机游走算法,当游走到v
i
节点需要选择下一跳的节点时,首先以相等概率选择下一跳子图类型,再从这个子图节点类型中按照边的权重选择下一跳的节点,选择的概率与边的权重成正比的关系,公式如下:其中P(v
i+1
|v
i
)表示当游走到v
i
节点时,选择v
i+1
作为下一跳节点的概率,v
i
表示异构图中的第i个节点,v
i+1
表示异构图中的第i+1个节点,v
k
表示异构图中的第k个节点,W表示异构图的邻接矩阵,其中W
ij
表示邻接矩阵中第i行第j列的值的大小,在异构图中表示第i个节点与第j个节点之间的连边的边的权重,W
ik
表示邻接矩阵中第i行第k列的值的大小,在异构图中表示第i个节点与第k个节点之间的连边的边的权重,|S
i
|表示与节点i相连的节点的类型的个数,N(v
i
)表示v
i
的邻居的节点类型的集合,φ(N(v
i
))表示与节点v
i
的节点类型不相同的邻居节点类型集合,N
s
(v
i
)表示与v
...

【专利技术属性】
技术研发人员:吕建明梁锦涛
申请(专利权)人:华南理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1