【技术实现步骤摘要】
一种基于多尺度异构图嵌入算法的事件检测方法
[0001]本专利技术属于计算机
,涉及图嵌入技术,具体涉及一种通过异构随机游走、信息素传播算法以及基于三元组采样的多尺度异构图嵌入算法完成跨域的多视图事件检测任务的方法。
技术介绍
[0002]事件检测旨在从互联网平台发现现实世界中的事件。事件检测任务是舆情监控、舆情分析、风控检测等任务的重要基础。社会上的新闻事件传播快,范围广,影响大,快速准确对新闻事件划分归类有利于对事件进行全方面的了解评价并且可以及时采取措施遏制不良信息的进一步扩散。基于不同发表者的主观性以及事件的非全面性信息,同一件事情在这两个领域中可能有着不一样的视角甚至表达着完全相反的观点。这给传统的事件检测任务带来了巨大的挑战。于是多域事件检测任务(MED)应运而生,它综合多个域的不同新闻事件,可以提供对事件的全面的描述。多个领域同时观察事件就可以更加贴切地感知到事件的全面,但同时多域的复杂性也给研究带来了挑战。首先,来自不同域的数据是多种形式的,例如来自在线新闻媒体的文本新闻文章,以及类似Flickr的社交媒体上的视觉图像,很多判别模型都很难处理异构的数据。除此之外多模式数据有多个视图,文本文章具有报告时间,数据源(例如,雅虎、谷歌、CNN)以及文本内容,而Flickr帖子拥有时间、用户身份、标签、GPS数据以及视觉图像。多个数据视图对于识别和描述事件也是至关重要的,而多个视图的数据在形式上也构成了异构。其次,数据量大,更新率高,要求方法计算成本低,适用于动态更新的数据流。第三,由于大量的数据变化,
【技术保护点】
【技术特征摘要】
1.一种基于多尺度异构图嵌入算法的事件检测方法,其特征在于,所述事件检测方法包括以下步骤:S1、对新闻事件数据集,进行数据清洗和预处理的操作;S2、对经过步骤S1处理的新闻事件数据集,根据定义的连边类型和节点类型进行异构图的构造;S3、对步骤S2中获得的异构图,通过异构随机游走算法和异构信息素散布算法分别获得一系列的游走序列和原始图;S4、对步骤S3中通过异构信息素散布算法获得的原始图,根据事先选择的阈值对原始图的连边以及节点进行合并,从而得到压缩后的子图;S5、重复迭代进行步骤S4,直到压缩后的子图的边和节点的规模小于最小的连边压缩比例或者迭代的次数到达预设的最大值,获取得到一系列尺度的异构图;S6、对步骤S5中获得的一系列尺度的异构图以及步骤S3中获取的各个尺度上的游走序列,进行滑动窗口采样得到三元组,并使用定义的三元组损失函数进行优化,得到不同尺度上异构图节点嵌入矩阵;S7、对步骤S6中获得的每一个尺度图上的节点嵌入矩阵进行拼接,再运行PCA降维算法将嵌入矩阵降维至预设指定的维度大小,从而得到最终的嵌入向量;S8、对步骤S7中获得的嵌入矩阵,使用部分带标签的嵌入向量作为输入,训练一个线性分类器,对测试集中的嵌入向量作为线性分类器的输入,预测得到新闻事件的类别作为输出。2.根据权利要求1所述的一种基于多尺度异构图嵌入算法的事件检测方法,其特征在于,所述步骤S1过程如下:对新闻事件数据集,考虑以下数据视图:时空s、用户u、标签t、内容c、标题i、图片m,使用NLTK和spaCy工具提取新闻事件中的地理位置名词,并选择出现频率前三的地理位置名词作为本事件的地理信息特征。将新闻报道的年份和提取的地点结合起来作为时空信息,使用词频
‑
逆项文件频率模型TF
‑
IDF和句子嵌入来提取新闻内容和新闻标题的文本特征,使用VGG
‑
16模型提取图像特征。3.根据权利要求1所述的一种基于多尺度异构图嵌入算法的事件检测方法,其特征在于,所述步骤S2中,对经过步骤S1处理的新闻事件数据集,定义四种类型的节点和六种类型的连边,其中,节点包括新闻字节N、时空节点S、标签节点T、用户节点U,连边包括新闻
‑
新闻连边R
nn
、新闻
‑
用户连边R
nu
、新闻
‑
标签连边R
nt
、新闻
‑
时空连边R
ns
、标签
‑
标签连边R
tt
、时空
‑
时空连边R
ss
;所述新闻
‑
新闻连边R
nn
包括三种不同的构造方式,分别通过计算新闻内容文本特征、新闻标题语义特征、新闻图片图像特征两两之间的相似度构造,计算公式如下:其中表示节点i与节点j之间根据m类型特征构建的连边的权重,1表示节点i与节点j之间构建一条连边,0表示不构建连边,m=1,2,3表示第m种类型的特征,表示第i个节
点v
i
第m种类型特征下的特征表示向量,表示第j个节点v
j
第m种类型特征下的特征表示向量,特征表示向量的特征维度为H维,是事先设定的维度值,T
m
表示第m类型特征下的连边构造阈值,当特征之间相似度大于阈值时构造连边,其中Θ(
·
)函数定义如下:其中A、B表示两个特征向量,A
h
表示A向量第h维,B
h
表示B向量第h维,通过Θ(
·
)函数计算两个特征向量之间的相似度;剩余的类型连边根据原始数据中是否存在对应的关系建立连边,公式如下:剩余的类型连边根据原始数据中是否存在对应的关系建立连边,公式如下:表示节点i与节点j之间根据(a,b)类型特征组合构建的连边的权重,1表示节点i与节点j之间构建一条连边,0表示不构建连边,a,b均代表提取的特征模态,包括标签模态t、用户模态u、新闻模态n、时空模态s,(a,b)代表模态的组合,总共有五种类型,包括:新闻
‑
标签模态组合(n,t)、新闻
‑
时空模态组合(n,s)、新闻
‑
用户模态组合(n,u)、时空
‑
时空模态组合(s,s)、标签
‑
标签模态组合(t,t),V
ia
表示节点v
i
在特征模态a下的特征向量表示,V
ib
表示表示节点v
i
在特征模态b下的特征向量表示,通过上述的连边构造函数,将多个信息特征的原始新闻事件数据构造成设计好连边类型的异构图。4.根据权利要求1所述的一种基于多尺度异构图嵌入算法的事件检测方法,其特征在于,所述步骤S3中,对步骤S2中获得的异构图使用异构随机游走算法,当游走到v
i
节点需要选择下一跳的节点时,首先以相等概率选择下一跳子图类型,再从这个子图节点类型中按照边的权重选择下一跳的节点,选择的概率与边的权重成正比的关系,公式如下:其中P(v
i+1
|v
i
)表示当游走到v
i
节点时,选择v
i+1
作为下一跳节点的概率,v
i
表示异构图中的第i个节点,v
i+1
表示异构图中的第i+1个节点,v
k
表示异构图中的第k个节点,W表示异构图的邻接矩阵,其中W
ij
表示邻接矩阵中第i行第j列的值的大小,在异构图中表示第i个节点与第j个节点之间的连边的边的权重,W
ik
表示邻接矩阵中第i行第k列的值的大小,在异构图中表示第i个节点与第k个节点之间的连边的边的权重,|S
i
|表示与节点i相连的节点的类型的个数,N(v
i
)表示v
i
的邻居的节点类型的集合,φ(N(v
i
))表示与节点v
i
的节点类型不相同的邻居节点类型集合,N
s
(v
i
)表示与v
...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。