一种基于非负矩阵分解的社交网络特征提取方法技术

技术编号:24012215 阅读:34 留言:0更新日期:2020-05-02 02:08
本发明专利技术公开了一种基于非负矩阵分解的社交网络特征提取方法,属于网络科学领域。本发明专利技术通过两种矩阵分解的策略,将原始的高维的稀疏的网络数据编码为低维的稠密的向量,易于存储,其中,联合矩阵分解中U

A feature extraction method of social network based on nonnegative matrix decomposition

【技术实现步骤摘要】
一种基于非负矩阵分解的社交网络特征提取方法
本专利技术属于网络科学领域,更具体地,涉及一种基于非负矩阵分解的社交网络特征提取方法。
技术介绍
现实生活中物体之间的关系通常可以由一个网络来表示,物体作为网络中的节点,物体之间的关系作为网络中的边。更广义的角度来说,这种网络可以进一步用一张图来表示。网络科学领域的研究人员依靠传统的方法例如邻接矩阵等方式从复杂网络中提取特征。近年来,图数据处理的研究者开始广泛使用基于矩阵分解的方法,例如奇异值分解、非负矩阵分解等,将网络自动编码到低纬度的向量空间中。这种网络表示学习的方法相较传统方法更为轻松,而且在基于网络的相关任务中都展示了最先进的结果。目前该领域的研究主要集中在单视角网络,也就是只考虑网络中的节点之间存在的某一种关系。例如,专利CN109902203A公开了一种基于随机游走的单视角网络表示学习方法。但是,由于节点之间往往存在不止一种类型的关系,网络中通常包含多个视角,每个视角反映了节点之间的一种类型的关系,显然每个视角都具有重要的意义。例如,在微博网络中,一个用户可以关注、点赞、转发以及评论另一个用户的博文,这四种关系可以抽象为这个网络的四个视角,分别描述了用户之间的四种不同的关系。显然这四种关系都反映了用户之间存在交互关系,但每个种关系背后反应的用户之间的亲密程度是不一样的。如何将网络的多个视角的信息同时映射到向量空间,是目前该领域需要发展的一个方向。
技术实现思路
针对现有技术的缺陷和改进需求,本专利技术提供了一种基于非负矩阵分解的社交网络特征提取方法,其目的在于准确地保留多视角网络的原始信息,并且得到更加鲁棒性的网络向量表示。为实现上述目的,按照本专利技术的第一方面,提供了一种基于非负矩阵分解的社交网络特征提取方法,该方法包括以下步骤:S1.计算K视角社交网络图的每个视角图的拉普拉斯矩阵Xk;S2.对所有视角的拉普拉斯矩阵Xk进行L个阶段联合非负矩阵分解,得到基矩阵向量U={U1,…,UL}、每个视角的残差矩阵和系数矩阵S3.根据基矩阵UL和系数矩阵对每个视角的残差矩阵进行H个阶段独立非负矩阵分解,得到各视角的基矩阵向量S4.将基矩阵向量U={U1,…,UL}和基矩阵向量级联,得到K视角社交网络图的特征向量,k=1,…,K。优选地,拉普拉斯矩阵Xk的计算公式如下:其中,vol(Gk)表示图Gk邻接矩阵所有元素之和,b表示负采样数目,T表示窗口大小,Dk表示图Gk节点的度矩阵,Ak表示图Gk邻接矩阵。优选地,进行L个阶段联合非负矩阵分解具体如下:其中,表示在第l个阶段第k个视角的残差矩阵,表示在第l阶段第k个视角的权重,γ表示超参数,Ul表示在第l阶段第k个视角的非负矩阵分解的基矩阵,表示在第l阶段第k个视角的非负矩阵分解的系数矩阵。优选地,使用坐标下降法求解。优选地,优化公式如下:其中,表示对应元素的乘积。优选地,进行H个阶段独立非负矩阵分解具体如下:其中,表示在第h个阶段第k个视角的残差矩阵。优选地,得到网络向量后,计算用户节点之间的相似程度,用于向用户推荐好友。为实现上述目的,按照本专利技术的第二方面,提供了一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时实现如第一方面的基于非负矩阵分解的社交网络特征提取方法。总体而言,通过本专利技术所构思的以上技术方案,能够取得以下有益效果:本专利技术通过两种矩阵分解的策略将原始的高维的稀疏的网络数据编码为低维的稠密的向量,易于存储,其中,联合矩阵分解中Ul被所有视角共享(k=1,…,K),表示所有视角的一致性信息;独立矩阵分解中是每个视角私有的,表示各个视角的独特性信息。将原始网络的特征进一步抽象为特征向量,有利于提升后续的网络分析任务的性能。可以方便地进行并行计算,大大提升了后续任务的计算效率。多阶段的非负矩阵分解可以使得每一阶段的残差矩阵逐渐变得稀疏与低秩,从而矩阵分解的误差可以逐步降低,因此获得更好的网络表示学习效果。附图说明图1为本专利技术实施例提供的一种基于非负矩阵分解的社交网络特征提取方法流程图;图2为本专利技术实施例提供的2视角社交网络图特征提取过程示意图。具体实施方式为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。此外,下面所描述的本专利技术各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。如图1所示,本专利技术提供了一种基于非负矩阵分解的社交网络特征提取方法,该方法包括以下步骤:步骤S1.计算K视角社交网络图的每个视角图的拉普拉斯矩阵Xk,k=1,…,K。如图2所示,多视角网络图中,黑色的点表示网络中的节点,虚线表示节点在视角之间的对齐关系,节点之间的实线表示节点之间的边。可以看到,多视角网络图中,每个视角中的节点集是完全一样的,由于不同的视角反映了节点之间不同的关系,因此对应的图的拓扑结构是不同的。以社交网络为例,将用户抽象为节点,用户之间不同的关系,例如,关注、点赞、转发等任何一种关系均可以被抽象为一个视角,进而构成一个多视角网络。以学术网络为例,将学术网络中的学者抽象为节点,学者之间的学术合作关系抽象为第一视角,学者之间学术引用关系抽象为第二个视角,这样可以得到一个多视角的学术网络。根据图谱理论,计算每个视角图的拉普拉斯矩阵,从而将原始的图表示为一个计算机可以处理的矩阵。将拥有K个视角的多视角社交网络图中每个视角抽象为一个图G,定义其邻接矩阵为A,节点的度矩阵为D,vol(G)为邻接矩阵所有元素之和。并设置窗口大小为T,负采样数目为b。对于一个给定的节点,窗口大小用于限制与当前节点交互的邻居节点的数目,窗口越大,与之产生联系的邻居数目也越多。原始模型中存在大量的负样本,也就是与当前给定的节点没有产生联系的节点,如果直接优化会造成非常大的计算开销。因此,在实际计算中,通常采用负采样的手段从所有的负样本中采样一部分进行计算。通常而言,窗口的大小太小,模型无法优化到最优解,窗口大小太大,则会引入额外的噪声,影响模型的性能,因此需要选择一个适中的窗口大小。对于负采样来说,负采样的数目越大计算复杂度越高,因此需要在效率与性能之间进行折中。本实施例中,设置窗口大小为T=5,负采样数目为b=5。此外,所得的图拉普拉斯矩阵是经过了行归一化之后的结果,从而保证了每个节点的尺度一致,每一行的元素之和为1。根据图谱理论,所得的拉普拉斯矩阵可以保存原始图G的拓扑结构信息。根据公式(1)求得第k个视角图Gk的拉普拉斯矩阵Xk:其中,vol(Gk)表示图Gk邻接矩阵所有元素之和,b表示负采样数目,T表示窗口大小,Dk表示图Gk节点的度矩阵,本文档来自技高网...

【技术保护点】
1.一种基于非负矩阵分解的社交网络特征提取方法,其特征在于,该方法包括以下步骤:/nS1.计算K视角社交网络图的每个视角图的拉普拉斯矩阵X

【技术特征摘要】
1.一种基于非负矩阵分解的社交网络特征提取方法,其特征在于,该方法包括以下步骤:
S1.计算K视角社交网络图的每个视角图的拉普拉斯矩阵Xk;
S2.对所有视角的拉普拉斯矩阵Xk进行L个阶段联合非负矩阵分解,得到基矩阵向量U={U1,…,UL}、每个视角的残差矩阵和系数矩阵
S3.根据基矩阵UL和系数矩阵对每个视角的残差矩阵进行H个阶段独立非负矩阵分解,得到各视角的基矩阵向量
S4.将基矩阵向量U={U1,…,UL}和基矩阵向量级联,得到K视角社交网络图的特征向量,k=1,…,K。


2.如权利要求1所述的方法,其特征在于,拉普拉斯矩阵Xk的计算公式如下:



其中,vol(Gk)表示图Gk邻接矩阵所有元素之和,b表示负采样数目,T表示窗口大小,Dk表示图Gk节点的度矩阵,Ak表示图Gk邻接矩阵。


3.如权利要求1所述的方法,其特征在于,所述进行L个阶段联合非负矩阵分解具体如下:






其中,表示在第l个阶段第k个视角...

【专利技术属性】
技术研发人员:金海石宣化华强胜黄宏宋宇
申请(专利权)人:华中科技大学
类型:发明
国别省市:湖北;42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1