当前位置: 首页 > 专利查询>复旦大学专利>正文

一种基于数据增强和非负矩阵稀疏分解的群组发现方法技术

技术编号:21894311 阅读:34 留言:0更新日期:2019-08-17 15:27
本发明专利技术属于大数据技术领域,具体为一种基于数据增强和非负矩阵稀疏分解的群组发现方法。本发明专利技术通过循环神经网络学习节点有属性的网络中不同属性的节点的邻居分布,抽取由多个节点的相似的邻居分布形成的邻居模式用以增强数据,再通过交替最小二乘和吉洪诺夫正则化进行非负矩阵的稀疏分解发现群组,提升群组发现的准确性。本发明专利技术通过数据增强对网络拓扑结构的边进行了填补,使得矩阵分解时尽量不迭代出全零的行,保证迭代稳定;并且,以非负矩阵稀疏分解的方法得到稀疏的群组表示,不会得到大量非零的概率,增强了群组发现方法的可解释性,解决了大量非零概率难以解释群组隶属关系的难题。

A Group Discovery Method Based on Data Enhancement and Nonnegative Matrix Sparse Decomposition

【技术实现步骤摘要】
一种基于数据增强和非负矩阵稀疏分解的群组发现方法
本专利技术属于大数据
,具体涉及基于深度学习的网络数据增强和非负矩阵稀疏分解的群组发现方法。
技术介绍
现实中,各种各样的对象之间存在着联系与交互,这些对象以及它们之间的联系可以抽象成网络结构,或者称为图结构。联系或交互用网络中的边表示,而这些对象以及它们的属性在网络中则被表示为节点及其节点属性。分析这些网络数据,找出其中相似的点构成的集合,被称为群组发现任务。群组发现是大数据挖掘中的一项重要任务,例如,在社交网络中,网络节点代表了每一个人,而网络中的边则代表了他们之间存在的社交关系,比如同学关系、亲属关系、师生关系等。通过对社交网络的群组发现分析,得到每个人的社交圈,利用这些信息,能够进行好友推荐、商品推荐、社交关系的预测等。根据每个网络节点可以从属的群组数目,群组发现可以分为非重叠的群组发现和重叠的群组发现。非重叠的群组发现只允许每个节点只从属于一个群组;重叠的群组发现允许每个节点属于多于一个群组,比如社交网络中,某个人除了属于同事圈,还能属于社交朋友圈。传统的基于矩阵分解的群组发现方法通常直接考虑当前给定的网络的拓扑结构,本文档来自技高网...

【技术保护点】
1.一种基于数据增强和非负矩阵稀疏分解的群组发现方法,包括:利用循环神经网络从网络的拓扑结构和节点属性学习到不同属性的节点的邻居分布,抽取邻居模式;通过学习到的邻居模式恢复在数据采集过程中造成的拓扑信息缺失;利用拉普拉斯平滑对节点属性进行修复,同时对拓扑结构与节点属性进行数据增强;然后,在非负矩阵分解中加入吉洪诺夫正则化,使得矩阵能够被稀疏分解,从而得每个节点远离属于某个或者多个群组的划分边界,避免产生大量难以解释的非零小概率,具体步骤为:(1)数据准备:给定一网络或称为图:G=(A,X),包含邻接矩阵A=(A1,…,An)

【技术特征摘要】
1.一种基于数据增强和非负矩阵稀疏分解的群组发现方法,包括:利用循环神经网络从网络的拓扑结构和节点属性学习到不同属性的节点的邻居分布,抽取邻居模式;通过学习到的邻居模式恢复在数据采集过程中造成的拓扑信息缺失;利用拉普拉斯平滑对节点属性进行修复,同时对拓扑结构与节点属性进行数据增强;然后,在非负矩阵分解中加入吉洪诺夫正则化,使得矩阵能够被稀疏分解,从而得每个节点远离属于某个或者多个群组的划分边界,避免产生大量难以解释的非零小概率,具体步骤为:(1)数据准备:给定一网络或称为图:G=(A,X),包含邻接矩阵A=(A1,…,An)T及其节点属性矩阵X=(X1,…,Xn)T,A∈Rn×n,X∈Rn×r,n是节点数,r是节点属性的维数;(3)节点属性数据增强:通过对每个节点属性与其邻居求和,即拉普拉斯平滑来增强节点属性数据:其中,D∈Rn×n是度矩阵,I∈Rn×n是单位矩阵,t是平滑次数;(4)非负矩阵的稀疏分解:首先,设定分解的目标函数,同时对邻接矩阵A和节点属性矩阵X进行非负矩阵分解,其中,A分解为从属群组概率矩阵U与其转置矩阵UT的点积,U∈Rn×c,c是群组数量,Uij代表第i个节点属于第j个群组的概率;X分解为从属群组概率矩阵U与群组潜在属性矩阵C的点积,C∈Rc×r,r是节点属性的数量;对于矩阵U和C同时加入吉洪诺夫正则化,目标函数如下:其中,α,β是权重,取值为大于0;运用交替最小二乘,可以同时对邻接矩阵A和节点属性矩阵X进行非负矩阵分解,得到矩阵U和C,其更新法则如下:(5)推测所属群组:根据每个节点允许从属单个还是多个群组,进行非重叠的群组发现和重叠的群组发现:(5.1)非重叠的群组发现:对于从属群组概率矩阵U,得到第i个节点所属的群组Communityi=argmax(Ui);(5.2)重叠的群组发现:对于从属群组概率矩阵U,得到第i个节点所属的群组集合Communityi=find(Ui≥thres),其中,thres是设定的阈值,用于剔除数据噪声的影响,find(condition)表示找出符合条件condition的值的下标的函数。2.根据权利要求1所述的基于数据增强和非负矩阵稀疏分解的群组发现方法,其特征在于,步骤(2)中所述拓扑结构数据增强的具体流程为:(2.1)学习邻居模式,即学习得到不同节点属性的网络节点的邻居分布,并得到不同邻居模式下的节点链接概率分布:首先,从图G中计算连通子图,并去除那些只有...

【专利技术属性】
技术研发人员:熊贇陈惠迪朱扬勇
申请(专利权)人:复旦大学
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1