当前位置: 首页 > 专利查询>北京大学专利>正文

基于图神经网络的交互式社区搜索方法及装置制造方法及图纸

技术编号:28871805 阅读:19 留言:0更新日期:2021-06-15 23:04
本发明专利技术公开了一种基于图神经网络的交互式社区搜索方法及装置,依据用户的查询节点和标记节点构造给定候选子图G

【技术实现步骤摘要】
基于图神经网络的交互式社区搜索方法及装置
本专利技术属于信息
,尤其涉及一种基于图神经网络的交互式社区搜索方法及装置。
技术介绍
社区搜索是网络分析的重要工具,在线上社交网络中搜索一个包含给定查询节点的社区,在推荐、团队组织等方面有着广泛的应用。它的目标是寻找包含查询节点的密集连通子图。发现的社区可以作为一个有效的候选集,用于如商品/朋友推荐、非法组织发现等应用。虽然这个问题已经得到了很好的研究,但目前的方法在应用于现实社会网络时仍面临挑战。首先,几乎所有这些方法都假设数据已经被抓取过,它们只对收集到的数据进行分析。但是,我们不能将数据抓取和社区搜索清晰地分开。每天在网络上都会出现大量新活跃账户和信息,如果不控制收集政策,网络爬虫会发现大量的无关紧要的数据,带来不必要的存储、网络传输、计算等资源消耗。其次,现有的方法大部分利用规则度量社区成员,有些社区结构关系较为紧密,现有的社区搜索模型(例如文献XinHuang,HongCheng,LuQin,WentaoTian,andJeffreyXuYu.2014.Queryingk-trusscommunityinlargeanddynamicgraphs.InSIGMOD.1311–1322、文献MauroSozioandAristidesGionis.2010.Thecommunity-searchproblemandhowtoplanasuccessfulcocktailparty.InSIGKDD.939–948与文献H.WangY.LuW.Cui,Y.XiaoandW.Wang.2013.Onlinesearchofoverlappingcommunities.InSIGMOD)可以捕捉到这一点,但结构关系较弱、内容相似度较高的社区定位具有一定的挑战性。例如,同一公司的用户可能在网络中大致采取分层形式,网络结构关系相对稀疏,但用户的内容特征相似,因此社区搜索具有灵活性,几乎不可能直接使用预定义的社区规则生成高质量的社区。此外,如果使用现有的基于规则的方法来逐步寻找社区,会带来沉重的负担。一般情况下,用户需要根据每次结果反馈调整结构约束中的参数,选择具有代表性的属性,平衡内容与结构特征之间的权重,但考虑大量内容关键字及其复杂的关系,规则调整会带来更多的挑战。图神经网络通过同时捕获内容特性和结构关系来用来学习节点的高维表示。图神经网络通过将内容和结构特征编码成函数来实现这一目标,并在监督或非监督训练信号的指导下对函数进行优化。通过将社交网络中各个节点发布的消息作为内容特性以及将互动(关注,转发,评论等)作为边,利用图神经网络可以更准确地反映出社交网络中不同节点之间的关系。在大型社交网络中的社区搜索是研究和工业领域关注的对象。有效地利用社交网络中各种信息,如结构、内容,并将它们灵活地组合起来,是解决上述问题的关键所在。现有社区搜索方法,更加侧重于结构,忽略了内容信息,而内容在社区搜索的研究中是不可忽略的,而且社区大小不可控。另外,现有方法多为在整个图上分析,这对于真实社交网络的场景不太适用,也一定程度上制约了社区搜索的应用。
技术实现思路
本专利技术提出一种基于图神经网络的交互式社区搜索方法及装置,通过在线网络中动态采集的子图来定位目标社区,利用图神经网络将社区成员关系问题重构为一个节点分类问题,在用户标注的指导下,灵活地结合内容和结构特征来捕获图节点与标注节点之间的相似性与差异性,以迭代和交互的方式发现目标社区。本专利技术的
技术实现思路
包括:一种基于图神经网络的交互式社区搜索方法,其步骤包括:1)通过用户的查询节点和标记节点,从在线社交网络中构造给定候选子图GS;2)通过给定候选子图GS的各节点构建邻接矩阵A,依据给定候选子图各样本正节点u的内容特征及预训练好的嵌入集D,构建内容特征矩阵FM,并通过交叉熵与排序损失相结合的方式作为损失函数,构造图神经网络模型M=(A,FM,W),其中A为邻接矩阵,W为参数矩阵;3)对图神经网络模型M进行收敛,得到各节点的图神经网络分数,并依据图神经网络分数,更新给定候选子图GS;4)依据更新后的给定候选子图及设定社区大小k,通过保证社区连通且社区中节点分数尽可能大,选取大小为k的最终目标社区。进一步地,构造给定候选子图GS的方法包括:局部边缘增强的广度优先搜索策略或广度优先搜索。进一步地,依据局部边缘增强的广度优先搜索策略,通过以下步骤构造给定候选子图:1)每轮迭代前,查找先前候选子图GB,其中若未查找先前候选子图GB,则先前候选子图GB为空;2)依据先前候选子图GB=(VB,EB,FB)与正样本集合Sp,计算节点集合VS=Sp∪VB、边集合ES=EB及节点内容特征集合FS=FB,其中,VB、EB与FB分别为先前候选子图GB的节点集合、边集合与节点内容特征集合,样本节点集合S包括:正样本集合Sp和标记负节点集合Sn,正样本集合Sp包括标记正节点集合和查询节点;3)对节点集合VS中每一节点u,获得与节点u连边的节点集合N及节点u的新发布信息,将节点u的新发布信息特征加入节点内容特征集合FS中,更新节点内容特征集合FS,并继续更新节点集合VS与边集合ES,其中若节点u∈Sp且节点v∈N,则节点集合VS←VS+{v}及边集合ES←ES+{(u,v)};若节点且v∈N∧v∈VS,则节点集合VS不变,边集合ES←ES+{(u,v)};4)根据更新后的节点集合VS、边集合ES与节点内容特征集合FS,构造给定候选子图GS=(VS,ES,FS),其中将当前候选子图GS保存以用于下次迭代。进一步地,损失函数Lossa=Lossc+λLossr,其中交叉熵损失函数排名损失函数λ为权重参数,S为样本节点集合,uS.y为节点uS的标记结果,P[uS]为节点uS的图神经网络分数,R为用户标记的一组排序节点对,(uR,vR)∈R代表u获得比v更高的图神经网络分数,v为社区网络的一节点,m∈[0,1]是允许排序误差的容忍度。进一步地,构造图神经网络模型M的方法包括:利用图卷积神经网络GCN、利用图注意力网络GAT或利用图自编码器GAE。进一步地,图神经网络模型M进行收敛的方法包括:常规梯度下降方法。进一步地,选取目标社区的方法包括:基于局部边缘增强的广度优先搜索策略的最终社区定位算法或基于贪心的最终社区定位算法;其中,1)通过以下步骤实现基于局部边缘增强的广度优先搜索策略的最终社区定位算法:1.1)对于更新后给定候选子图GS=(VS,ES,FS,PS),从查询节点q开始执行局部边缘增强的广度优先搜索策略,将遇到的新节点v加入节点集合Vc,直到|Vc|=k,得到节点集合Vc,其中VS、ES、FS及PS分别为给定候选子图GS的节点集合、边集合、节点内容特征集合与图神经网络得分集合;1.2)获取节点集合Vc中各节点u′的连边节点集合N(u′);1.3)分别通过以下步骤每一节点u′进行操作,获取节点集合V本文档来自技高网
...

【技术保护点】
1.一种基于图神经网络的交互式社区搜索方法,其步骤包括:/n1)通过用户的查询节点和标记节点,从在线社交网络中构造给定候选子图G

【技术特征摘要】
1.一种基于图神经网络的交互式社区搜索方法,其步骤包括:
1)通过用户的查询节点和标记节点,从在线社交网络中构造给定候选子图GS;
2)通过给定候选子图GS的各节点构建邻接矩阵A,依据给定候选子图各样本正节点u的内容特征及预训练好的嵌入集D,构建内容特征矩阵FM,并通过交叉熵与排序损失相结合的方式作为损失函数,构造图神经网络模型M=(A,FM,W),其中A为邻接矩阵,W为参数矩阵;
3)对图神经网络模型M进行收敛,得到各节点的图神经网络分数,并依据图神经网络分数,更新给定候选子图GS;
4)依据更新后的给定候选子图及设定社区大小k,通过保证社区连通且社区中节点分数尽可能大,选取大小为k的最终目标社区。


2.如权利要求1所述的方法,其特征在于,构造给定候选子图GS的方法包括:局部边缘增强的广度优先搜索策略或广度优先搜索。


3.如权利要求2所述的方法,其特征在于,依据局部边缘增强的广度优先搜索策略,通过以下步骤构造给定候选子图:
1)每轮迭代前,查找先前候选子图GB,其中若未查找先前候选子图GB,则先前候选子图GB为空;
2)依据先前候选子图GB=(VB,EB,FB)与正样本集合Sp,计算节点集合VS=Sp∪VB、边集合ES=EB及节点内容特征集合FS=FB,其中,VB、EB与FB分别为先前候选子图GB的节点集合、边集合与节点内容特征集合,样本节点集合S包括:正样本集合Sp和标记负节点集合Sn,正样本集合Sp包括标记正节点集合和查询节点;
3)对节点集合VS中每一节点u,获得与节点u连边的节点集合N及节点u的新发布信息,将节点u的新发布信息特征加入节点内容特征集合FS中,更新节点内容特征集合FS,并继续更新节点集合VS与边集合ES,其中若节点u∈Sp且节点v∈N,则节点集合VS←VS+{v}及边集合ES←ES+{(u,v)};若节点且v∈N∧v∈VS,则节点集合VS不变,边集合ES←ES+{(u,v)};
4)根据更新后的节点集合VS、边集合ES与节点内容特征集合FS,构造给定候选子图GS=(VS,ES,FS),其中将当前候选子图GS保存以用于下次迭代。


4.如权利要求1所述的方法,其特征在于,损失函数Lossa=Lossc+λLossr,其中交叉熵损失函数排名损失函数λ为权重参数,S为样本节点集合,uS.y为节点uS的标记结果,P[uS]为节点uS的图神经网络分数,R为用户标记的一组排序节点对,(uR,vR)∈R代表u获得比v更高的图神经网络分数,v为社区网络的一节点,m∈[0,1]是允许排序误差的容忍度。


5.如权利要求1所述的方法,其特征在于,构造图神经网络模型M的方法包括:利用图卷积神经网络G...

【专利技术属性】
技术研发人员:高军陈嘉尊王佳
申请(专利权)人:北京大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1