本发明专利技术实现了一套基于生成对抗网络模型的多层学术网络社区发现方法及其系统,基于GAN模型学习多层网络的嵌入表示,通过构建多层学术网络;使用生成对抗模型学习节点嵌入表示:生成器生成层内节点对和层间节点对作为伪样本,判别器判别数据是否为真实数据分布;生成器和判别器迭代更新进行对抗学习;使用基于K‑means聚类的方法发现社团的步骤,实现对于网络来源的学者信息的处理,发现其中多层网络结构所能提供的关系网络的深层信息,并使其算法和系统更具有鲁棒性。
A multi-layer academic network community discovery method and system based on generative adversary network model
【技术实现步骤摘要】
一种基于生成对抗网络模型的多层学术网络社区发现方法、系统
本专利技术涉及人工智能领域,尤其涉及一种基于生成对抗网络模型的多层学术网络社区发现方法和系统。
技术介绍
随着科学研究多样化的发展,学术合作逐渐向跨地区、跨学校、跨研究领域的方向发展,科研合作的广泛性和复杂性也使得学术团队的数量和规模日益增大。对学术团队的研究能够发现各学科人才之间的合作趋势,也可以为具体课堂或项目的实施提供人才支持。学者之间通过各种关系(例如合著关系、引用关系、同事关系等)构成一个庞大且复杂的网络,因此可通过对多层网络的社区发现来发掘不同关系和不同规模的学术团队。学术团队的研究可以抽象为社团,而社团是网络的基本结构性质之一,社团之间的连接稠密,社团外的连接相对稀疏。社团发现算法就是研究网络具有的社团结构。目前主流的社团划分算法包括基于模块度的、基于标签传播的、基于聚类思想等方法。随着多层网络的研究发展,出现了很多多层网络社团发现算法,如基于多层粒子群的社团发现算法、多层网络局部社团发现算法、基于比较节点度之间的关系发现局部社团结构等。其中,基于聚类的算法通过数据点之间的相似度来发掘社团,通过控制聚类算法的参数,可以获得不同规模的社团,因此在本专利技术中,采用基于聚类的方法,以发现不同规模的学术团队。近年来,多层网络嵌入方法(MultilayerNetworkEmbedding,MNE)因其相比传统的编码表示更简洁的表示形式和综合性能,已经吸引了大量的关注。它已被应用于图结构数据挖掘的下游任务,比如节点分类、连接预测、社区检测、推荐系统等。MNE的训练通常是基于给定多层网络结构数据,将节点的信息嵌入在高维空间,然后应用到下游的任务。多层网络中节点通过多种关系连接,因此,MNE提供的节点嵌入需要保留多种关系信息。此外,现有方法大多基于特定策略选取节点的邻居,通过聚集邻居信息对节点进行嵌入表示。然而,在数据集中出现的节点是有限的,仅通过聚合数据集中存在的节点信息进行嵌入表示不能有效学习节点的潜在分布,鲁棒性较差。在本专利技术中,我们考虑以生成式方法学习多层网络嵌入表示的问题。特别的,由于其在复杂分布上优秀的无监督学习能力,我们采用基于生成对抗网络(GenerativeAdversarialNetwork,GAN)进行节点嵌入表示学习。IanJ.Goodfellow等人于2014年提出了一个通过对抗过程估计生成模型的新框架。框架中同时训练两个模型:捕获数据分布的生成模型G,和估计样本来自训练数据的概率的判别模型D,二者通过互相博弈学习产生更好的输出。G的训练程序是将D错误的概率最大化。这个框架对应一个最大值集下限的双方对抗游戏。可以证明在任意函数G和D的空间中,存在唯一的解决方案,使得G重现训练数据分布,而D=0.5。在G和D由多层感知器定义的情况下,整个系统可以用反向传播进行训练。在训练或生成样本期间,不需要任何马尔科夫链或展开的近似推理网络。因此,为解决多层网络嵌入学习问题,我们选择GAN模型,因为它能学习节点的潜在分布,有利于生成更具有鲁棒性的嵌入表示。
技术实现思路
学者间复杂的关系可表示为一个多层网络,而当前多层网络嵌入表示模型的鲁棒性需要进一步提高。学习网络的嵌入表示,一个关键的问题是如何在高维空间中将节点分布保留下来。在模型训练中,通过负采样的方式,在原始网络中随机选择节点获得负样本,只能可以对已有样本进行有效学习,不能学习样本的潜在分布。此外,多层网络中,节点存在着多种关系,既要针对不同的关系生成节点的嵌入表示,在节点的多种嵌入表示之间也需要存在一定的一致性。为解决上述问题,本专利技术采用了下列技术方案:一种基于生成对抗网络模型的多层学术网络社区发现方法,包括三个步骤:步骤一:构建多层学术网络,通过外部数据库输入获取学者信息数据,建立新的数据库,并根据所述学者信息数据构建关系数据库,形成多层网络,其中所述多层网络包括:论文引用关系网络、论文合作关系网络、专利合作关系网络、项目合作关系网络、自然基金关系合作网络、同事关系网络、校友关系网络;步骤二:使用生成对抗模型学习节点嵌入表示:生成器生成层内节点对和层间节点对作为伪样本,对于给定节点和关系,生成器的目标是生成一个伪节点,使得在关系下节点和伪结点相连,使用多层感知机来增强伪节点的表达;判别器判别数据是否为真实数据分布,判别器需要判断给定关系下的节点对是否为真实节点对,输出在特定所述关系下对节点对连接的概率,所述判别器的损失函数通过:节点通过层内关系、层间关系相连、给定节点和层内、层间关系生成伪节点、节点通过错误的层内、层间关系相连六种函数关系构成;生成器和判别器迭代更新进行对抗学习,模型使用预训练的嵌入表示模型对生成器和判别器的节点嵌入表示进行初始化,层内关系矩阵和层间依赖矩阵采用的初始化方式是随机初始化,使用迭代优化策略来训练对抗网络,在每次迭代中,交替训练生成器和判别器,首先,固定生成器参数,生成伪节点来优化判别器参数,提高判别器的性能,接下来,固定判别器参数,优化生成器参数来生成更难被判别器分辨的伪节点,重复上述过程,直到模型收敛。步骤三:使用基于K-means聚类的方法发现社团为:随机选择多个不同的节点作为同样数目的社团的初始聚类中心,重复下列过程:使用余弦相似度计算其他节点与社团中心的节点之间的相似性,将节点归于相似度最大的聚类中心所属的社团,对于每个社团,重新计算聚类中心;重复上述过程直到每个社团的成员不再改变,最终输出社团结果。步骤一,获取的所述学者信息数据类型包括:教育经历、行政单位、发表论文专利、参与自然科学基金、参与项目、论文引用。所述使用生成对抗模型学习节点嵌入表示步骤中,所述伪节点的嵌入表示通过高斯分布生成:所述生成器的损失函数为:步骤二中,节点对连接的概率函数为:所述判别器的损失函数六种函数关系的基本能公式均为:所述判别器的损失函数为:所述使用基于K-means聚类的方法发现社团步骤中余弦相似度计算方法为:一种基于生成对抗网络模型的多层学术网络社区发现系统,包括:信息输入模块,将不同来源的外部数据库获取的学者信息数据进行标准化;基于生成对抗网络模型的多层学术网络社区发现方法模块,将所述信息输入模块获取的数据应用上所述方法进行处理;信息显示模块,将基于生成对抗网络模型的多层学术网络社区发现方法模块处理所得到的社团结果可视化输出。本专利技术相对于现有技术的优点在于:(1)基于GAN的方法可以有效学习节点的潜在分布,获得鲁棒性较好的节点嵌入表示。(2)生成器生成层内节点对和层间节点对,在对节点关系敏感性的同时,保持了不同关系下节点嵌入表示的一致性。(3)利用节点在不同层的嵌入表示计算节点间相似度,进而使用K-means算法聚类,可以发现不同关系连接的社团结构,也就是不同语义的社团。具体实施方式以下是本专利技术的优选实施例,对本专利技术的技术方案作进一步的本文档来自技高网...
【技术保护点】
1.一种基于生成对抗网络模型的多层学术网络社区发现方法,其特征在于:所述方法包括三个步骤:/n步骤一:构建多层学术网络,通过外部数据库输入获取学者信息数据,建立新的数据库,并根据所述学者信息数据构建关系数据库,形成多层网络,其中所述多层网络包括:论文引用关系网络、论文合作关系网络、专利合作关系网络、项目合作关系网络、自然基金关系合作网络、同事关系网络、校友关系网络;/n步骤二:使用生成对抗模型学习节点嵌入表示:生成器生成层内节点对和层间节点对作为伪样本,对于给定节点和关系,生成器的目标是生成一个伪节点,使得在关系下节点和伪结点相连,使用多层感知机来增强伪节点的表达;/n判别器判别数据是否为真实数据分布,判别器需要判断给定关系下的节点对是否为真实节点对,输出在特定所述关系下对节点对连接的概率,所述判别器的损失函数通过:节点通过层内关系、层间关系相连、给定节点和层内、层间关系生成伪节点、节点通过错误的层内、层间关系相连六种函数关系构成;/n生成器和判别器迭代更新进行对抗学习,模型使用预训练的嵌入表示模型对生成器和判别器的节点嵌入表示进行初始化,层内关系矩阵和层间依赖矩阵采用的初始化方式是随机初始化,使用迭代优化策略来训练对抗网络,在每次迭代中,交替训练生成器和判别器,首先,固定生成器参数,生成伪节点来优化判别器参数,提高判别器的性能,接下来,固定判别器参数,优化生成器参数来生成更难被判别器分辨的伪节点,重复上述过程,直到模型收敛。/n步骤三:使用基于K-means聚类的方法发现社团为:随机选择多个不同的节点作为同样数目的社团的初始聚类中心,重复下列过程:使用余弦相似度计算其他节点与社团中心的节点之间的相似性,将节点归于相似度最大的聚类中心所属的社团,对于每个社团,重新计算聚类中心;重复上述过程直到每个社团的成员不再改变,最终输出社团结果。/n...
【技术特征摘要】
1.一种基于生成对抗网络模型的多层学术网络社区发现方法,其特征在于:所述方法包括三个步骤:
步骤一:构建多层学术网络,通过外部数据库输入获取学者信息数据,建立新的数据库,并根据所述学者信息数据构建关系数据库,形成多层网络,其中所述多层网络包括:论文引用关系网络、论文合作关系网络、专利合作关系网络、项目合作关系网络、自然基金关系合作网络、同事关系网络、校友关系网络;
步骤二:使用生成对抗模型学习节点嵌入表示:生成器生成层内节点对和层间节点对作为伪样本,对于给定节点和关系,生成器的目标是生成一个伪节点,使得在关系下节点和伪结点相连,使用多层感知机来增强伪节点的表达;
判别器判别数据是否为真实数据分布,判别器需要判断给定关系下的节点对是否为真实节点对,输出在特定所述关系下对节点对连接的概率,所述判别器的损失函数通过:节点通过层内关系、层间关系相连、给定节点和层内、层间关系生成伪节点、节点通过错误的层内、层间关系相连六种函数关系构成;
生成器和判别器迭代更新进行对抗学习,模型使用预训练的嵌入表示模型对生成器和判别器的节点嵌入表示进行初始化,层内关系矩阵和层间依赖矩阵采用的初始化方式是随机初始化,使用迭代优化策略来训练对抗网络,在每次迭代中,交替训练生成器和判别器,首先,固定生成器参数,生成伪节点来优化判别器参数,提高判别器的性能,接下来,固定判别器参数,优化生成器参数来生成更难被判别器分辨的伪节点,重复上述过程,直到模型收敛。
步骤三:使用基于K-means聚类的方法发现社团为:随机选择多个不同的节点作为同样数目的社团的初始聚类中心,重复下列过程:使用余弦相似度计算其他节点与社团中心的节点之间的相似性,将节点归于相似度最大的聚类中心所属的社团,对于每个社团,重新计算聚类中心;重复上...
【专利技术属性】
技术研发人员:李建欣,孙庆赟,傅星珵,朱时杰,季诚,董翔宇,
申请(专利权)人:北京航空航天大学,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。