一种基于多源异构数据融合的社交网络链路预测方法技术

技术编号:20868114 阅读:33 留言:0更新日期:2019-04-17 09:39
本发明专利技术公开了一种基于多源异构数据融合的社交网络链路预测的方法,利用包含用户关系拓扑图和用户签到记录这两种异构数据源的基于地理位置信息的社交网络进行链路预测。本发明专利技术提出一种混合的框架,通过模型AL充分捕获基于地理位置信息的社交网络中用户关系拓扑图和用户签到记录这两种异构数据源之间的关联,克服使用基于地理位置信息的社交网络中单数据源进行链路预测时,预测结果不准确的问题,有效地提升了链路预测的效果。同时应用局部敏感哈希提高深度学习进行训练的计算速度并降低存储开销。

【技术实现步骤摘要】
一种基于多源异构数据融合的社交网络链路预测方法
本专利技术属于机器学习中的神经网络领域,是一种基于深度学习的方法,尤其是利用深度学习对基于地理位置信息的社交网络(LocalBasedSocialNetworks,LBSN)中的用户关系拓扑图和用户签到记录这两种异构数据进行融合,实现社交网络链路预测,并使用局部敏感哈希(LocalitySensitiveHashing,LSH)提高深度学习进行训练的计算速度及降低存储开销。
技术介绍
社交网络链路预测(LinkPrediction,LP),简称链路预测,旨在从一个由好友关系构成的用户关系拓扑图中找出该图中丢失的边或者将来会出现的边。随着社交网络服务(SocialNetworkService,SNS)和其他网络应用的迅速增长,网络数据无处不在。获取Facebook、QQ等APP上的好友关系这类网络数据,可以构建用户关系拓扑图,该用户关系拓扑图可用于社交网络链路预测。同时,随着定位技术的发展,利用移动设备的GPS定位功能可以采集用户的位置信息,这类位置信息结合定位的时间可形成用户签到记录。许多研究表明,用户签到记录也有助于社交网络链路预测。链路预测在信息推荐系统中扮演着重要的角色,主要用于社交网络分析中,通过链路预测可以获得置信度较高的好友,推荐给用户可能认识的人,能够显著提高用户的社交体验和忠诚度,并为企业带来巨大的经济效益。除了预测出用户关系拓扑图中的用户关联外,链路预测的方法和思想还可用于在已知部分节点类型的网络中预测出无标签节点的类型,这对于网络重组和结构功能的优化有重大价值。在传统的链路预测方法中,通常采用Jaccard、欧式距离或余弦值来衡量两个用户节点的相似度,以此判定是否存在该链路。而这些方法都不够灵活。如果换了新的数据集,或者对原始数据集进行增加或删除数据则需要对所有数据进行重新计算,消耗大量的计算存储资源。深度学习可以灵活处理海量数据。基于深度学习的方法搭建的链路预测模型,可以通过输入海量的训练数据,对模型的参数进行优化,以得到训练好的模型进行预测工作。
技术实现思路
本专利技术使用的LBSN数据集包含用户关系拓扑图和用户签到记录这两种不同结构的数据源。用户关系拓扑图由用户间的关系构成,用户间的关系称为链路(即点对),每条链路由两个用户节点的关系组成。用户签到记录由签到的用户节点、签到点经度、签到点纬度、签到时间和兴趣点(Point-of-Interest,POI)组成。本专利技术的目的旨在克服使用LBSN中单数据源进行链路预测时,预测结果不准确的问题。本专利技术的基本思路为,提出一种混合的框架,将LBSN中用户关系拓扑图和用户签到记录这两种异构数据进行融合实现链路预测,增强现有链路预测方法的预测效果。同时采用LSH对计算和存储的性能进行提升。基于上述专利技术思路,本专利技术提供一种基于多源异构数据融合的社交网络链路预测的方法,其包括以下步骤:S1,Data_process(G)→Tra,Tes:从用户关系拓扑图G=(V,E)中提取出训练集Tra和测试集Tes。其中V表示拓扑图中用户节点的集合,E表示拓扑图中边的集合。若G中的两个用户ui和uj存在社交关系,则他们之间存在一条边,记为eij=(ui,uj);S2,采用网络表示学习方法,从Tra的正样本G'中学习并获取V的社交网络用户向量,记为其中d为的维度;S3,根据用户签到记录S=(U,L),构建用户-位置签到频率矩阵其中U和L分别表示S中的用户集合和签到点集合,N是U中的用户数量,M是L中的签到点数量。再利用泊松矩阵分解获得在低维向量空间中的用户访问偏好向量,记为其中D为的维度;S4,为了捕获LBSN中这两类数据源的关联,类似锚链接(anchorlink)的方式,设计出一个改进的深度学习模型,称为AL。作为样本,作为样本对应的标签,两种向量一起输入到AL中进行多轮训练。利用最终训练好的AL生成融合了G中拓扑信息的新的用户访问偏好向量S5,将和ui'v进行再次融合,输入到一个卷积神经网络(ConvolutionalNeuralNetwork,CNN)中进行训练。最终将Tes输入到训练好的CNN中进行链路预测,获取预测结果result。上述基于多源异构数据融合的社交网络链路预测的方法,所述步骤S1,目的在于获取Tra和Tes。链路预测可以看作是一个二分类问题,G中存在的链路视为正样本,而不存在的链路视为负样本。Tra中的正样本是缺失了部分链路的用户关系拓扑图G'∈G,而这些缺失的链路将作为Tes的正样本。具体包括以下分步骤:S11,进行数据清洗,使得LBSN中G和S中的用户保持一致;S12,从G中选择出一些链路作为Tes正样本。同时保证从G中去除掉Tes正样本后的G'∈G是连通的;将G'作为Tra的正样本;S13,从G中随机选择一些不存在的链路作为负样本,按预定义的比例分配到Tra和Tes中。上述基于多源异构数据融合的社交网络链路预测的方法,所述步骤S3,目的在于获取具体包括以下分步骤:S31,利用S构建H。其中,H的行表示用户,列表示POI,H的值由用户访问对应的POI的次数填充;S32,对H进行泊松矩阵分解,可以得到反映用户访问偏好的矩阵和POI特征矩阵POI特征矩阵能反映某一POI被用户访问的情况。Us的行作为上述基于多源异构数据融合的社交网络链路预测的方法,所述步骤S4,目的在于捕获LBSN中G和S之间的关联,实现融合。为了捕获这种关联,模型AL的训练具体包括以下分步骤:S41,利用表示出Tra中的用户节点,计算Tra中用户点对的余弦均值cosori;S42,利用V和U中用户的一一对应关系来捕获G和S之间的关联。将样本及对应标签划分为多个批次(batch)并循环输入到多层感知机(Multilayerperception,MLP)中进行训练;S43,通过多轮训练实现对模型AL中的参数的调优。AL训练好后,将输入AL,输出ui'v。上述模型AL的实现方法步骤S42中涉及两个计算函数。第一个计算函数是捕获V和U中用户一一对应关系的映射函数,记为该映射函数对应的损失函数为其中x表示样本,y表示真实值,a表示模型的输出值,n表示样本的数量。调用随机梯度下降算法优化全局权重参数W和全局偏差参数b,该调优过程分别记为其中σ表示激活函数,z是神经元的输入,表示为第二个计算函数是为了保证生成的ui'v不会产生偏移,即使用ui'v表示Tra中用户点对计算的余弦均值要不小于cosori。因此引入余弦均值约束限制,记为其中和分别表示用户um和用户un的用户访问偏好向量,且G中存在emn。N(U)表示U中的用户数。该余弦均值约束限制对应的损失函数为全局权重参数W和全局偏差参数b的调优过程分别记为上述基于多源异构数据融合的社交网络链路预测的方法,所述步骤S5,目的在于将G和S再度融合实现存储消耗低、计算速度快的链路预测。具体包括以下分步骤:S51,将和ui'v拼接成一个向量S52,应用LSH将投影到一个二进制向量mi∈{0,1}m上,用户ui使用mi表示;S53,对于G中的任一条边eij=(ui,uj),采用相同方法获取mj作为用户uj的表示;S54,将mi和mj拼接以获取边eij的二进制向量表示mij(∈{0,1}2m)本文档来自技高网
...

【技术保护点】
1.一种基于多源异构数据融合的社交网络链路预测的方法,其特征在于包括以下步骤:S1,Data_process(G)→Tra,Tes:从用户关系拓扑图G=(V,E)中提取出训练集Tra和测试集Tes;其中V表示拓扑图中用户节点的集合,E表示拓扑图中边的集合;若G中的两个用户ui和uj存在社交关系,则他们之间存在一条边,记为eij=(ui,uj);S2,

【技术特征摘要】
1.一种基于多源异构数据融合的社交网络链路预测的方法,其特征在于包括以下步骤:S1,Data_process(G)→Tra,Tes:从用户关系拓扑图G=(V,E)中提取出训练集Tra和测试集Tes;其中V表示拓扑图中用户节点的集合,E表示拓扑图中边的集合;若G中的两个用户ui和uj存在社交关系,则他们之间存在一条边,记为eij=(ui,uj);S2,采用网络表示学习方法,从Tra的正样本G'中学习并获取V的社交网络用户向量,记为其中d为的维度;S3,根据用户签到记录S=(U,L),构建用户-位置签到频率矩阵其中U和L分别表示S中的用户集合和签到点集合,N是U中的用户数量,M是L中的签到点数量;再利用泊松矩阵分解获得在低维向量空间中的用户访问偏好向量,记为其中D为的维度;S4,为了捕获LBSN中G和S这两类数据源的关联,类似锚链接(anchorlink)的方式,设计出一个改进的深度学习模型,称为AL;作为样本,作为样本对应的标签,两种向量一起输入到AL中进行多轮训练;利用最终训练好的AL生成融合了G中拓扑信息的新的用户访问偏好向量S5,将和进行再次融合,输入到一个卷积神经网络(ConvolutionalNeuralNetwork,CNN)中进行训练;最终将Tes输入到训练好的CNN中进行链路预测,获取预测结果result。2.根据权利要求1所述基于多源异构数据融合的社交网络链路预测的方法,其特征在于所述步骤S1包括以下分步骤:S11,进行数据清洗,使得LBSN中G和S中的用户保持一致;S12,从G中选择出一些链路作为Tes正样本;同时保证从G中去除掉Tes正样本后的G'∈G是连通的;将G'作为Tra的正样本;S13,从G中随机选择一些不存在的链路作为负样本,按预定义的比例分...

【专利技术属性】
技术研发人员:周帆钟婷吴帮莹
申请(专利权)人:电子科技大学
类型:发明
国别省市:四川,51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1