基于在线社交用户隐特征的隐式群体发现方法技术

技术编号:20329920 阅读:237 留言:0更新日期:2019-02-13 06:14
本发明专利技术提供一种基于在线社交用户隐特征的隐式群体发现方法,涉及网络技术领域。包括以下步骤:针对社交网络构建用户社交关系矩阵;利用稀疏自编码器学习用户社交关系的隐特征;利用隐藏层输出编码矩阵进行鲁棒性连续聚类;利用特征矩阵构建图结构,从图结构的连通分支中确定隐式群体。本发明专利技术通过发现用户连接的内在机理,从隐特征角度考虑用户间的连接关系,其更加符合真实隐性群体聚合情况,实现了更精准的隐式用户群体的发现。

【技术实现步骤摘要】
基于在线社交用户隐特征的隐式群体发现方法
本专利技术涉及社交网络
,具体涉及一种基于在线社交用户隐特征的隐式群体发现方法。
技术介绍
随着Web2.0应用以及其它各种类型的社会媒体的发展,在线社交网络(onlinesocialnetworks,OSN)已经成为人们网络生活的最主要平台,在这些平台上,用户并不是单独存在的,他们可能会因为社会选择或者社会影响等形成某些隐性群体。随着电子商务的快速发展,信息过载现象愈加严重,作为缓解信息过载的有效工具,推荐系统已经成为了现代电商网站和社交平台的标配。因此,能够有效捕捉到隐性群体,相比于研究整个社交网络用户对某个用户的偏好影响,研究隐性群体的偏好将有利于我们对群体用户进行深入的行为分析,进而为群体或个人推荐更加准确的目标产品和服务。针对社交关系数据,选择合适的方法对原始连接数据进行表示,会对结果产生深刻的影响。在深度学习出现之前,大多采用特征工程表示数据,特征工程需要专家知识的帮助,同时需要大量的人力物力。深度学习的出现使得我们可以从原始数据中自动学习特征,从原始数据中抽取高层次、抽象的特征,使用其他简单的表示来表达复杂表示,是表示学习的一种。而自编码器作为表示学习和神经网络的一种典型方法,由编码器和解码器两部分组成,希望通过模型的学习将输出等同于输入,通常情况下,自编码器的编码器的输入神经元个数小于模型输入的维度,这种限制使得自编码器学习到欠完备的表示,即强制自编码器捕捉数据中的显著特征。于是,结合社交关系数据的自编码器方法可用于用户隐特征的学习。聚类算法广泛应用于群体发现的研究,现有的聚类算法有K-Means、DBSCAN、WAVE-CLUSTER、FCM、COD、GMM、谱聚类等,但是没有任何一种聚类算法可以普遍适用于揭示各种多维数据集所呈现出来的多种多样的结构,现有的聚类算法在高维数据的有效性上表现有限,而且针对不同的研究领域或者数据集都要调整很多的参数。鲁棒性连续聚类方法(Robustcontinuousclustering,RCC)可用于大规模数据集的无监督聚类,适用于不同类型的数据,如文本、图像、数字等,在高维数据的聚类上也有很好的性能,但是该方法无法实现只有社交网络用户连接关系的用户聚类问题。
技术实现思路
(一)解决的技术问题针对现有技术的不足,本专利技术提供了一种基于在线社交用户隐特征的隐式群体发现方法,可解决社交网络环境下基于用户隐偏好发现隐式群体的技术难点问题。(二)技术方案为实现以上目的,本专利技术通过以下技术方案予以实现:一种基于在线社交用户隐特征的隐式群体发现方法,包括以下步骤:针对社交网络构建用户社交关系矩阵;利用稀疏自编码器学习用户社交关系的隐特征;利用隐藏层输出编码矩阵进行鲁棒性连续聚类;利用特征矩阵构建图结构,从图结构的连通分支中确定隐式群体。进一步的,所述稀疏自编码器是包括输入层、隐藏层和输出层的三层神经网络。进一步的,所述针对社交网络构建用户社交关系矩阵,包括:将社交网络中的用户集合记为U,U={u1,...,ui,...,uj,...un},n为用户数量;以Rij表达社交网络中第i个用户ui和第j个用户uj之间的关系,1<i<n,1<j<n;定义Rii=1;若用户ui和用户uj在所述社交网络中存在连接关系,则Rij=1,否则Rij=0;获得由式(1)所表征的n×n的用户社交关系矩阵R:进一步的,所述利用稀疏自编码器学习用户社交关系的隐特征,包括以所构建的用户社交关系矩阵R作为所述稀疏自编码器的输入矩阵,由式(2)所表征的函数获得稀疏自编码器中的隐藏层输出编码矩阵:E=f(RWT+b)=[F1,...,Fi,...,Fn]={Fi1,...,Fih,...,Fid}(2),式(2)中,E是用户社交关系矩阵R在稀疏自编码器中的n×d的隐藏层输出编码矩阵,n是用户数量,d是用户隐特征数;Fi表示第i个用户的特征值向量,1<i<n;Fih表示第i个用户的第h个特征值,1<h<d;f(·)是选择为双曲正切函数的激活函数;W是用户社交关系矩阵R的权重矩阵;b是m×d的偏差矩阵,T表示矩阵转置;将隐藏层输出编码矩阵E输入到稀疏自编码器的输出层,由式(3)所表征的函数获得稀疏自编码器输出矩阵:式(3)中,是n×n的稀疏自编码器输出矩阵;g(·)是选择为Sigmoid函数的激活函数,是隐藏层输出编码矩阵E的权重矩阵,是m×m的矩阵形式的偏差向量;针对所述稀疏自编码器构建由式(4)所表征的误差训练目标函数:采用反向传播算法和Adadelta方法针对所述误差训练目标函数进行参数求解,经过迭代实现针对由式(4)所表征的误差训练目标函数的优化,迭代结束时,获得优化后的权重矩阵W和偏差矩阵b;利用式(2)计算得到隐藏层输出编码矩阵E的最优取值,记为:最优隐藏层输出编码矩阵E*,E*=[F1*,...,Fi*,...,Fn*]。进一步的,所述利用隐藏层输出编码矩阵进行鲁棒性连续聚类,包括:构建图结构的聚类目标函数C;将所述最优隐藏层输出编码矩阵E*=[F1*,...,Fi*,...,Fn*]通过m-KNN方法连接形成图结构,连接形成一条边的两个用户互为彼此的最近邻,以此避免孤立用户的存在;针对所述图结构的聚类目标函数C由式(5)所表征:其中,ε表示图结构中边的集合;初始化特征矩阵G,G=[G1,...,Gi,...,Gp,...,Gq,...,Gn],1<i,p,q<n,、Gi、Gp、Gq分别表示第i个用户、第p个用户和第q个用户的初始特征向量;初始化系数μ,μ=3γ2,γ是图结构中的最大边长度;lp,q是辅助变量;ωp,q是由式(6)所表征的边(p,q)的权重系数:式(6)中,Ni、Np、Nq分别表示图结构中连接第i个用户、第p个用户和第q个用户的边数;λ是由式(7)表征的均衡系数:式(7)中,ep表示第p个元素为1的指示向量,eq表示第q个元素为1的指示向量;利用块坐标下降算法,针对所述聚类目标函数C按如下方式进行迭代优化:利用式(8)计算得到辅助变量lp,q的最优取值,记为:最优辅助变量式(8)中,μ每经过四次迭代即衰减为原来的一半;根据式(8)和式(5),针对初始化特征矩阵G求偏导,获得特征矩阵G*,G*=[G*1,...,G*p,...,G*q,...,G*n]。进一步的,所述利用特征矩阵构建图结构,从图结构的连通分支中确定隐式群体,包括:利用特征矩阵G*构建图结构,所述图结构中形成边的两个用户的特征向量满足式(9),δ为阈值,最终从图结构的连通分支中得到隐式群体。(三)有益效果本专利技术公开了一种基于在线社交用户隐特征的隐式群体发现方法,通过针对社交网络构建用户社交关系矩阵;利用稀疏自编码器学习用户社交关系的隐特征;利用隐藏层输出编码矩阵进行鲁棒性连续聚类;利用较优的特征矩阵构建图结构,从图结构的连通分支中确定隐式群体。本专利技术通过发现用户连接的内在机理,从隐特征角度考虑用户间的连接关系,其更加符合真实隐性群体聚合情况,实现了更精准的隐式用户群体的发现。附图说明图1为本专利技术流程示意图;图2为本专利技术中稀疏自编码器结构图;图3为本专利技术中Eu-email社交网络数据集的群体发现结果可视化图。具体实施方式为使本专利技术实施例的目的、技术方案和优点更本文档来自技高网
...

【技术保护点】
1.一种基于在线社交用户隐特征的隐式群体发现方法,其特征在于,包括以下步骤:针对社交网络构建用户社交关系矩阵;利用稀疏自编码器学习用户社交关系的隐特征;利用隐藏层输出编码矩阵进行鲁棒性连续聚类;利用特征矩阵构建图结构,从图结构的连通分支中确定隐式群体。

【技术特征摘要】
1.一种基于在线社交用户隐特征的隐式群体发现方法,其特征在于,包括以下步骤:针对社交网络构建用户社交关系矩阵;利用稀疏自编码器学习用户社交关系的隐特征;利用隐藏层输出编码矩阵进行鲁棒性连续聚类;利用特征矩阵构建图结构,从图结构的连通分支中确定隐式群体。2.如权利要求1所述的基于在线社交用户隐特征的隐式群体发现方法,其特征在于,所述稀疏自编码器是包括输入层、隐藏层和输出层的三层神经网络。3.如权利要求2所述的基于在线社交用户隐特征的隐式群体发现方法,其特征在于,所述针对社交网络构建用户社交关系矩阵,包括:将社交网络中的用户集合记为U,U={u1,...,ui,...,uj,...un},n为用户数量;以Rij表达社交网络中第i个用户ui和第j个用户uj之间的关系,1<i<n,1<j<n;定义Rii=1;若用户ui和用户uj在所述社交网络中存在连接关系,则Rij=1,否则Rij=0;获得由式(1)所表征的n×n的用户社交关系矩阵R:4.如权利要求3所述的基于在线社交用户隐特征的隐式群体发现方法,其特征在于,所述利用稀疏自编码器学习用户社交关系的隐特征,包括以所构建的用户社交关系矩阵R作为所述稀疏自编码器的输入矩阵,由式(2)所表征的函数获得稀疏自编码器中的隐藏层输出编码矩阵:E=f(RWT+b)=[F1,...,Fi,...,Fn]={Fi1,...,Fih,...,Fid}(2),式(2)中,E是用户社交关系矩阵R在稀疏自编码器中的n×d的隐藏层输出编码矩阵,n是用户数量,d是用户隐特征数;Fi表示第i个用户的特征值向量,1<i<n;Fih表示第i个用户的第h个特征值,1<h<d;f(·)是选择为双曲正切函数的激活函数;W是用户社交关系矩阵R的权重矩阵;b是m×d的偏差矩阵,T表示矩阵转置;将隐藏层输出编码矩阵E输入到稀疏自编码器的输出层,由式(3)所表征的函数获得稀疏自编码器输出矩阵:式(3)中,是n×n的稀疏自编码器输出矩阵;g(·)是选择为Sigmoid函数的激活函数,是隐藏层输出编码矩阵E的权重矩阵,是m×m的矩阵形式的偏差向量;针对所述稀疏自编码器构建由式(4)所表征的误差训练目标函数...

【专利技术属性】
技术研发人员:刘业政贺菲菲田志强姜元春孙见山
申请(专利权)人:合肥工业大学
类型:发明
国别省市:安徽,34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1