一种基于节点表示的主题社团发现方法技术

技术编号:22169408 阅读:43 留言:0更新日期:2019-09-21 11:40
本发明专利技术公开了一种基于节点表示的主题社团发现方法,包括以下步骤:1)基于用户文本模型和社交关系模型对用户节点进行表示;2)利用用户文本模型及社交关系模型中的用户节点特征,建立基于节点向量、社团向量及社团发现共同优化的主题社团发现模型,并利用该主题社团发现模型进行主题社团的发现;3)基于步骤2)得到的主题社团发现的结果,将每个用户节点划分到不同的社团中,再通过作者主题模型得到每个用户的主题分布特征,然后利用每个用户的主题分布特征对所有用户的主题分布取均值,进而得到每个社团的主题特征,完成基于节点表示的主题社团发现,该方法能够综合考虑用户节点向量、社团向量及社团发现实现主题社团的发现。

A Node Representation-based Method for Discovering Theme Clubs

【技术实现步骤摘要】
一种基于节点表示的主题社团发现方法
本专利技术涉及一种主题社团发现方法,具体涉及一种基于节点表示的主题社团发现方法。
技术介绍
随着社交媒体的迅速发展,在线社交网络对人们的信息获取、思考及生活方式等诸多方面都在产生着不可低估的影响。社交网络已成为我们生活中重要的一种信息载体和形式,具有很高的研究价值.,对它的分析能够应用于节点分类、链接预测、社团发现等任务。同时,人们在社交网络中参与的社团活动也在快速地增长,有共同兴趣爱好的用户会在一起分享自己的想法、观念以及专业见解,交互共同的话题内容,形成主题社团。它能帮助研究者了解用户的兴趣特点,辅助进行个性化服务、社会推荐等任务。在市场营销、选举、股票指数等诸多现实的应用场景中,主题社团都体现着它的意义和重要性。目前的社团发现方法可总结为以下三类:(1)基于用户之间链接关系的社团发现方法。这种方法通常从拓扑结构考虑,利用图论的基本思想划分网络来发现社区,如图划分、层次聚类、谱聚类等算法。(2)基于用户生成内容的社团发现方法。基于用户本身属性、文本内容等信息将用户聚类从而识别出潜在的社团。此类方法不考虑用户之间的链接关系,只借助用户产生的内容。(3)基于链接关系和文本内容的社团发现方法。该类方法同时考虑用户之间的关系以及用户产生的内容聚类并发现潜在社团,以往的主题社团发现方法大多以概率模型为基础建模,然而没有考虑用户节点向量、社团向量及社团发现实现主题社团的发现
技术实现思路
本专利技术的目的在于克服上述现有技术的缺点,提供了一种基于节点表示的主题社团发现方法,该方法能够综合考虑用户节点向量、社团向量及社团发现实现主题社团的发现。为达到上述目的,本专利技术所述的基于节点表示的主题社团发现方法包括以下步骤:1)基于用户文本模型和社交关系模型对用户节点进行表示;2)利用用户文本模型及社交关系模型中的用户节点特征,建立基于节点向量、社团向量及社团发现共同优化的主题社团发现模型,并利用基于节点向量、社团向量及社团发现共同优化的主题社团发现模型进行主题社团的发现;3)基于步骤2)得到的主题社团发现的结果,将每个用户节点划分到不同的社团中,再通过作者主题模型得到每个用户的主题分布特征,然后利用每个用户的主题分布特征对所有用户的主题分布取均值,进而得到每个社团的主题特征,完成基于节点表示的主题社团发现。所述基于用户文本模型和社交关系模型对用户节点进行表示包括基于文本学习进行用户特征的表示、基于社交关系进行用户特征的表示以及基于用户的文本与社交关系进行用户特征的表示。基于文本学习进行用户特征的表示的具体过程为:对于每个用户vi∈V,设为用户发布的文本构成的词序列,NS为S中词的个数,C(w)为词w的前t个词所构成的上下文,设每个词wi生成的概率与与其邻接词组成的上下文C(wi)及其所属文本的用户vi有关,则有:其中,k维向量表示需要学习的用户vi的特征向量,每个词wi在用户文本模型中以词向量作为输入,为词典集合,xAvg为上下文中所有词的词向量以及用户的特征向量的加和平均,用户的特征向量与词向量维度相同;给定用户vi,则其所有文本texti生成的概率为:以使得式(3)计算得到的概率最大化为目标,建立目标函数为:令用户的特征表示的梯度为:基于社交关系进行用户特征的表示的具体过程为:设Gi={v|g(v,vi)=1}表示与用户vi有社交关系的其他用户的集合,g(v,vi)=1表示用户vi与用户v是朋友,在社交网络中用户vi与用户v对应的节点有边相连,g(v,vi)=0表示用户vi与用户v之间不存在联系,P(Gi|vi)为用户vi的社交关系的似然概率,则有:其中,表示用户vi作为社交关系模型输入去预测其他用户时的向量表示,φ′v为用户vi社交关系中用户v作为被预测对象时的向量表示,以使得式(11)计算得到的概率最大化为目标,建立目标函数为:令则将用户vi社交关系中每个用户v对应向量表示φv的梯度更新为:基于用户的文本与社交关系进行用户特征的表示的具体过程为:基于用户的文本与社交关系,得最终的目标函数为:其中,Φ为用户作为输入时的向量表示,Φ′为用户作为被预测对象时的向量表示,E为所有用户的文本信息构成的语料中所有词构成的词向量矩阵,E′为词作为被预测对象时的词向量矩阵。设G=(V,E)表示社交网络,V为社交网络中节点的集合,E为边的集合;设社交网络G中包含K个社团,对于每个节点vi∈V,zi为其所属社团编号,zi∈{1,2,...,K},基于高斯混合模型,设定一个社团k的向量表示为低维空间中的一组向量(ψk,∑k),其中,k∈{1,2,...,K},为高斯混合模型的均值向量,为高斯混合模型的协方差矩阵;对于每个节点向量φi,其所属社团zi=k,则其由社团k对应的多元高斯分布产生,对于在节点集合V中的所有节点,建立如式(21)所述的似然概率,其中,:其中,p(zi=k)表示节点vi属于社团k的概率,记为在社团发现的过程中,πik属于隐变量,p(vi|zi=k;φi,ψk,∑k)表示从社团k对应的高斯分布生成节点vi的概率,其中,使用EM算法对式(20)中的参数进行求解,得每个节点vi属于每个社团k的概率πik以及每个社团对应的子高斯分布的参数(ψk,∑k)。对任意一个节点vi,其文本信息为texti,wj∈texti为其文本的单词,节点vi的优化目标为:其中,表示词wj作为被预测对象时的向量表示,为用户节点向量φi与词wj的上下文中的词向量加和平均,即:wl~Pn(wl)表示对任意负样本词wl进行负采样,对所有训练样本节点,通过最小化式(25)所述的目标函数来学习保存文本语义信息的节点表示,即考虑节点的社交网络的结构特征,采用DeepWalk算法对每一个节点通过随机游走的方式生成节点序列,设对任意一个节点vi,其上下文为Ci,vj∈Ci为其上下文中的节点,则其优化目标为:其中,表示节点vi向量表示,表示其上下文的向量表示,vl~Pn(vl)表示负采样过程,即对任意负样本节点vl以概率Pn(vl)进行采样,对所有训练样本节点,通过最小化式(27)所示的目标函数来学习保存网络结构信息的节点表示,即其中,α为超参数,α>0;对式(21),定义通过式(28)所示的目标函数来实现社团发现以及社团向量的优化,同时增强节点向量表示的社团关系特征,即其中,β为超参数,β>0;结合用户节点表示优化以及社团发现与社团节点表示过程的优化,建立最终的目标函数为:其中,E={e}为单词作为输入时的词向量矩阵,E′={e′}为单词作为被预测对象时的词向量矩阵,Ф={φi}为用户节点的向量矩阵,Ф′={φ′i}为上下文用户节点的向量矩阵,П={πik},Ψ={ψk},∑={∑k},i=1,2,...,|V|,k=1,2,...,|K|;则将最终的目标函数转变为:其中,diag(∑k)返回的是∑k的对角元素,约束diag(∑k)>0的作用为避免在优化时的奇点问题。本专利技术具有以下有益效果:本专利技术所述的基于节点表示的主题社团发现方法在具体操作时,通过建立基于节点向量、社团向量及社团发现共同优化的主题社团发现模型,并该主题社团发现模型进行主题社团的发现,然后通过作者主题模型得到每个用户的主题分布特征,并以此获取每个社团的主题本文档来自技高网...

【技术保护点】
1.一种基于节点表示的主题社团发现方法,其特征在于,包括以下步骤:1)基于用户文本模型和社交关系模型对用户节点进行表示;2)利用用户文本模型及社交关系模型中的用户节点特征,建立基于节点向量、社团向量及社团发现共同优化的主题社团发现模型,并利用基于节点向量、社团向量及社团发现共同优化的主题社团发现模型进行主题社团的发现;3)基于步骤2)得到的主题社团发现的结果,将每个用户节点划分到不同的社团中,再通过作者主题模型得到每个用户的主题分布特征,然后利用每个用户的主题分布特征对所有用户的主题分布取均值,进而得到每个社团的主题特征,完成基于节点表示的主题社团发现。

【技术特征摘要】
1.一种基于节点表示的主题社团发现方法,其特征在于,包括以下步骤:1)基于用户文本模型和社交关系模型对用户节点进行表示;2)利用用户文本模型及社交关系模型中的用户节点特征,建立基于节点向量、社团向量及社团发现共同优化的主题社团发现模型,并利用基于节点向量、社团向量及社团发现共同优化的主题社团发现模型进行主题社团的发现;3)基于步骤2)得到的主题社团发现的结果,将每个用户节点划分到不同的社团中,再通过作者主题模型得到每个用户的主题分布特征,然后利用每个用户的主题分布特征对所有用户的主题分布取均值,进而得到每个社团的主题特征,完成基于节点表示的主题社团发现。2.根据权利要求1所述的基于节点表示的主题社团发现方法,其特征在于,所述基于用户文本模型和社交关系模型对用户节点进行表示包括基于文本学习进行用户特征的表示、基于社交关系进行用户特征的表示以及基于用户的文本与社交关系进行用户特征的表示。3.根据权利要求2所述的基于节点表示的主题社团发现方法,其特征在于,基于文本学习进行用户特征的表示的具体过程为:对于每个用户vi∈V,设为用户发布的文本构成的词序列,NS为S中词的个数,C(w)为词w的前t个词所构成的上下文,设每个词wi生成的概率与与其邻接词组成的上下文C(wi)及其所属文本的用户vi有关,则有:其中,k维向量表示需要学习的用户vi的特征向量,每个词wi在用户文本模型中以词向量作为输入,为词典集合,xAvg为上下文中所有词的词向量以及用户的特征向量的加和平均,用户的特征向量与词向量维度相同;给定用户vi,则其所有文本texti生成的概率为:以使得式(3)计算得到的概率最大化为目标,建立目标函数为:令用户的特征表示的梯度为:4.根据权利要求3所述的基于节点表示的主题社团发现方法,其特征在于,基于社交关系进行用户特征的表示的具体过程为:设Gi={v|g(v,vi)=1}表示与用户vi有社交关系的其他用户的集合,g(v,vi)=1表示用户vi与用户v是朋友,在社交网络中用户vi与用户v对应的节点有边相连,g(v,vi)=0表示用户vi与用户v之间不存在联系,P(Gi|vi)为用户vi的社交关系的似然概率,则有:其中,表示用户vi作为社交关系模型输入去预测其他用户时的向量表示,φ′v为用户vi社交关系中用户v作为被预测对象时的向量表示,以使得式(11)计算得到的概率最大化为目标,建立目标函数为:令则将用户vi社交关系中每个用户v对应向量表示φv的梯度更新为:5.根据权利要求4所述的基于节点表示的主题社团发现方法,其特征在于,基于用户的文本与社交关系进行用户特征的表示的具体过程为:基于用户的文本与社交关系,得最终的目标函数为:其中,Φ为用户作为输入时的向量表示,Φ′为用户作为被预测对象时的向量表示,E为所有用户的文本信息构成的语料中所有词构成的词向量矩阵,E′为词作...

【专利技术属性】
技术研发人员:罗敏楠陈妍薛辉郑庆华陈运帷
申请(专利权)人:西安交通大学
类型:发明
国别省市:陕西,61

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1