一种基于节点表示的主题社团发现方法技术

技术编号：22169408 阅读：43 留言：0更新日期：2019-09-21 11:40

本发明专利技术公开了一种基于节点表示的主题社团发现方法，包括以下步骤：1)基于用户文本模型和社交关系模型对用户节点进行表示；2)利用用户文本模型及社交关系模型中的用户节点特征，建立基于节点向量、社团向量及社团发现共同优化的主题社团发现模型，并利用该主题社团发现模型进行主题社团的发现；3)基于步骤2)得到的主题社团发现的结果，将每个用户节点划分到不同的社团中，再通过作者主题模型得到每个用户的主题分布特征，然后利用每个用户的主题分布特征对所有用户的主题分布取均值，进而得到每个社团的主题特征，完成基于节点表示的主题社团发现，该方法能够综合考虑用户节点向量、社团向量及社团发现实现主题社团的发现。

A Node Representation-based Method for Discovering Theme Clubs

全部详细技术资料下载

【技术实现步骤摘要】
一种基于节点表示的主题社团发现方法
本专利技术涉及一种主题社团发现方法，具体涉及一种基于节点表示的主题社团发现方法。
技术介绍
随着社交媒体的迅速发展，在线社交网络对人们的信息获取、思考及生活方式等诸多方面都在产生着不可低估的影响。社交网络已成为我们生活中重要的一种信息载体和形式，具有很高的研究价值.，对它的分析能够应用于节点分类、链接预测、社团发现等任务。同时，人们在社交网络中参与的社团活动也在快速地增长，有共同兴趣爱好的用户会在一起分享自己的想法、观念以及专业见解，交互共同的话题内容，形成主题社团。它能帮助研究者了解用户的兴趣特点，辅助进行个性化服务、社会推荐等任务。在市场营销、选举、股票指数等诸多现实的应用场景中，主题社团都体现着它的意义和重要性。目前的社团发现方法可总结为以下三类：(1)基于用户之间链接关系的社团发现方法。这种方法通常从拓扑结构考虑，利用图论的基本思想划分网络来发现社区，如图划分、层次聚类、谱聚类等算法。(2)基于用户生成内容的社团发现方法。基于用户本身属性、文本内容等信息将用户聚类从而识别出潜在的社团。此类方法不考虑用户之间的链接关系，只借助用户产生的内容。(3)基于链接关系和文本内容的社团发现方法。该类方法同时考虑用户之间的关系以及用户产生的内容聚类并发现潜在社团，以往的主题社团发现方法大多以概率模型为基础建模，然而没有考虑用户节点向量、社团向量及社团发现实现主题社团的发现
技术实现思路
本专利技术的目的在于克服上述现有技术的缺点，提供了一种基于节点表示的主题社团发现方法，该方法能够综合考虑用户节点向量、社团向量及社团发现实现主题社...

【技术保护点】
1.一种基于节点表示的主题社团发现方法，其特征在于，包括以下步骤：1)基于用户文本模型和社交关系模型对用户节点进行表示；2)利用用户文本模型及社交关系模型中的用户节点特征，建立基于节点向量、社团向量及社团发现共同优化的主题社团发现模型，并利用基于节点向量、社团向量及社团发现共同优化的主题社团发现模型进行主题社团的发现；3)基于步骤2)得到的主题社团发现的结果，将每个用户节点划分到不同的社团中，再通过作者主题模型得到每个用户的主题分布特征，然后利用每个用户的主题分布特征对所有用户的主题分布取均值，进而得到每个社团的主题特征，完成基于节点表示的主题社团发现。

【技术特征摘要】
1.一种基于节点表示的主题社团发现方法，其特征在于，包括以下步骤：1)基于用户文本模型和社交关系模型对用户节点进行表示；2)利用用户文本模型及社交关系模型中的用户节点特征，建立基于节点向量、社团向量及社团发现共同优化的主题社团发现模型，并利用基于节点向量、社团向量及社团发现共同优化的主题社团发现模型进行主题社团的发现；3)基于步骤2)得到的主题社团发现的结果，将每个用户节点划分到不同的社团中，再通过作者主题模型得到每个用户的主题分布特征，然后利用每个用户的主题分布特征对所有用户的主题分布取均值，进而得到每个社团的主题特征，完成基于节点表示的主题社团发现。2.根据权利要求1所述的基于节点表示的主题社团发现方法，其特征在于，所述基于用户文本模型和社交关系模型对用户节点进行表示包括基于文本学习进行用户特征的表示、基于社交关系进行用户特征的表示以及基于用户的文本与社交关系进行用户特征的表示。3.根据权利要求2所述的基于节点表示的主题社团发现方法，其特征在于，基于文本学习进行用户特征的表示的具体过程为：对于每个用户vi∈V，设为用户发布的文本构成的词序列，NS为S中词的个数，C(w)为词w的前t个词所构成的上下文，设每个词wi生成的概率与与其邻接词组成的上下文C(wi)及其所属文本的用户vi有关，则有：其中，k维向量表示需要学习的用户vi的特征向量，每个词wi在用户文本模型中以词向量作为输入，为词典集合，xAvg为上下文中所有词的词向量以及用户的特征向量的加和平均，用户的特征向量与词向量维度相同；给定用户vi，则其所有文本texti生成的概率为：以使得式(3)计算得到的概率最大化为目标，建立目标函数为：令用户的特征表示的梯度为：4.根据权利要求3所述的基于节点表示的主题社团发现方法，其特征在于，基于社交关系进行用户特征的表示的具体过程为：设Gi＝{v|g(v，vi)＝1}表示与用户vi有社交关系的其他用户的集合，g(v，vi)＝1表示用户vi与用户v是朋友，在社交网络中用户vi与用户v对应的节点有边相连，g(v，vi)＝0表示用户vi与用户v之间不存在联系，P(Gi|vi)为用户vi的社交关系的似然概率，则有：其中，表示用户vi作为社交关系模型输入去预测其他用户时的向量表示，φ′v为用户vi社交关系中用户v作为被预测对象时的向量表示，以使得式(11)计算得到的概率最大化为目标，建立目标函数为：令则将用户vi社交关系中每个用户v对应向量表示φv的梯度更新为：5.根据权利要求4所述的基于节点表示的主题社团发现方法，其特征在于，基于用户的文本与社交关系进行用户特征的表示的具体过程为：基于用户的文本与社交关系，得最终的目标函数为：其中，Φ为用户作为输入时的向量表示，Φ′为用户作为被预测对象时的向量表示，E为所有用户的文本信息构成的语料中所有词构成的词向量矩阵，E′为词作...

【专利技术属性】
技术研发人员：罗敏楠，陈妍，薛辉，郑庆华，陈运帷，
申请(专利权)人：西安交通大学，
类型：发明
国别省市：陕西,61

全部详细技术资料下载我是这个专利的主人