主题层次高影响力用户的获取方法和系统技术方案

技术编号：22055587 阅读：43 留言：0更新日期：2019-09-07 15:22

本发明专利技术提供主题层次高影响力用户的获取方法和系统，涉及数据处理技术领域。本发明专利技术结合社交网络两个方面的用户数据信息：用户链接信息和用户文本信息，提出一种有参贝叶斯模型—稀疏链接主题模型，稀疏链接主题模型基于用户感兴趣的焦点主题进行构建和训练，替代原有用户对主题具有广泛关注的假设，这样模型对数据分析的结果才更贴近实际情况，能够更准确地发现主题层次高影响力用户，从而更好地发掘用户的社会关系与实际需求。

Acquisition Method and System for High-impact Users at Theme Level

全部详细技术资料下载

【技术实现步骤摘要】
主题层次高影响力用户的获取方法和系统
本专利技术涉及数据处理
，具体涉及一种主题层次高影响力用户的获取方法和系统。
技术介绍
随着在线社交网络的不断发展，如微博、Facebook、Twitter和学术网站等正在成为非常受欢迎的社交平台。来自这些平台的用户建立了自己的社交网络，并协同创作内容。面对这些可用的网络数据，发现主题层次的高影响力用户对于个性化营销、推荐和信息检索等实际场景具有很高的应用价值。近年来，社交影响力建模正成为社交网络研究的一个重要领域，已经不同的方法被提出用来推断用户影响力。为了分析主题层次高影响力的用户，更好地发掘用户的社会关系与实际需求。在假设用户对所有主题具有广泛关注的基础上，不同方法被提出用于分析该问题。主要的方法有可以同时检测主题和推断用户影响力的Link-LDA；以及考虑用户关注其他用户的不同原因，基于Link-LDA提出了follow-lda(FLDA)。然而，无论是Link-LDA还是基于Link-LDA提出的FLDA，均是基于用户对主题具有广泛关注的假设分析主题层次高影响力用户(而实情况是每个用户只会关注到有限个主题)，这...

【技术保护点】
1.一种主题层次高影响力用户的获取方法，其特征在于，所述方法由计算机执行，包括以下步骤：S1、基于预训练的稀疏链接主题模型，获取待测社交网络中的所有用户的主题分布、所有主题下词分布和所有主题下链接分布；S2、基于所述所有用户的主题分布、所述所有主题下词分布和所述所有主题下链接分布计算各用户在各主题下所占权重；S3、基于所述用户在主题下所占权重，选取主题层次高影响力的用户；其中，所述稀疏链接主题模型的预训练包括以下步骤：A1、基于社交网络中用户信息、用户文本信息以及用户链接信息，构建全局社交网络；A2、确定全局社交网络中的主题数量K；A3、基于所述主题数量K、用户信息、用户文本信息以及用户链接信...

【技术特征摘要】
1.一种主题层次高影响力用户的获取方法，其特征在于，所述方法由计算机执行，包括以下步骤：S1、基于预训练的稀疏链接主题模型，获取待测社交网络中的所有用户的主题分布、所有主题下词分布和所有主题下链接分布；S2、基于所述所有用户的主题分布、所述所有主题下词分布和所述所有主题下链接分布计算各用户在各主题下所占权重；S3、基于所述用户在主题下所占权重，选取主题层次高影响力的用户；其中，所述稀疏链接主题模型的预训练包括以下步骤：A1、基于社交网络中用户信息、用户文本信息以及用户链接信息，构建全局社交网络；A2、确定全局社交网络中的主题数量K；A3、基于所述主题数量K、用户信息、用户文本信息以及用户链接信息确定各个用户在K个主题中感兴趣的焦点主题；A4、基于各个用户在K个主题中感兴趣的焦点主题的分布，获取用户文本信息与主题下链接分布的关系，完成所述稀疏链接主题模型的训练。2.如权利要求1所述的主题层次高影响力用户的获取方法，其特征在于，所述A1具体包括：A101、获取社交网络中M个用户的文本信息，构成文本集合，将第m个用户对应的文本表示成Lm个词，记为wmi表示第m个用户发表的第i个词，整个社交网络中所有文本信息记为A102、获取社交网络中用户的链接关系，将第m个用户的链接关系表示成Nm条边，记为其中emj表示第j条边链接到的用户，整个社交网络中所有链接信息记为A103、构建包含用户文本信息w与链接信息e的全局社交网络G＝(u,w,e)，其中u＝(u1,u2,…,um,…,uM)，表示全局社交网络中M个用户。3.如权利要求2所述的主题层次高影响力用户的获取方法，其特征在于，所述A3具体包括：A301、对于全局社交网络中的K个主题，按照公式(1)分别抽取主题下的词分布与链接分布式(1)中，服从狄利克雷分布，表示全局社交网络中主题k的词分布；服从狄利克雷分布，表示主题k下的链接分布；全局社交网络中所有主题下的词分布记为全局社交网络中所有主题的链接分布记为向量其中：φkv表示词v在主题k下所有词中所占权重；V是文本w中所有不重复词的总数，即向量的维度；表示用户e在主题k下所占权重，用来衡量主题k层次下用户e影响力的大小；E表示全局社交网络中被链接到的不重复用户总数，即的维度；β与β1是分布的超参数；A302、对于全局社交网络中用户，按照公式(2)生成用户在K个主题中感兴趣的焦点主题，确定先验分布的参数生成主题分布其中：bm,k是二元指示变量，服从伯努利分布，表示主题k是否为焦点主题，其中：表示第m个用户的主题关注情况，记b＝(b1,b2,…,bM)；期望E(bm,k)＝πm，πm服从参数为ε0,ε1的Beta分布，πm与构成Beta-Multinomial共轭；表示用户m的主题分布，服从参数为的狄利克雷分布；θmk表示用户m在主题k上的兴趣权重，所有用户的主题分布记为向量α0与α1为分布的超参数，α0≤α1，是与维度相同且每个维度均为1的向量。4.如权利要求3所述的主题层次高影响力用户的获取方法，其特征在于，所述A4具体包括：基于各个用户在K个主题中感兴趣的焦点主题的分布，利用公式(4)获取用户文本信息与主题下链接分布的关系；其中：zmi服从多项式分布，表示第m个用户的第i个词的主题编号；表示主题编号为zmi的词分布；对应的主题编号为与构成Dirichlet-Multinomial共轭；fmj服从多项式分布，表示第m个用户的第j条边的主题编号；表示主题编号为fmj的链接分布；对应的主题编号为与构成Dirichlet-Multinomial共轭；全局社交网络中所有词的主题编号记为向量所有边的主题编号记为向量5.如权利要求4所述的主题层次高影响力用户的获取方法，其特征在于，所述S1具体包括：将待测社交网络输入到预训练的稀...

【专利技术属性】
技术研发人员：姜元春，梁瑞成，钱洋，刘业政，孙见山，孙春华，陶丹丹，毕文亮，汪文娟，陶守正，
申请(专利权)人：合肥工业大学，
类型：发明
国别省市：安徽,34

全部详细技术资料下载我是这个专利的主人