主题层次高影响力用户的获取方法和系统技术方案

技术编号:22055587 阅读:30 留言:0更新日期:2019-09-07 15:22
本发明专利技术提供主题层次高影响力用户的获取方法和系统,涉及数据处理技术领域。本发明专利技术结合社交网络两个方面的用户数据信息:用户链接信息和用户文本信息,提出一种有参贝叶斯模型—稀疏链接主题模型,稀疏链接主题模型基于用户感兴趣的焦点主题进行构建和训练,替代原有用户对主题具有广泛关注的假设,这样模型对数据分析的结果才更贴近实际情况,能够更准确地发现主题层次高影响力用户,从而更好地发掘用户的社会关系与实际需求。

Acquisition Method and System for High-impact Users at Theme Level

【技术实现步骤摘要】
主题层次高影响力用户的获取方法和系统
本专利技术涉及数据处理
,具体涉及一种主题层次高影响力用户的获取方法和系统。
技术介绍
随着在线社交网络的不断发展,如微博、Facebook、Twitter和学术网站等正在成为非常受欢迎的社交平台。来自这些平台的用户建立了自己的社交网络,并协同创作内容。面对这些可用的网络数据,发现主题层次的高影响力用户对于个性化营销、推荐和信息检索等实际场景具有很高的应用价值。近年来,社交影响力建模正成为社交网络研究的一个重要领域,已经不同的方法被提出用来推断用户影响力。为了分析主题层次高影响力的用户,更好地发掘用户的社会关系与实际需求。在假设用户对所有主题具有广泛关注的基础上,不同方法被提出用于分析该问题。主要的方法有可以同时检测主题和推断用户影响力的Link-LDA;以及考虑用户关注其他用户的不同原因,基于Link-LDA提出了follow-lda(FLDA)。然而,无论是Link-LDA还是基于Link-LDA提出的FLDA,均是基于用户对主题具有广泛关注的假设分析主题层次高影响力用户(而实情况是每个用户只会关注到有限个主题),这一假设并不符合用户真实情况,因此,Link-LDA和FLDA均不能准确地发现主题层次高影响力用户。(一)解决的技术问题针对现有技术的不足,本专利技术提供了一种主题层次高影响力用户的获取方法和系统,解决了现有技术中存在用户对主题具有广泛关注的假设,不能准确地发现主题层次高影响力的用户的技术问题。(二)技术方案为实现以上目的,本专利技术通过以下技术方案予以实现:本专利技术提供一种主题层次高影响力用户的获取方法,所述方法由计算机执行,包括以下步骤:S1、基于预训练的稀疏链接主题模型,获取待测社交网络中的所有用户的主题分布、所有主题下词分布和所有主题下链接分布;S2、基于所述所有用户的主题分布、所述所有主题下词分布和所述所有主题下链接分布计算各用户在各主题下所占权重;S3、基于所述用户在主题下所占权重,选取主题层次高影响力的用户;其中,所述稀疏链接主题模型的预训练包括以下步骤:A1、基于社交网络中用户信息、用户文本信息以及用户链接信息,构建全局社交网络;A2、确定全局社交网络中的主题数量K;A3、基于所述主题数量K、用户信息、用户文本信息以及用户链接信息确定各个用户在K个主题中感兴趣的焦点主题;A4、基于各个用户在K个主题中感兴趣的焦点主题的分布,获取用户文本信息与主题下链接分布的关系,完成所述稀疏链接主题模型的训练。优选的,所述A1具体包括:A101、获取社交网络中M个用户的文本信息,构成文本集合,将第m个用户对应的文本表示成Lm个词,记为wmi表示第m个用户发表的第i个词,整个社交网络中所有文本信息记为A102、获取社交网络中用户的链接关系,将第m个用户的链接关系表示成Nm条边,记为其中emj表示第j条边链接到的用户,整个社交网络中所有链接信息记为A103、构建包含用户文本信息w与链接信息e的全局社交网络G=(u,w,e),其中u=(u1,u2,…,um,…,uM),表示全局社交网络中M个用户。优选的,所述A3具体包括:A301、对于全局社交网络中的K个主题,按照公式(1)分别抽取主题下的词分布与链接分布式(1)中,服从狄利克雷分布,表示全局社交网络中主题k的词分布;服从狄利克雷分布,表示主题k下的链接分布;全局社交网络中所有主题下的词分布记为全局社交网络中所有主题的链接分布记为向量其中:φkv表示词v在主题k下所有词中所占权重;V是文本w中所有不重复词的总数,即向量的维度;表示用户e在主题k下所占权重,用来衡量主题k层次下用户e影响力的大小;E表示全局社交网络中被链接到的不重复用户总数,即的维度;β与β1是分布的超参数;A302、对于全局社交网络中用户,按照公式(2)生成用户在K个主题中感兴趣的焦点主题,确定先验分布的参数生成主题分布其中:bm,k是二元指示变量,服从伯努利分布,表示主题k是否为焦点主题,其中:表示第m个用户的主题关注情况,记b=(b1,b2,…,bM);期望E(bm,k)=πm,πm服从参数为ε0,ε1的Beta分布,πm与构成Beta-Multinomial共轭;表示用户m的主题分布,服从参数为的狄利克雷分布;θmk表示用户m在主题k上的兴趣权重,所有用户的主题分布记为向量α0与α1为分布的超参数,α0≤α1,是与维度相同且每个维度均为1的向量。优选的,所述A4具体包括:基于各个用户在K个主题中感兴趣的焦点主题的分布,利用公式(4)获取用户文本信息与主题下链接分布的关系;其中:zmi服从多项式分布,表示第m个用户的第i个词的主题编号;表示主题编号为zmi的词分布;对应的主题编号为与构成Dirichlet-Multinomial共轭;fmj服从多项式分布,表示第m个用户的第j条边的主题编号;表示主题编号为fmj的链接分布;对应的主题编号为与构成Dirichlet-Multinomial共轭;全局社交网络中所有词的主题编号记为向量所有边的主题编号记为向量优选的,所述S1具体包括:将待测社交网络输入到预训练的稀疏链接主题模型中,基于坍塌式变分贝叶斯推断算法获取待测社交网络中的所述所有用户的主题分布、所述所有主题下词分布和所述所有主题下链接分布,具体包括:S101、基于贝叶斯法则与共轭先验,得到w,e,z,f,b的联合概率分布,如式(5):其中:Θ=(ε0,ε1α0,α1,β0,β1);表示属于主题k的词中的词v数量的期望;表示属于主题k的边中链接到用户e的边数的期望;表示用户m发表的文本中属于主题k的总词数的期望;表示用户m的边中属于主题k的边数的期望;Am={k:bm,k=1,k∈{1,2,…,K}}表示第个m用户所感兴趣的主题集合;|Am|表示集合中元素个数,即K个主题中是该用户焦点主题的个数;Bm={k:bm,k=0,k∈{1,2,…,K}},|Bm|表示不是该用户焦点主题的个数;Δ运算符定义为:对于K维向量x,Γ(x)为伽马函数;S1011、在坍塌式变分贝叶斯推断算法的框架下,对潜变量z与b,f的联合概率分进行分解,如公式(6):其中:为多项式分布;为伯努利分布;为变分参数,S1012、利用贝叶斯法则与狄利克雷-多项式共轭将主题词分布与边分布进行边缘积分,推导出与如式(7)(8):其中:表示去除用户m链接关系中的第j条边后,属于主题k的总链接数的期望;表示去除用户m发表的文本中的第i个词后,属于主题k的总词数的期望;S1013、利用高斯近似,推导出变分参数如公式(9):其中:其中:k′表示不包括主题k;-mk表示不包含bm,k;i′表示不包括词i;j′表示不包含链接到j的边;S1014、定义变分自由能如公式(12):其中:表示分布的期望;S102、将步骤S101中变分参数随机初始化;S103、根据待测社交网络,对第m个用户利用公式(4)更新与|Am|,完成所有用户所有主题的更新;S104、根据用户发表的词w与链接关系e利用公式(7)(8)更新与S105、重复步骤S103与S104迭代至式(5)所示变分自由能收敛。优选的,所述S2具体包括:根据步骤S1迭代的结果对φkw、进行估计,如公式(13)(14):其中:表示属于主题本文档来自技高网...

【技术保护点】
1.一种主题层次高影响力用户的获取方法,其特征在于,所述方法由计算机执行,包括以下步骤:S1、基于预训练的稀疏链接主题模型,获取待测社交网络中的所有用户的主题分布、所有主题下词分布和所有主题下链接分布;S2、基于所述所有用户的主题分布、所述所有主题下词分布和所述所有主题下链接分布计算各用户在各主题下所占权重;S3、基于所述用户在主题下所占权重,选取主题层次高影响力的用户;其中,所述稀疏链接主题模型的预训练包括以下步骤:A1、基于社交网络中用户信息、用户文本信息以及用户链接信息,构建全局社交网络;A2、确定全局社交网络中的主题数量K;A3、基于所述主题数量K、用户信息、用户文本信息以及用户链接信息确定各个用户在K个主题中感兴趣的焦点主题;A4、基于各个用户在K个主题中感兴趣的焦点主题的分布,获取用户文本信息与主题下链接分布的关系,完成所述稀疏链接主题模型的训练。

【技术特征摘要】
1.一种主题层次高影响力用户的获取方法,其特征在于,所述方法由计算机执行,包括以下步骤:S1、基于预训练的稀疏链接主题模型,获取待测社交网络中的所有用户的主题分布、所有主题下词分布和所有主题下链接分布;S2、基于所述所有用户的主题分布、所述所有主题下词分布和所述所有主题下链接分布计算各用户在各主题下所占权重;S3、基于所述用户在主题下所占权重,选取主题层次高影响力的用户;其中,所述稀疏链接主题模型的预训练包括以下步骤:A1、基于社交网络中用户信息、用户文本信息以及用户链接信息,构建全局社交网络;A2、确定全局社交网络中的主题数量K;A3、基于所述主题数量K、用户信息、用户文本信息以及用户链接信息确定各个用户在K个主题中感兴趣的焦点主题;A4、基于各个用户在K个主题中感兴趣的焦点主题的分布,获取用户文本信息与主题下链接分布的关系,完成所述稀疏链接主题模型的训练。2.如权利要求1所述的主题层次高影响力用户的获取方法,其特征在于,所述A1具体包括:A101、获取社交网络中M个用户的文本信息,构成文本集合,将第m个用户对应的文本表示成Lm个词,记为wmi表示第m个用户发表的第i个词,整个社交网络中所有文本信息记为A102、获取社交网络中用户的链接关系,将第m个用户的链接关系表示成Nm条边,记为其中emj表示第j条边链接到的用户,整个社交网络中所有链接信息记为A103、构建包含用户文本信息w与链接信息e的全局社交网络G=(u,w,e),其中u=(u1,u2,…,um,…,uM),表示全局社交网络中M个用户。3.如权利要求2所述的主题层次高影响力用户的获取方法,其特征在于,所述A3具体包括:A301、对于全局社交网络中的K个主题,按照公式(1)分别抽取主题下的词分布与链接分布式(1)中,服从狄利克雷分布,表示全局社交网络中主题k的词分布;服从狄利克雷分布,表示主题k下的链接分布;全局社交网络中所有主题下的词分布记为全局社交网络中所有主题的链接分布记为向量其中:φkv表示词v在主题k下所有词中所占权重;V是文本w中所有不重复词的总数,即向量的维度;表示用户e在主题k下所占权重,用来衡量主题k层次下用户e影响力的大小;E表示全局社交网络中被链接到的不重复用户总数,即的维度;β与β1是分布的超参数;A302、对于全局社交网络中用户,按照公式(2)生成用户在K个主题中感兴趣的焦点主题,确定先验分布的参数生成主题分布其中:bm,k是二元指示变量,服从伯努利分布,表示主题k是否为焦点主题,其中:表示第m个用户的主题关注情况,记b=(b1,b2,…,bM);期望E(bm,k)=πm,πm服从参数为ε0,ε1的Beta分布,πm与构成Beta-Multinomial共轭;表示用户m的主题分布,服从参数为的狄利克雷分布;θmk表示用户m在主题k上的兴趣权重,所有用户的主题分布记为向量α0与α1为分布的超参数,α0≤α1,是与维度相同且每个维度均为1的向量。4.如权利要求3所述的主题层次高影响力用户的获取方法,其特征在于,所述A4具体包括:基于各个用户在K个主题中感兴趣的焦点主题的分布,利用公式(4)获取用户文本信息与主题下链接分布的关系;其中:zmi服从多项式分布,表示第m个用户的第i个词的主题编号;表示主题编号为zmi的词分布;对应的主题编号为与构成Dirichlet-Multinomial共轭;fmj服从多项式分布,表示第m个用户的第j条边的主题编号;表示主题编号为fmj的链接分布;对应的主题编号为与构成Dirichlet-Multinomial共轭;全局社交网络中所有词的主题编号记为向量所有边的主题编号记为向量5.如权利要求4所述的主题层次高影响力用户的获取方法,其特征在于,所述S1具体包括:将待测社交网络输入到预训练的稀...

【专利技术属性】
技术研发人员:姜元春梁瑞成钱洋刘业政孙见山孙春华陶丹丹毕文亮汪文娟陶守正
申请(专利权)人:合肥工业大学
类型:发明
国别省市:安徽,34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1