基于社交上下文信息的用户转发行为预测方法技术

技术编号:24410302 阅读:25 留言:0更新日期:2020-06-06 08:53
本发明专利技术提出了一种基于社交上下文信息的用户转发行为预测方法,用于解决现有技术中存在的预测准确率较低的技术问题,实现步骤为:(1)收集社交网络中的数据;(2)构建每个用户的社交网络图;(3)计算用户的历史消息的主题概率分布和待预测消息的主题概率分布之间的JS散度;(4)计算用户的成对影响力和结构影响力;(5)获取用户的社交上下文信息;(6)基于社交上下文信息构建逻辑回归模型来预测用户的转发行为。本发明专利技术提出的方法依赖于用户的局部网络结构,将用户转发消息的主题概率分布和结构响力函数作为社交上下文信息集成到逻辑回归模型中,使得本发明专利技术更好地量化了转发行为的影响因素,可以提高用户转发行为的预测准确率。

Prediction method of user forwarding behavior based on social context information

【技术实现步骤摘要】
基于社交上下文信息的用户转发行为预测方法
本专利技术属于社交网络分析及数据挖掘
,涉及一种用户转发行为预测方法,具体涉及一种基于社交上下文信息的用户转发行为预测方法,可用于社交网络中用户转发行为的预测。
技术介绍
随着互联网及社交媒体的发展和普及,社交网络逐渐成为用户进行信息获取、分享和交流的重要平台,极大程度上满足了用户的社交需求,每时每刻都进行着信息的交互。社交网络通过微博、博客、社区等多种途径,实现人与人之间的互联,最终形成了联系紧密的社交圈。社交网络具有传播快、范围广、影响大的特点,成为信息传播的重要途经,转发行为被认为是信息在网络中进行传播的重要机制。社交网络记录了大规模的用户活动数据,这些数据对于用户行为规律具有重要的研究意义和应用价值。目前,对社交网络分析的研究主要包括用户行为分析、社交网络情感分析、信息传播规律、影响力最大化等方面,其中,用户转发行为预测方法可以为推荐系统、个性化搜索和市场营销等应用提供保障。因此,转发行为预测建模成为研究者们关注的热点问题。用户转发行为的分析是实现转发行为预测的基础,想要判断给定的用户是否会转发待预测的消息,首先需要分析影响用户转发与否的因素,继而将这些因素用合理的数学模型表示,并通过机器学习方法进行模型训练,最后完成预测任务。用户转发行为预测的首要任务是分析和探索影响用户转发行为的主要驱动因素。因此,基于数据统计的定性分析方法集中挖掘对用户转发行为产生影响的一些主要因素,如粉丝数、关注数、用户是否认证、用户兴趣偏好、消息文本内容的话题分布和情感倾向性等,这些前期定性分析为后面的转发行为影响因素量化研究奠定了坚实的建模基础。研究用户的行为预测这个问题,现有的解决方案大多都集中于将影响因素作为特征加入预测模型,而对于预测模型而言,许多研究将用户行为预测问题视作二分类问题。例如,申请公布号为CN107341571A,名称为“一种基于量化社会影响力的社交网络用户行为预测方法”,公开了一种基于量化社会影响力的社交网络用户行为预测方法,该方法包括数据爬取、数据预处理、构建网络图、用户兴趣提取、用户间影响力量化、预测建模及模型训练评估。该方法存在的不足之处是:社交网络用户行为预测方法中只是通过用户的兴趣量化社交影响力来推测用户的行为,没有充分考虑接收消息的及时性和活跃邻居形成的圈子数量对目标用户的影响,缺乏对用户交互行为的多元性和动态性的研究,降低了用户行为预测的准确性。
技术实现思路
本专利技术的目的在于克服上述现有技术的不足,提出了一种基于社交上下文信息的用户转发行为预测方法,用于解决现有技术中存在的用户转发行为预测准确率较低的技术问题。为实现上述目的,本专利技术采取的技术方案包括如下步骤:(1)收集社交网络中的数据:(1a)随机选取社交网络中一个用户作为种子用户,并爬取该种子用户的关注用户,组成第一关注用户集合;(1b)爬取第一关注用户集合中每个关注用户的关注用户,组成第二关注用户集合,并将种子用户、第一关注用户集合和第二关注用户集合组成用户集合U;(1c)爬取用户集合U中每个用户vi在连续t个时间段发布的文本消息,并对所有的文本消息进行预处理,然后将前t-1个时间段发布的经过预处理所获取的的分词集合作为用户的历史消息,将第t个时间段发布的M条文本消息经过预处理所获取的分词集合作为M条待预测消息,M≥500;(2)构建每个用户的社交网络图Gi:以用户集合U中的每个用户vi以及vi的关注用户为节点,以关注用户指向被关注用户的关注关系为有向边构建vi的社交网络图Gi,有向边对应的权重为关注用户对被关注用户所发布的文本消息的转发概率;(3)计算用户vi的历史消息的主题概率分布和待预测消息的主题概率分布之间的JS散度JSD(Pv||Pm):(3a)将用户vi的历史消息和M条待预测消息分别作为LDA主题生成模型的输入,计算vi的历史消息的主题概率分布Pv和每条待预测消息的主题概率分布Pm,(3b)计算用户vi的历史消息的主题概率分布Pv与待预测消息的主题概率分布Pm的JS散度JSD(Pv||Pm):其中,Pv(k)表示第k个主题生成用户兴趣文档的概率,Pa(k)表示Pa中的第k个概率值,∑表示求和操作,K表示LDA主题生成模型的主题个数,k=1,2,...,K;(4)计算用户vi的成对影响力f(V,Gi)和结构影响力(4a)以社交网络图Gi中的节点vi为出发点,沿Gi中的有向边随机游走,以第一概率随机选择与节点vi相邻的边,并沿该边移动到下一节点,或者以第二概率返回节点vi后,以下一个节点或节点vi为出发点重复随机游走过程,经过迭代直至社交网络图Gi中每个节点的概率值达到稳定状态,得到节点vi到其他节点vj,即其他节点vj对节点vi的影响力Infij的稳定概率分布;(4b)计算用户vi的成对影响力f(V,Gi)和结构影响力其中,V表示用户vi的关注用户节点集合,表示在第t时间段转发用户vi发布的文本消息的用户所组成的活跃邻居集合,表示用户vj转发消息与用户vi转发消息的时间差,vj∈V,a表示平衡因子参数,μ表示衰减因子参数,表示所形成的社交圈的集合;(5)获取用户vi的社交上下文信息Xi,m:计算用户vi的局部影响力并将和JS散度JSD(Pv||Pm)作为用户vi的社交上下文信息Xi,m:其中,δ表示平衡f(V,Gi)和权重的参数;(6)基于社交上下文信息Xi,m获取用户vi的转发行为的预测结果:(6a)将步骤(1)中收集到的半数以上数据对应的社交上下文信息作为训练集,其余数据对应的社交上下文信息作为测试集;(6b)将训练集作为逻辑回归分类模型h(X)的输入,并通过似然函数L(β),采用梯度下降法进行迭代训练,得到训练好的逻辑回归分类模型h(X)';(6c)将测试集作为训练好的逻辑回归分类模型h(X)'的输入,对用户的转发行为进行预测,并对预测结果与预先设置的阈值进行比较,当预测结果大于等于预先设置的阈值时,则用户vi在第t时间段转发了消息m,否则,用户vi在第t时间段没有转发消息m。本专利技术与现有技术相比,具有如下优点:本专利技术通过分析社交上下文信息,将社交网络中用户发布的历史消息与待预测消息的主题概率分布的相似性,以及社交网络的局部影响力作为用户转发行为的影响因素,来预测社交网络中用户的转发行为,本专利技术的建模思想更符合社交网络中用户转发行为的真实场景,充分考虑接收消息的及时性和活跃邻居形成的圈子数量对目标用户转发行为的影响,更好地捕捉了用户转发行为的外在影响因素,克服了现有方法仅考虑单一方面的影响因素的问题,可以有效提高用户转发行为的预测准确率。附图说明图1为本专利技术的实现流程图;图2为本专利技术用户v1的社交网络图G1。具体实施方式以下结合附图和具体实施例,对本专利技术作进一步详细描述:...

【技术保护点】
1.一种基于社交上下文信息的用户转发行为预测方法,其特征在于,包括如下步骤:/n(1)收集社交网络中的数据:/n(1a)随机选取社交网络中一个用户作为种子用户,并爬取该种子用户的关注用户,组成第一关注用户集合;/n(1b)爬取第一关注用户集合中每个关注用户的关注用户,组成第二关注用户集合,并将种子用户、第一关注用户集合和第二关注用户集合组成用户集合U;/n(1c)爬取用户集合U中每个用户v

【技术特征摘要】
1.一种基于社交上下文信息的用户转发行为预测方法,其特征在于,包括如下步骤:
(1)收集社交网络中的数据:
(1a)随机选取社交网络中一个用户作为种子用户,并爬取该种子用户的关注用户,组成第一关注用户集合;
(1b)爬取第一关注用户集合中每个关注用户的关注用户,组成第二关注用户集合,并将种子用户、第一关注用户集合和第二关注用户集合组成用户集合U;
(1c)爬取用户集合U中每个用户vi在连续t个时间段发布的文本消息,并对所有的文本消息进行预处理,然后将前t-1个时间段发布的经过预处理所获取的的分词集合作为用户的历史消息,将第t个时间段发布的M条文本消息经过预处理所获取的分词集合作为M条待预测消息,M≥500;
(2)构建每个用户的社交网络图Gi:
以用户集合U中的每个用户vi以及vi的关注用户为节点,以关注用户指向被关注用户的关注关系为有向边构建vi的社交网络图Gi,有向边对应的权重为关注用户对被关注用户所发布的文本消息的转发概率;
(3)计算用户vi的历史消息的主题概率分布和待预测消息的主题概率分布之间的JS散度JSD(Pv||Pm):
(3a)将用户vi的历史消息和M条待预测消息分别作为LDA主题生成模型的输入,计算vi的历史消息的主题概率分布Pv和每条待预测消息的主题概率分布Pm,
(3b)计算用户vi的历史消息的主题概率分布Pv与待预测消息的主题概率分布Pm的JS散度JSD(Pv||Pm):






其中,Pv(k)表示第k个主题生成用户兴趣文档的概率,Pa(k)表示Pa中的第k个概率值,∑表示求和操作,K表示LDA主题生成模型的主题个数,k=1,2,...,K;
(4)计算用户vi的成对影响力f(V,Gi)和结构影响力
(4a)以社交网络图Gi中的节点vi为出发点,沿Gi中的有向边随机游走,以第一概率随机选择与节点vi相邻的边,并沿该边移动到下一节点,或者以第二概率返回节点vi后,以下一个节点或节点vi为出发点重复随机游走过程,经过迭代直至社交网络图Gi中每个节点的概率值达到稳定状态,得到节点vi到其他节点vj,即其他节点vj对节点vi的影响力Infij的稳定概率分布;
(4b)计算用户vi的成对影响力f(V,Gi)和结构影响力






其中,V表示用户vi的关注用户节点集合,表示在第t时间段转发用户vi发布的文本消息的用户所组成的活跃邻居集合,表示用户vj转发消息与用户vi转发消息的时间差,vj∈V,a表示平衡因子参数,μ表示衰减因子参数,表示所形成的社交圈的集合;
(5)获取用户vi的社交上下文信息Xi,m:
计算用户vi的局部影响力并将和JS散度JSD(Pv||Pm)作为用户vi的社交上下文信息Xi,m:



其中,δ表示平衡f(V,Gi)和权重的参数;
(6)基于社交上下文信息Xi,m获取用户vi的转发行为的预测结果:
(6a)将步骤(1)中收集到的半数以上数据对应的社交上下文信息作为训练集,其余数据对应的社交上下文信息作为测试集;
(6b)将训练集作为逻辑回归分类模型h(X)的输入,并通过似然函数L(β),采用梯度下降法进行迭代训练,得到训练好的逻辑回归分类模型h(X)';
(6c)将测试集作为训练好的逻辑回归分类模型h(X)'的输入,对用户的转发行为进行预测,并对预测结果与预先设置的阈值进行比较,当预测结果大于等于预先设置的阈值时,则用户...

【专利技术属性】
技术研发人员:杨力郭慧慧刘泽宇张岩
申请(专利权)人:西安电子科技大学
类型:发明
国别省市:陕西;61

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1