基于社交上下文信息的用户转发行为预测方法技术

技术编号：24410302 阅读：25 留言：0更新日期：2020-06-06 08:53

本发明专利技术提出了一种基于社交上下文信息的用户转发行为预测方法，用于解决现有技术中存在的预测准确率较低的技术问题，实现步骤为：(1)收集社交网络中的数据；(2)构建每个用户的社交网络图；(3)计算用户的历史消息的主题概率分布和待预测消息的主题概率分布之间的JS散度；(4)计算用户的成对影响力和结构影响力；(5)获取用户的社交上下文信息；(6)基于社交上下文信息构建逻辑回归模型来预测用户的转发行为。本发明专利技术提出的方法依赖于用户的局部网络结构，将用户转发消息的主题概率分布和结构响力函数作为社交上下文信息集成到逻辑回归模型中，使得本发明专利技术更好地量化了转发行为的影响因素，可以提高用户转发行为的预测准确率。

Prediction method of user forwarding behavior based on social context information

全部详细技术资料下载

【技术实现步骤摘要】
基于社交上下文信息的用户转发行为预测方法
本专利技术属于社交网络分析及数据挖掘
，涉及一种用户转发行为预测方法，具体涉及一种基于社交上下文信息的用户转发行为预测方法，可用于社交网络中用户转发行为的预测。
技术介绍
随着互联网及社交媒体的发展和普及，社交网络逐渐成为用户进行信息获取、分享和交流的重要平台，极大程度上满足了用户的社交需求，每时每刻都进行着信息的交互。社交网络通过微博、博客、社区等多种途径，实现人与人之间的互联，最终形成了联系紧密的社交圈。社交网络具有传播快、范围广、影响大的特点，成为信息传播的重要途经，转发行为被认为是信息在网络中进行传播的重要机制。社交网络记录了大规模的用户活动数据，这些数据对于用户行为规律具有重要的研究意义和应用价值。目前，对社交网络分析的研究主要包括用户行为分析、社交网络情感分析、信息传播规律、影响力最大化等方面，其中，用户转发行为预测方法可以为推荐系统、个性化搜索和市场营销等应用提供保障。因此，转发行为预测建模成为研究者们关注的热点问题。用户转发行为的分析是实现转发行为预测的基础，想要判断给定的用户是否会转发待预测的消息，首先需要分析影响用户转发与否的因素，继而将这些因素用合理的数学模型表示，并通过机器学习方法进行模型训练，最后完成预测任务。用户转发行为预测的首要任务是分析和探索影响用户转发行为的主要驱动因素。因此，基于数据统计的定性分析方法集中挖掘对用户转发行为产生影响的一些主要因素，如粉丝数、关注数、用户是否认证、用户兴趣偏好、消息文本内容的话题分布和情感倾向性等

【技术保护点】
1.一种基于社交上下文信息的用户转发行为预测方法，其特征在于，包括如下步骤：/n(1)收集社交网络中的数据：/n(1a)随机选取社交网络中一个用户作为种子用户，并爬取该种子用户的关注用户，组成第一关注用户集合；/n(1b)爬取第一关注用户集合中每个关注用户的关注用户，组成第二关注用户集合，并将种子用户、第一关注用户集合和第二关注用户集合组成用户集合U；/n(1c)爬取用户集合U中每个用户v

【技术特征摘要】
1.一种基于社交上下文信息的用户转发行为预测方法，其特征在于，包括如下步骤：
(1)收集社交网络中的数据：
(1a)随机选取社交网络中一个用户作为种子用户，并爬取该种子用户的关注用户，组成第一关注用户集合；
(1b)爬取第一关注用户集合中每个关注用户的关注用户，组成第二关注用户集合，并将种子用户、第一关注用户集合和第二关注用户集合组成用户集合U；
(1c)爬取用户集合U中每个用户vi在连续t个时间段发布的文本消息，并对所有的文本消息进行预处理，然后将前t-1个时间段发布的经过预处理所获取的的分词集合作为用户的历史消息，将第t个时间段发布的M条文本消息经过预处理所获取的分词集合作为M条待预测消息，M≥500；
(2)构建每个用户的社交网络图Gi：
以用户集合U中的每个用户vi以及vi的关注用户为节点，以关注用户指向被关注用户的关注关系为有向边构建vi的社交网络图Gi，有向边对应的权重为关注用户对被关注用户所发布的文本消息的转发概率；
(3)计算用户vi的历史消息的主题概率分布和待预测消息的主题概率分布之间的JS散度JSD(Pv||Pm)：
(3a)将用户vi的历史消息和M条待预测消息分别作为LDA主题生成模型的输入，计算vi的历史消息的主题概率分布Pv和每条待预测消息的主题概率分布Pm，
(3b)计算用户vi的历史消息的主题概率分布Pv与待预测消息的主题概率分布Pm的JS散度JSD(Pv||Pm)：

其中，Pv(k)表示第k个主题生成用户兴趣文档的概率，Pa(k)表示Pa中的第k个概率值，∑表示求和操作，K表示LDA主题生成模型的主题个数，k＝1,2,...,K；
(4)计算用户vi的成对影响力f(V,Gi)和结构影响力
(4a)以社交网络图Gi中的节点vi为出发点，沿Gi中的有向边随机游走，以第一概率随机选择与节点vi相邻的边，并沿该边移动到下一节点，或者以第二概率返回节点vi后，以下一个节点或节点vi为出发点重复随机游走过程，经过迭代直至社交网络图Gi中每个节点的概率值达到稳定状态，得到节点vi到其他节点vj，即其他节点vj对节点vi的影响力Infij的稳定概率分布；
(4b)计算用户vi的成对影响力f(V,Gi)和结构影响力

其中，V表示用户vi的关注用户节点集合，表示在第t时间段转发用户vi发布的文本消息的用户所组成的活跃邻居集合，表示用户vj转发消息与用户vi转发消息的时间差，vj∈V，a表示平衡因子参数，μ表示衰减因子参数，表示所形成的社交圈的集合；
(5)获取用户vi的社交上下文信息Xi,m：
计算用户vi的局部影响力并将和JS散度JSD(Pv||Pm)作为用户vi的社交上下文信息Xi,m：

其中，δ表示平衡f(V,Gi)和权重的参数；
(6)基于社交上下文信息Xi,m获取用户vi的转发行为的预测结果：
(6a)将步骤(1)中收集到的半数以上数据对应的社交上下文信息作为训练集，其余数据对应的社交上下文信息作为测试集；
(6b)将训练集作为逻辑回归分类模型h(X)的输入，并通过似然函数L(β)，采用梯度下降法进行迭代训练，得到训练好的逻辑回归分类模型h(X)'；
(6c)将测试集作为训练好的逻辑回归分类模型h(X)'的输入，对用户的转发行为进行预测，并对预测结果与预先设置的阈值进行比较，当预测结果大于等于预先设置的阈值时，则用户...

【专利技术属性】
技术研发人员：杨力，郭慧慧，刘泽宇，张岩，
申请(专利权)人：西安电子科技大学，
类型：发明
国别省市：陕西;61

全部详细技术资料下载我是这个专利的主人