一种基于量化社会影响力的社交网络用户行为预测方法技术

技术编号:16547540 阅读:79 留言:0更新日期:2017-11-11 12:08
本发明专利技术公开了一种基于量化社会影响力的社交网络用户行为预测方法,该方法包括数据爬取、数据预处理、构建网络图、用户兴趣提取、用户间影响力量化、预测建模、模型训练评估。主要用于在大规模社交网络中实现对用户行为,例如社交网络如Twitter上的转推行为进行预测。同现有技术相比,本发明专利技术首先考虑量化社交网络中用户间的社会影响力,并将该量化的影响力引入到预测模型中来,使得预测模型能够充分考量一个给定用户周围的其他用户对该用户行为的影响,并且本发明专利技术从用户兴趣这一角度出发来进行用户行为的预测,通过量化的社会影响力来计算用户的兴趣,并最终由用户兴趣来推测用户的行为,具有更高的准确度。

A social network user behavior prediction method based on quantitative social influence

The invention discloses a prediction method of social network user behavior based on the quantitative social influence, methods including data crawling, data preprocessing, construction diagram, network of user interest extraction, user influence quantization, predictive modeling, training evaluation model. Mainly used in large-scale social networks to achieve user behavior, such as social networks such as Twitter on the prediction of the behavior of the push. Compared with the prior art, the invention first consider the user's social influence quantitative social networks, and the quantitative influence is introduced into the prediction model, the prediction model can fully consider the influence of other users around a given user on the user behavior prediction, and the present invention from the perspective of user interest for user behavior, by quantifying the social influence to calculate the user's interest, and ultimately by the user to infer the user's behavior, is more accurate.

【技术实现步骤摘要】
一种基于量化社会影响力的社交网络用户行为预测方法
本专利技术属于数据挖掘和行为预测
,更具体地,涉及一种基于量化社会影响力的社交网络用户行为预测方法。
技术介绍
随着互联网技术以及移动技术的发展,社交网络迅速兴起,而目前社交网络的研究主要集中在用户行为分析预测、用户关系发现、个性化内容推荐、社群挖掘、话题检测和跟踪等方面。Twitter等社交网络的出现大大加快了信息在网络中的传播速度,用户可以通过转发别人的博文以及@别的用户来把一条博文迅速的传达给更多人,使一条博文的受众面以几何级别递增,从而导致信息的病毒式传播和扩散。由于预测用户转发与@行为有助于研究信息的扩散与传播,因此社交网络用户行为预测的研究基本集中于预测用户的转发行为与@行为。解决行为预测这个问题的好处在于,首先,被用户转发的话题往往反映了用户所感兴趣的话题,因此行为预测的研究也可用于对用户进行推文或话题推荐;其次,通过对转推行为进行预测研究,能够帮助我们理解社交网络中信息的传播方式,并将之应用于市场营销或是热点事件提取等。早期的许多研究都集中在挖掘对用户行为会产生影响的一些重要因素,如推文本身的内容、推文作者的粉丝数、关注数、注册时长、用户的个人兴趣等因素都会对用户的转推行为造成影响,这些前期的探测为后期的深入研究奠定了一定的基础。对于给定用户的行为预测这个研究问题,现有的解决方案大多都集中在将对于行为预测有重要作用的一些特征因素加入到预测模型中,在这里,对于预测模型而言,许多研究都将用户行为预测问题视为二类分类问题,因为行为预测的结果只有两种,所以将其视为一个二分类问题,可以有效地帮助我们进行预测建模。而特征因素的表现形式多种多样,如用户特征、社交特征和微博特征,对于给定用户转推预测而言,大多数现有的研究都将关注点放在用户特征(用户个人兴趣)及社交特征(用户间的影响力)的选择上,主要会考量用户兴趣对于用户转推行为的影响,即直接通过对用户兴趣建模来进行行为预测,或者通过研究用户间影响力来预测其他用户是否会转发特定用户的推文的,但是在使用中发现,仅根据用户兴趣或者用户间影响力来对用户的转推行为进行预测,预测的准确率较低。
技术实现思路
针对现有技术的以上缺陷或改进需求,本专利技术的目的在于提供了一种基于量化社会影响力的社交网络用户行为预测方法,由此解决在现有的用户行为预测方法中,仅根据用户兴趣或者用户间影响力来对用户的转推行为进行预测而导致的预测准确率较低的技术问题。为实现上述目的,按照本专利技术的一个方面,提供了一种基于量化社会影响力的社交网络用户行为预测方法,包括以下步骤:(1)爬取种子用户所关注的用户信息以及种子用户所关注的用户所关注的用户信息,得到n个用户的用户信息,并爬取n个用户中的每个用户在时刻t之前发布的N条文本,对爬取的所有文本进行预处理;(2)根据用户之间的关注关系以目标用户vi为核心构建网络图,其中,网络图中的节点表示用户,网络图中的有向边表示该有向边对应的两用户之间存在关注关系,有向边的指向由关注用户指向被关注用户,网络图中的有向边对应的权重表示该有向边对应的关注用户对被关注用户发表文本的转发概率;(3)将经过预处理后的n个用户中的每个用户发布的N条文本聚集成一个目标文本,得到n个目标文本,对每个目标文本中的主题信息进行抽取,得到每个用户的兴趣向量表示目标用户vi在时刻t之前的原始兴趣;(4)从网络图中的目标节点出发,沿着网络图中的边随机游走,以第一概率随机选择与目标节点相邻的边,沿着该边移动到下一个节点,或以第二概率直接回到目标节点,以下一个节点或目标节点为出发点重复随机游走过程,直至网络图中每个节点的概率值到达稳定状态,得到目标节点到网络图中其它节点的稳定概率分布,该稳定概率分布即为与目标用户vi有社会关系的其它用户对目标用户vi的影响力F;(5)由目标用户vi在时刻t之前的原始兴趣以及目标用户vi所受到的其他用户的影响力F得到目标用户vi的目标兴趣向量;(6)根据目标兴趣向量对目标用户vi在时刻t的转推行为进行预测,判断用户是否会在时刻t之前转发目标文本。优选地,步骤(2)具体包括:(2.1)从n个用户中获取目标用户vi在时刻t之前关注的用户集合,统计目标用户vi对集合中的每个用户发布的推文的转发次数,将转发次数为零时对应的用户从集合中去除得到目标用户集合(2.2)以目标用户vi为核心构造网络图,其中,网络图中的节点表示目标用户vi以及中的所有用户,网络图中的有向边表示该有向边对应的两用户之间存在关注关系,有向边的指向由关注用户指向被关注用户;(2.3)对于网络图中的有向边对应的权重,由该有向边对应的关注用户对被关注用户发表文本的转发概率确定。优选地,步骤(4)具体包括:(4.1)根据目标用户vi的网络图中每条边的权重,得到转移矩阵S,其中,转移矩阵S中的元素si,j表示当前在节点j,下一步达到节点i的转移概率;(4.2)由Pis+1=(1-β)SPis+βRi得到目标用户vi的网络图中每个节点的概率值,其中,表示在目标用户vi的网络图中,从节点i在第s步达到节点j的概率,Ri=(r1,r2,...,rj,...,rk)T为重启动向量,rj表示出发点在j的概率,β为直接回到出发点的概率,k表示中的用户数量;(4.3)从网络图中的目标节点出发,沿着网络图中的边随机游走,以第一概率随机选择与目标节点相邻的边,沿着该边移动到下一个节点,或以第二概率直接回到目标节点,以下一个节点或目标节点为出发点重复随机游走过程,直至网络图中每个节点的概率值到达稳定状态,得到目标节点到网络图中其它节点的稳定概率分布,该稳定概率分布即为与目标用户vi有社会关系的其它用户对目标用户vi的影响力F。优选地,步骤(5)具体实现方法为:由目标用户vi在时刻t之前的原始兴趣以及目标用户vi所受到的其他用户的影响力F得到目标用户vi的目标兴趣向量其中,表示目标用户vi受到的来自其邻点vj的影响力,γ为平衡加权参数。总体而言,本专利技术方法与现有技术方案相比,能够取得下列有益效果:(1)将用户的兴趣与用户间社会影响力结合起来用于推测用户特征,而不是分开单独建模,有利于提取更好的用户特征;(2)对用户间的社会影响力进行了量化,而不是简单的取平均值,这样能更全面的考量目标用户周围的其他用户对目标用户兴趣的影响程度,从而进一步提升用户特征的质量,也有助于提升预测模型的性能。附图说明图1为本专利技术实施例公开的一种基于量化社会影响力的社交网络用户行为预测方法的流程示意图;图2为本专利技术实施例公开的一种网络图的构建示例图。具体实施方式为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本专利技术,并不用于限定本专利技术。此外,下面所描述的本专利技术各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。本专利技术从用户自身的兴趣点出发,考虑将量化的用户间社会影响力与用户兴趣关联起来进行研究,通过计算与特定用户有社会关系的其他用户对该用户的社会影响力,从而得到该特定用户最终的兴趣,也因此捕获了该用户周围的其他用户对该用户兴趣的影响,从而也可由此得知这些用户对该用户行为的影响程度,然后将本文档来自技高网
...
一种基于量化社会影响力的社交网络用户行为预测方法

【技术保护点】
一种基于量化社会影响力的社交网络用户行为预测方法,其特征在于,包括以下步骤:(1)爬取种子用户所关注的用户信息以及种子用户所关注的用户所关注的用户信息,得到n个用户的用户信息,并爬取n个用户中的每个用户在时刻t之前发布的N条文本,对爬取的所有文本进行预处理;(2)根据用户之间的关注关系以目标用户vi为核心构建网络图,其中,网络图中的节点表示用户,网络图中的有向边表示该有向边对应的两用户之间存在关注关系,有向边的指向由关注用户指向被关注用户,网络图中的有向边对应的权重表示该有向边对应的关注用户对被关注用户发表文本的转发概率;(3)将经过预处理后的n个用户中的每个用户发布的N条文本聚集成一个目标文本,得到n个目标文本,对每个目标文本中的主题信息进行抽取,得到每个用户的兴趣向量

【技术特征摘要】
1.一种基于量化社会影响力的社交网络用户行为预测方法,其特征在于,包括以下步骤:(1)爬取种子用户所关注的用户信息以及种子用户所关注的用户所关注的用户信息,得到n个用户的用户信息,并爬取n个用户中的每个用户在时刻t之前发布的N条文本,对爬取的所有文本进行预处理;(2)根据用户之间的关注关系以目标用户vi为核心构建网络图,其中,网络图中的节点表示用户,网络图中的有向边表示该有向边对应的两用户之间存在关注关系,有向边的指向由关注用户指向被关注用户,网络图中的有向边对应的权重表示该有向边对应的关注用户对被关注用户发表文本的转发概率;(3)将经过预处理后的n个用户中的每个用户发布的N条文本聚集成一个目标文本,得到n个目标文本,对每个目标文本中的主题信息进行抽取,得到每个用户的兴趣向量表示目标用户vi在时刻t之前的原始兴趣;(4)从网络图中的目标节点出发,沿着网络图中的边随机游走,以第一概率随机选择与目标节点相邻的边,沿着该边移动到下一个节点,或以第二概率直接回到目标节点,以下一个节点或目标节点为出发点重复随机游走过程,直至网络图中每个节点的概率值到达稳定状态,得到目标节点到网络图中其它节点的稳定概率分布,该稳定概率分布即为与目标用户vi有社会关系的其它用户对目标用户vi的影响力F;(5)由目标用户vi在时刻t之前的原始兴趣以及目标用户vi所受到的其他用户的影响力F得到目标用户vi的目标兴趣向量;(6)根据目标兴趣向量对目标用户vi在时刻t的转推行为进行预测,判断用户是否会在时刻t之前转发目标文本。2.根据权利要求1所述的方法,其特征在于,步骤(2)具体包括:(2.1)从n个用户中获取目标用户vi在时刻t之前关注的用户集合,统计目标用户vi对集合中的...

【专利技术属性】
技术研发人员:李瑞轩熊小庆李玉华辜希武杨琪王号召张镇占旭宽
申请(专利权)人:华中科技大学
类型:发明
国别省市:湖北,42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1