当前位置: 首页 > 专利查询>武汉大学专利>正文

一种基于信息传播的微博社交关系提取算法制造技术

技术编号:15896323 阅读:58 留言:0更新日期:2017-07-28 20:19
本发明专利技术涉及一种基于信息传播的微博社交关系提取算法,包括:1.使用平台开放接口或者爬虫软件获得微博数据,以及微博下的评论与转发数据。2.以用户为基本单位检索出其原创微博,对于每一条原创微博,创建微博信息传播树,对树的边赋予权重。3.通过信息传播树,反演化用户社交关系树。4.单用户社交关系融合。5.多用户社交关系融合。通过本发明专利技术可以重新获得基于信息传播的微博用户间的社交关系,同时,通过赋予权重等手段,可以对用户间的亲密关系进行量化处理。经过本发明专利技术算法的数据处理后,获得的微博用户社交拓扑结构,是对在线社交网络进一步分析应用的重要数据基础。

A micro-blog social relation extraction algorithm based on information dissemination

The invention relates to a micro-blog social relation extraction algorithm based on information dissemination, comprising: 1. using platform open interface or crawler software to obtain micro-blog data, and commenting and forwarding data under micro-blog. 2., the user as the basic unit to retrieve its original micro-blog, for each original micro-blog, create micro-blog information dissemination tree, to the edge of the tree to weight. 3., through the information dissemination tree, anti evolution user social relations tree. 4. single user social relationship integration. 5. multi user social relationship integration. By the invention, the social relations between the micro-blog users based on the information propagation can be re obtained, and the intimacy relation among users can be quantized by giving weights and other means. After the data processing of the proposed algorithm, the social topology of micro-blog users is an important data base for further analysis and application of online social networks.

【技术实现步骤摘要】
一种基于信息传播的微博社交关系提取算法
本专利技术涉及计算机科学中的在线社交网络数据挖掘、图论等技术。尤其是一种基于信息传播的微博社交关系提取技术,具体涉及一种基于信息传播的微博社交关系提取算法。
技术介绍
随着Web2.0和智能手机的蓬勃发展,在线社交网络的线上用户急剧增长,以交友、信息共享等为目的的社交网络迅速成为人们传播信息、推销商品、表达观点、产生影响力的理想平台。在线社交网络成为当今计算机和社会学科的热点研究领域之一。推荐系统、社交网络信息传播、链路预测、病毒式营销、公共健康、专家发现、突发事件检测和广告投放等在线社交网络问题正成为学者研究的热点问题。
技术实现思路
本专利技术主要是解决现有技术所存在的在线社交网络中用户弱社交关系难以获取的问题。线社交网络中用户间的社交关系分为强社交关系和弱社交关系,用户间通过关注和被关注形成强社交关系,用户间通过信息交互形成弱社交关系。相比于强社交关系,弱社交关系更难以获取而且随时间动态改变的技术问题;提供了一种基于信息传播的微博社交关系提取算法,通过用户间的历史信息交流,获得用户间的弱社交关系,并由此构建用户社交网络。微博作为一种在线社交网络,其用户和用户之间的关注关系构成了复杂的网络关系。这种以关注为基础的复杂网络是研究在线社交网络的重要基础。但是,微博平台的功能限制以及不活跃和虚假的关注关系对实验研究造成不利影响。为了更准确的发现微博世界中用户间的社交关系,本专利技术通过用户之间的微博信息转发与评论等历史行为分析,从而对用户间的社交关系进行重新构建的算法。本专利技术的上述技术问题主要是通过下述技术方案得以解决的:一种基于信息传播的微博社交关系提取算法,其特征在于,基于定义:定义一、用户B转发或评论过用户A的微博信息,则用户B是A的粉丝,存在用户B对用户A的关注关系。定义二、用户A发送的微博@用户B,则用户A对用户B存在关注关系,如果用户B对@的信息评论或转发等行为,则用户B对用户A存在关注关系。定义三、对于存在用户A的粉丝列表中但从没有参与和A有关的信息交互的用户B,认为B对A的关注为弱联系,忽略不计。定义四、用户A、B之间的信息交互次数代表了A、B之间的亲密程度,作为用户之间关注关系的权重。该提取算法包括:一种基于信息传播的微博社交关系提取算法,其特征在于,包括:步骤1、采用微博开放API接口或者爬虫软件获得微博数据,以及微博下的评论和转发数据。步骤2、对获得数据进行过滤操作,选择转发数量大于100条的原创微博数据,根据转发和评论数据,对每一条原创微博建立信息传播树。对每一条原创微博建立信息传播树的具体步骤如下:步骤2.1、获得原创微博的所有转发和评论数据。步骤2.2、一级传播构建,对原创微博的直接转发和评论数据,使原创微博节点指向转发和评论节点,构成一级传播。步骤2.3、对于一级传播节点,获得其转发和评论数据。使一级传播节点指向其转发和评论节点,构建二级传播。以此迭代,直到所有转发和评论节点都加入到信息传播树中。步骤2.4、对于每一个信息传播树,通过反演化方法获得用户关注图。信息传播与用户关注方向相反,将信息传播树中所有边的方向反向,并为每一个边赋予权值1,获得用户关注图。用户关注图使用一个有向加权图表示,G=(V,E)。其中,V表示用户节点的集合,E表示用户间的有向边集合。步骤2.5、用户关注图的存储。定义用户关注图队列:队列包含一个数组data[MaxSize]和两个队列指针front,rear。数组data中用于存放用户关注图,队列指针分别指向队首和对尾。每一个用户关注图依次放入用户关注图队列中。步骤3、单用户社交关系生成。将一个用户的所有用户关注图,通过两两合并的方式,生成新的用户关注图,再次两两合并,直到只有一个用户关注图为止;步骤4、多用户社交网络生成。从单用户社交关系队列中获得多个单用户社交关系,通过融合单用户社交关系拓扑图中的的公有节点方法,将单用户社交关系拓扑图融合为一个社交网络拓扑图。在融合时,相同节点的边的权重计算公式如下:W(vci,vcj)=max{W(vai,vaj),W(vbi,vbj)}。其中,W(vci,vcj)表示新生成的用户关注图c中节点i指向节点j的有向边的权重,W(vai,vaj)表示用户关注图a中节点i指向节点j的有向边的权重,W(vbi,vbj)表示用户关注图b中节点i指向节点j的有向边的权重。当社交关系拓扑图中不包含公有节点时,融合结束。在上述的一种基于信息传播的微博社交关系提取算法,所述步骤3中单用户社交关系生成的具体步骤包括:步骤3.1、用户关注图队列的长度为1,则用户关注图队列中的元素就是生产的用户社交关系拓扑图,将其放入到单用户社交关系拓扑队列中,并跳转到步骤4。单用户社交关系拓扑队列定义如下:队列包含一个数组用户关注图和两个队列指针front,rear。数组用于存储单用户社交关系拓扑图。队列指针分别指向队首和对尾。如果用户关注图队列的长度大于1,则跳转到步骤3.2。步骤3.2、从用户关注图队列中获得两个用户关注图,将两个图合并为一个用户关注拓扑图。对于两个图相同的关注关系,在合并关注关系的同时,将两个关注关系的边权值相加,得到新的权值赋给边。并将此图加入用户关注图队列尾部。边的权值计算公式如下:W(vci,vcj)=W(vai,vaj)+W(vbi,vbj);W(vci,vcj)表示新生成的用户关注图c的节点i对节点j的有向边的权重,W(vai,vaj)表示用户关注图a中节点i对节点j的有向边的权重,W(vbi,vbj)表示用户关注图b中节点i对节点j的有向边的权重。并跳转到3.1。本专利技术涉及的基于信息传播的微博社交关系提取算法,能为上述热点问题的研究提供在线社交网络用户社交关系拓扑图,用户社交关系拓扑图以用户为节点,以用户间的关注关系为边,描述用户间的社交关系,是上述热点研究问题的重要基础数据。因此,本专利技术具有如下优点:1、用户社交关系拓扑图的边赋予了权重,表示了用户间的亲密程度。2、用户间的社交关系分为强关注关系和弱社交关系,本专利技术的用户社交关系拓扑图可以挖掘出这两类关注关系,而传统的用户社交关系拓扑图只有强关注关系。3、在传统的用户社交关系拓扑图中,存在大量的不活跃用户甚至虚假用户,这些用户对后续的问题构成噪声影响,本专利技术的用户社交关系拓扑图可以有效的避免这些噪声用户。4、用户间的社交关系时效性更强,用户间的信息交互反向影响用户间的社交关系,将反演化的思想引入到用户拓扑关系中。。附图说明图1是本专利技术算法的整体框架图。图2是本专利技术实施例中单用户社交关系的生成示例。图3是本专利技术实施例中多用户社交关系融合示例。具体实施方式下面通过实施例,并结合附图,对本专利技术的技术方案作进一步具体的说明。实施例:下面通过实施例,并结合附图,对本专利技术的技术方案作进一步具体的说明。一、本专利技术算法的整体流程如图1所示,在获得社交平台的用户数据后,分析其中的原创微博,利用用户的原创微博和微博下的评论与转发数据,构建以用户为根的用户关注树,如图1中的A节点就是用户关注树的根节点。箭头从节点B指向节点A,表示用户B对用户A存在关注关系。在获得大量的用户关注树后,通过融合算法后,生成用户社交关系拓扑图。使用用户历史交互信息提取本文档来自技高网...
一种基于信息传播的微博社交关系提取算法

【技术保护点】
一种基于信息传播的微博社交关系提取算法,其特征在于,基于定义:定义一、用户B转发或评论过用户A的微博信息,则用户B是A的粉丝,存在用户B对用户A的关注关系;定义二、用户A发送的微博@用户B,则用户A对用户B存在关注关系,如果用户B对@的信息评论或转发等行为,则用户B对用户A存在关注关系;定义三、对于存在用户A的粉丝列表中但从没有参与和A有关的信息交互的用户B,认为B对A的关注为弱联系,忽略不计;定义四、用户A、B之间的信息交互次数代表了A、B之间的亲密程度,作为用户之间关注关系的权重;该提取算法包括:步骤1、采用微博开放API接口或者爬虫软件获得微博数据,以及微博下的评论和转发数据;步骤2、对获得数据进行过滤操作,选择转发数量大于100条的原创微博数据,根据转发和评论数据,对每一条原创微博建立信息传播树;对每一条原创微博建立信息传播树的具体步骤如下:步骤2.1、获得原创微博的所有转发和评论数据;步骤2.2、一级传播构建,对原创微博的直接转发和评论数据,使原创微博节点指向转发和评论节点,构成一级传播;步骤2.3、对于一级传播节点,获得其转发和评论数据;使一级传播节点指向其转发和评论节点,构建二级传播;以此迭代,直到所有转发和评论节点都加入到信息传播树中;步骤2.4、对于每一个信息传播树,通过反演化方法获得用户关注图;信息传播与用户关注方向相反,将信息传播树中所有边的方向反向,并为每一个边赋予权值1,获得用户关注图;用户关注图使用一个有向加权图表示,G=(V,E);其中,V表示用户节点的集合,E表示用户间的有向边集合;步骤2.5、用户关注图的存储;定义用户关注图队列:队列包含一个数组data[MaxSize]和两个队列指针front,rear;数组data中用于存放用户关注图,队列指针分别指向队首和对尾;每一个用户关注图依次放入用户关注图队列中;步骤3、单用户社交关系生成;将一个用户的所有用户关注图,通过两两合并的方式,生成新的用户关注图,再次两两合并,直到只有一个用户关注图为止;步骤4、多用户社交网络生成;从单用户社交关系队列中获得多个单用户社交关系,通过融合单用户社交关系拓扑图中的的公有节点方法,将单用户社交关系拓扑图融合为一个社交网络拓扑图;在融合时,相同节点的边的权重计算公式如下:W(vci,vcj)=max{W(vai,vaj),W(vbi,vbj)};其中,W(vci,vcj)表示新生成的用户关注图c中节点i指向节点j的有向边的权重,W(vai,vaj)表示用户关注图a中节点i指向节点j的有向边的权重,W(vbi,vbj)表示用户关注图b中节点i指向节点j的有向边的权重;当社交关系拓扑图中不包含公有节点时,融合结束。...

【技术特征摘要】
1.一种基于信息传播的微博社交关系提取算法,其特征在于,基于定义:定义一、用户B转发或评论过用户A的微博信息,则用户B是A的粉丝,存在用户B对用户A的关注关系;定义二、用户A发送的微博@用户B,则用户A对用户B存在关注关系,如果用户B对@的信息评论或转发等行为,则用户B对用户A存在关注关系;定义三、对于存在用户A的粉丝列表中但从没有参与和A有关的信息交互的用户B,认为B对A的关注为弱联系,忽略不计;定义四、用户A、B之间的信息交互次数代表了A、B之间的亲密程度,作为用户之间关注关系的权重;该提取算法包括:步骤1、采用微博开放API接口或者爬虫软件获得微博数据,以及微博下的评论和转发数据;步骤2、对获得数据进行过滤操作,选择转发数量大于100条的原创微博数据,根据转发和评论数据,对每一条原创微博建立信息传播树;对每一条原创微博建立信息传播树的具体步骤如下:步骤2.1、获得原创微博的所有转发和评论数据;步骤2.2、一级传播构建,对原创微博的直接转发和评论数据,使原创微博节点指向转发和评论节点,构成一级传播;步骤2.3、对于一级传播节点,获得其转发和评论数据;使一级传播节点指向其转发和评论节点,构建二级传播;以此迭代,直到所有转发和评论节点都加入到信息传播树中;步骤2.4、对于每一个信息传播树,通过反演化方法获得用户关注图;信息传播与用户关注方向相反,将信息传播树中所有边的方向反向,并为每一个边赋予权值1,获得用户关注图;用户关注图使用一个有向加权图表示,G=(V,E);其中,V表示用户节点的集合,E表示用户间的有向边集合;步骤2.5、用户关注图的存储;定义用户关注图队列:队列包含一个数组data[MaxSize]和两个队列指针front,rear;数组data中用于存放用户关注图,队列指针分别指向队首和对尾;每一个用户关注图依次放入用户关注图队列中;步骤3、单用户社交关系生成;将一个用户的所有用户关注图,通过两...

【专利技术属性】
技术研发人员:刘金硕李哲杨广益陈煜森李扬眉章岚昕郭晓东
申请(专利权)人:武汉大学
类型:发明
国别省市:湖北,42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1