The invention relates to a micro-blog social relation extraction algorithm based on information dissemination, comprising: 1. using platform open interface or crawler software to obtain micro-blog data, and commenting and forwarding data under micro-blog. 2., the user as the basic unit to retrieve its original micro-blog, for each original micro-blog, create micro-blog information dissemination tree, to the edge of the tree to weight. 3., through the information dissemination tree, anti evolution user social relations tree. 4. single user social relationship integration. 5. multi user social relationship integration. By the invention, the social relations between the micro-blog users based on the information propagation can be re obtained, and the intimacy relation among users can be quantized by giving weights and other means. After the data processing of the proposed algorithm, the social topology of micro-blog users is an important data base for further analysis and application of online social networks.
【技术实现步骤摘要】
一种基于信息传播的微博社交关系提取算法
本专利技术涉及计算机科学中的在线社交网络数据挖掘、图论等技术。尤其是一种基于信息传播的微博社交关系提取技术,具体涉及一种基于信息传播的微博社交关系提取算法。
技术介绍
随着Web2.0和智能手机的蓬勃发展,在线社交网络的线上用户急剧增长,以交友、信息共享等为目的的社交网络迅速成为人们传播信息、推销商品、表达观点、产生影响力的理想平台。在线社交网络成为当今计算机和社会学科的热点研究领域之一。推荐系统、社交网络信息传播、链路预测、病毒式营销、公共健康、专家发现、突发事件检测和广告投放等在线社交网络问题正成为学者研究的热点问题。
技术实现思路
本专利技术主要是解决现有技术所存在的在线社交网络中用户弱社交关系难以获取的问题。线社交网络中用户间的社交关系分为强社交关系和弱社交关系,用户间通过关注和被关注形成强社交关系,用户间通过信息交互形成弱社交关系。相比于强社交关系,弱社交关系更难以获取而且随时间动态改变的技术问题;提供了一种基于信息传播的微博社交关系提取算法,通过用户间的历史信息交流,获得用户间的弱社交关系,并由此构建用户社交网络。微博作为一种在线社交网络,其用户和用户之间的关注关系构成了复杂的网络关系。这种以关注为基础的复杂网络是研究在线社交网络的重要基础。但是,微博平台的功能限制以及不活跃和虚假的关注关系对实验研究造成不利影响。为了更准确的发现微博世界中用户间的社交关系,本专利技术通过用户之间的微博信息转发与评论等历史行为分析,从而对用户间的社交关系进行重新构建的算法。本专利技术的上述技术问题主要是通过下述技术方案得以解决 ...
【技术保护点】
一种基于信息传播的微博社交关系提取算法,其特征在于,基于定义:定义一、用户B转发或评论过用户A的微博信息,则用户B是A的粉丝,存在用户B对用户A的关注关系;定义二、用户A发送的微博@用户B,则用户A对用户B存在关注关系,如果用户B对@的信息评论或转发等行为,则用户B对用户A存在关注关系;定义三、对于存在用户A的粉丝列表中但从没有参与和A有关的信息交互的用户B,认为B对A的关注为弱联系,忽略不计;定义四、用户A、B之间的信息交互次数代表了A、B之间的亲密程度,作为用户之间关注关系的权重;该提取算法包括:步骤1、采用微博开放API接口或者爬虫软件获得微博数据,以及微博下的评论和转发数据;步骤2、对获得数据进行过滤操作,选择转发数量大于100条的原创微博数据,根据转发和评论数据,对每一条原创微博建立信息传播树;对每一条原创微博建立信息传播树的具体步骤如下:步骤2.1、获得原创微博的所有转发和评论数据;步骤2.2、一级传播构建,对原创微博的直接转发和评论数据,使原创微博节点指向转发和评论节点,构成一级传播;步骤2.3、对于一级传播节点,获得其转发和评论数据;使一级传播节点指向其转发和评论节点, ...
【技术特征摘要】
1.一种基于信息传播的微博社交关系提取算法,其特征在于,基于定义:定义一、用户B转发或评论过用户A的微博信息,则用户B是A的粉丝,存在用户B对用户A的关注关系;定义二、用户A发送的微博@用户B,则用户A对用户B存在关注关系,如果用户B对@的信息评论或转发等行为,则用户B对用户A存在关注关系;定义三、对于存在用户A的粉丝列表中但从没有参与和A有关的信息交互的用户B,认为B对A的关注为弱联系,忽略不计;定义四、用户A、B之间的信息交互次数代表了A、B之间的亲密程度,作为用户之间关注关系的权重;该提取算法包括:步骤1、采用微博开放API接口或者爬虫软件获得微博数据,以及微博下的评论和转发数据;步骤2、对获得数据进行过滤操作,选择转发数量大于100条的原创微博数据,根据转发和评论数据,对每一条原创微博建立信息传播树;对每一条原创微博建立信息传播树的具体步骤如下:步骤2.1、获得原创微博的所有转发和评论数据;步骤2.2、一级传播构建,对原创微博的直接转发和评论数据,使原创微博节点指向转发和评论节点,构成一级传播;步骤2.3、对于一级传播节点,获得其转发和评论数据;使一级传播节点指向其转发和评论节点,构建二级传播;以此迭代,直到所有转发和评论节点都加入到信息传播树中;步骤2.4、对于每一个信息传播树,通过反演化方法获得用户关注图;信息传播与用户关注方向相反,将信息传播树中所有边的方向反向,并为每一个边赋予权值1,获得用户关注图;用户关注图使用一个有向加权图表示,G=(V,E);其中,V表示用户节点的集合,E表示用户间的有向边集合;步骤2.5、用户关注图的存储;定义用户关注图队列:队列包含一个数组data[MaxSize]和两个队列指针front,rear;数组data中用于存放用户关注图,队列指针分别指向队首和对尾;每一个用户关注图依次放入用户关注图队列中;步骤3、单用户社交关系生成;将一个用户的所有用户关注图,通过两...
【专利技术属性】
技术研发人员:刘金硕,李哲,杨广益,陈煜森,李扬眉,章岚昕,郭晓东,
申请(专利权)人:武汉大学,
类型:发明
国别省市:湖北,42
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。