【技术实现步骤摘要】
本专利技术涉及网络数据挖掘
,尤其涉及微博中话题影响力个体挖掘技术。
技术介绍
类Twitter的微博服务最近作为一个新的通信媒介得到迅速发展,据第29次中国互联网报告统计:截至2011年12月底,我国微博实际用户数达到2.5亿,较上一年底增长了 296.0%,网民使用率为48.7%。区别于其他类Facebook的社交网络服务,微博服务的社会网络关系为单向的,用户不需要其他用户权限就可以关注他们。例如,Twitter中社会网络由关注(following)关系形成,用户关注的人称为该用户的好友(friend);关注某用户的人称为该用户的追随者(follower),用户发布的所有推文(tweets)将出现在公共时间线上(pub lie timeline),该用户所有追随者时间线上将显示该用户的所有消息。随着微博服务的普及,大量用户在微博中参与话题讨论,从而导致微博服务每天产生大量涉及多个话题的信息。大量信息淹没了每个话题中的影响力个体,因此,如何在微博的大量信息中挖掘每个话题的影响力个体将是一个挑战性的工作。最近,相关学者已经针对Twitter数据提出了话题层 ...
【技术保护点】
一种用于确定网络用户的发文之间是否存在复制关系的方法,所述方法包括:获取存在明确转发关系的两篇发文之间的时间间隔所服从的时间概率分布;基于上述时间概率分布来推断出存在复制关系的两篇发文之间的时间间隔所应服从的时间概率分布;基于所推断出的该时间概率分布,设置存在复制关系的两篇发文之间的时间间隔应满足的范围;对于时间间隔处于上述范围内的任意两篇发文,计算其相似度;以及基于所述相似度确定两篇发文之间是否存在复制关系。
【技术特征摘要】
2012.11.02 CN 201210432184.X1.一种用于确定网络用户的发文之间是否存在复制关系的方法,所述方法包括: 获取存在明确转发关系的两篇发文之间的时间间隔所服从的时间概率分布; 基于上述时间概率分布来推断出存在复制关系的两篇发文之间的时间间隔所应服从的时间概率分布; 基于所推断出的该时间概率分布,设置存在复制关系的两篇发文之间的时间间隔应满足的范围; 对于时间间隔处于上述范围内的任意两篇发文,计算其相似度;以及 基于所述相似度确定两篇发文之间是否存在复制关系。2.根据权利要求1所述的方法,其中,所述基于上述时间概率分布来推断出存在复制关系的两篇发文之间的时间间隔所应服从的时间概率分布包括:将存在复制关系的两篇发文之间的时间间隔所应服从的时间概率分布推断为与存在明确转发关系的两篇发文之间的时间间隔所服从的时间概率分布相同。3.一种基于多关系网络的话题影响力个体挖掘方法,包括: 提取用户之间的转发关系以构造转发关系网络,并计算在所述转发关系网络中一个用户随机转发另一用户的发文的转移概率; 提取用户之间的回复关系以构造回复关系网络,并计算在所述回复关系网络中一个用户随机回复另一用户的发文的转移概率; 根据由权利要求1或2的方法所确定的存在复制关系的发文,提取用户之间的复制关系以构造复制关系网络,并计算...
【专利技术属性】
技术研发人员:丁兆云,贾焰,杨树强,周斌,韩伟红,李爱平,韩毅,李莎莎,
申请(专利权)人:中国人民解放军国防科学技术大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。