【技术实现步骤摘要】
基于用户兴趣主题的微博网络链路预测方法、装置及介质
本专利技术涉及社交网络及数据分析领域,具体涉及了一种基于用户兴趣主题的微博网络链路预测方法、装置及介质。
技术介绍
微博是近些年来迅速发展壮大的在线社交分享平台,因其内容分享迅速、便捷的特点吸引了大量活跃用户。用户之间的关注、转发、点赞等交互行为组建了极具价值的微博网络。面向微博网络的舆情分析、热点推送、好友推荐等技术为运营者提供了众多服务手段用以改善用户体验,也成为数据分析行业人员研究分析的得力工具。链路预测技术是网络科学之重要分支,其旨在通过网络已知信息预测尚未发现或即将产生的连边。微博网络的预测即指借助用户关注、微博转发等数据预知下一时刻可能发生关注行为的用户对,为用户推荐具有相同兴趣的相似好友。
技术实现思路
本专利技术的目的在于至少解决现有技术中存在的技术问题之一,提供了一种基于用户兴趣主题的微博网络链路预测方法、装置及介质,预测效果更好。本专利技术的技术方案包括一种基于用户兴趣主题的微博网络链路预测方法,其特征在于,该方法包括:S10 ...
【技术保护点】
1.一种基于用户兴趣主题的微博网络链路预测方法,其特征在于,该方法包括:/nS100,爬取微博网络数据并建立用户网络拓扑,将所爬取的用户微博内容汇集成语料文档;/nS200,通过社会三元关系理论筛选二级好友,得到拥有共同关注的微博用户;/nS300,对所述语料文本进行文本建模,通过LDA聚类用户语料文档词汇及主题特征;/nS400,计算所述主题特征的概率分布,并构建用户兴趣主题模型;/nS500,通过KL距离计算所述二级好友的集合间的兴趣主题相似度,并按比例取相似用户作为预测结果。/n
【技术特征摘要】
1.一种基于用户兴趣主题的微博网络链路预测方法,其特征在于,该方法包括:
S100,爬取微博网络数据并建立用户网络拓扑,将所爬取的用户微博内容汇集成语料文档;
S200,通过社会三元关系理论筛选二级好友,得到拥有共同关注的微博用户;
S300,对所述语料文本进行文本建模,通过LDA聚类用户语料文档词汇及主题特征;
S400,计算所述主题特征的概率分布,并构建用户兴趣主题模型;
S500,通过KL距离计算所述二级好友的集合间的兴趣主题相似度,并按比例取相似用户作为预测结果。
2.根据权利要求1所述的基于用户兴趣主题的微博网络链路预测方法,其特征在于,所述S100包括:
爬取微博网络数据并建立用户网络拓扑G(V,E),以邻接矩阵A表示;
同时将用户微博内容汇集成语料文档D(U,B),其中U=(u1,u2,…,un)表示用户集合,每个用户ui的微博内容按时序汇集为语料库(bu,1,bu,2,…,bu,M),每条微博内容bu,i来自用户ui分享或转发。
3.根据权利要求2所述的基于用户兴趣主题的微博网络链路预测方法,其特征在于,所述S200包括:
应用社会三元关系理论在网络拓扑内筛选二级好友,即获取拥有共同关注的微博用户,通过矩阵运算操作为A·A,通过aij表示用户i与用户j存在共同关注好友数量,矩阵运算的行向量即表示该用户的二级好友集合。
4.根据权利要求3所述的基于用户兴趣主题的微博网络链路预测方法,其特征在于,所述S300包括:
进行文本建模,利用LDA提取用户语料文档的词袋向量d=(ω1,ω2,…,ωn),具体包括:
S301,计算文档的词汇矩阵,对每个用户微博文档内容进行词汇统计,词wj在文档...
【专利技术属性】
技术研发人员:丁大钊,张建军,鲍尚策,王文重,杨鹏飞,张志航,
申请(专利权)人:珠海高凌信息科技股份有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。