【技术实现步骤摘要】
本专利技术属于互联网通信
,具体涉及一种建立微博用户兴趣推理模型的方法及装置。
技术介绍
在微博普及的同时,基于微博的各种应用也应允而生,其中,针对博主的个性化推荐技术获得了很多的关注,其中关于微博的个性化推荐的学术研究也开始出现,例如基于地理位置信息的好友推荐、基于相同Tag信息的好友推荐、基于共同关注的好友推荐、基于话题热度的微博话题推荐等,然而这些个性化推荐技术通常只考虑了博主的某部分相对片面的信息,却忽略了一个重要的目的,推荐的账号或话题是否能被博主接受,是其想要的、真正感兴趣的。传统的基于协同过滤的个性化推荐算法,根据博主之间的近似程度来选择推荐物品,这种方式虽然能够较好地完成各种推荐,然而这种忽略个体间差异性寻求共性的推荐方法,只能覆盖部分博主或博主的部分兴趣,不能完整的刻画博主的兴趣,如一些商业化的应用案例中,推荐系统只能向同类的账户推送相同的产品。这种只需考虑博主对商品的潜在购买欲或对一部电影期望观看指数的推荐算法,并不适合所有的系统,在微博中尤为如此。微博中信息繁杂,博主的兴趣爱好广泛,博主的相似性计算起来很复杂,且相似性如何衡量也是一个待探究问题。如能将博主兴趣点概括成一个兴趣模型,通过衡量模型间的相似程度来寻找有相同爱好的博主,并用于微博的个性化服务中,预计将是一个有效的思路。而其中的一个核心问题是如何对博主的兴趣进行建模,建模后的模型精确度对今后的推荐有很大影 ...
【技术保护点】
一种建立微博用户兴趣推理模型的方法,其特征在于:所述方法包括(1)用户个人标签的获取与计算,(2)用户微博内容的兴趣关键词提取,(3)提取基于社会化网络的兴趣标签,最后对上述三个方面的兴趣特征进行融合,建立用户的兴趣模型:M=αMtags+βMcontent+γMrelation其中0≤α,β,γ≤1,且α+β+γ=1,Mtags是博主的标签通过计算得到的博主兴趣点模型,Mcontent是博主微博的内容提取出来的兴趣关键词,Mrelation是基于博主的关注列表提取的博主兴趣点模型;Mtags的模型计算主要是提取当前博主的Tags标签,并利用标签自带的权重值进行归一化处理;Mcontent的提取关键词的计算包括:微博文本的预处理,分词、同义词计算进行话题分类,微博内容扩充,关键词提取以及权重计算;Mrelation采用标签传播算法计算,所述标签传播算法是利用已标注好的节点标签信息去评测尚未标记节点的标签信息。
【技术特征摘要】
1.一种建立微博用户兴趣推理模型的方法,其特征在于:所述方法包括(1)
用户个人标签的获取与计算,(2)用户微博内容的兴趣关键词提取,(3)
提取基于社会化网络的兴趣标签,最后对上述三个方面的兴趣特征进行
融合,建立用户的兴趣模型:
M=αMtags+βMcontent+γMrelation其中0≤α,β,γ≤1,且α+β+γ=1,Mtags是博主的标签通过计算得到的
博主兴趣点模型,Mcontent是博主微博的内容提取出来的兴趣关键词,
Mrelation是基于博主的关注列表提取的博主兴趣点模型;Mtags的模型计
算主要是提取当前博主的Tags标签,并利用标签自带的权重值进行归
一化处理;Mcontent的提取关键词的计算包括:微博文本的预处理,分
词、同义词计算进行话题分类,微博内容扩充,关键词提取以及权重计
算;Mrelation采用标签传播算法计算,所述标签传播算法是利用已标注
好的节点标签信息去评测尚未标记节点的标签信息。
2.根据权利要求1所述的方法,其特征在于:所述微博内容扩充分为两种
方式:一是对该用户的微博进行分类聚类处理,从微博平台收集具有相
同话题或相似话题的微博归为博主的微博数据文本数据集中;二是利用
WBUserRank算法寻找与当前博主关系最为密切的那些博主的部分微博
混合集作为当前博主的微博文本集。
3.根据权利要求1所述的方法,其特征在于:对融合后的主题模型的关键
词提取,采用计算主题内关键词的相似性的方法,选取权重较大的有代
表性的词作为关键词。
4.根据权利要求1所述的方法,其特征在于:博主A经过标签传播算法
可以表示成:
M A = Σ i = 1 n M A i × W B U R ( ...
【专利技术属性】
技术研发人员:王岢,徐晓飞,叶允明,李小宜,刘广建,
申请(专利权)人:哈尔滨工业大学深圳研究生院,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。