微博用户兴趣推理方法及装置制造方法及图纸

技术编号:13306765 阅读:37 留言:0更新日期:2016-07-10 02:03
本发明专利技术提出了一种建立微博用户兴趣推理模型的方法,包括兴趣标签的模型计算、微博文本内容提取兴趣模型和博主社交关系提取博主兴趣点模型,通过模型融合策略将三个模型融合在一起,即成为最终的微博用户兴趣推理模型。本发明专利技术的方法将个人信息、微博内容和社交关系相结合,针对微博内容稀疏性问题,采用将同一个博主的所有微博进行混合的USER策略,利用LDA发掘微博隐主题,基于博主关注形成的网络提出了社会化标签传播算法,计算各种兴趣标签对博主的影响力。本发明专利技术的方法具备很好的识别能力和信息过滤能力,在推荐之前过滤掉虚假的消息,识别出虚假博主,这样即可提高了推荐系统推荐的质量和准确率,也给博主带来更好的体验。

【技术实现步骤摘要】

本专利技术属于互联网通信
,具体涉及一种建立微博用户兴趣推理模型的方法及装置。
技术介绍
在微博普及的同时,基于微博的各种应用也应允而生,其中,针对博主的个性化推荐技术获得了很多的关注,其中关于微博的个性化推荐的学术研究也开始出现,例如基于地理位置信息的好友推荐、基于相同Tag信息的好友推荐、基于共同关注的好友推荐、基于话题热度的微博话题推荐等,然而这些个性化推荐技术通常只考虑了博主的某部分相对片面的信息,却忽略了一个重要的目的,推荐的账号或话题是否能被博主接受,是其想要的、真正感兴趣的。传统的基于协同过滤的个性化推荐算法,根据博主之间的近似程度来选择推荐物品,这种方式虽然能够较好地完成各种推荐,然而这种忽略个体间差异性寻求共性的推荐方法,只能覆盖部分博主或博主的部分兴趣,不能完整的刻画博主的兴趣,如一些商业化的应用案例中,推荐系统只能向同类的账户推送相同的产品。这种只需考虑博主对商品的潜在购买欲或对一部电影期望观看指数的推荐算法,并不适合所有的系统,在微博中尤为如此。微博中信息繁杂,博主的兴趣爱好广泛,博主的相似性计算起来很复杂,且相似性如何衡量也是一个待探究问题。如能将博主兴趣点概括成一个兴趣模型,通过衡量模型间的相似程度来寻找有相同爱好的博主,并用于微博的个性化服务中,预计将是一个有效的思路。而其中的一个核心问题是如何对博主的兴趣进行建模,建模后的模型精确度对今后的推荐有很大影响。如何提高模型的精确性,全面详尽的展示博主兴趣点所在,是具有直接研究价值的。另外,微博中的个性化服务面临着微博高速发展所带来的其它挑战。博主增长迅速,总体拥有海量的数据,各式各样的信息参差不齐,许多虚假信息、虚假账号混杂其中,若推荐系统不加区分的进行信息推荐,势必会影响正常博主的使用,带来不好的博主体验。显然,推荐系统必须要具备很好的识别能力和信息过滤能力,在推荐之前过滤掉虚假的消息,识别出虚假博主,这样即可提高了推荐系统推荐的质量和准确率,也给博主带来更好的体验,因此,如何能准确地识别出虚假博主,也具有实际的研究意义。
技术实现思路
本专利技术具体通过如下技术方案实现:一种建立微博用户兴趣推理模型的方法,包括:(1)用户个人标签的获取与计算,(2)用户微博内容的兴趣关键词提取,(3)提取基于社会化网络的兴趣标签,最后对上述三个方面的兴趣特征进行融合,建立用户的兴趣模型:M=αMtags+βMcontent+γMrelation其中0≤α,β,γ≤1,且α+β+γ=1,Mtags是博主的标签通过计算得到的博主兴趣点模型,Mcontent是博主微博的内容提取出来的兴趣关键词,Mrelation是基于博主的关注列表提取的博主兴趣点模型;Mtags的模型计算主要是提取当前博主的Tags标签,并利用标签自带的权重值进行归一化处理;Mcontent的提取关键词的计算包括:微博文本的预处理,分词、同义词计算进行话题分类,微博内容聚类扩展,关键词提取以及权重计算;Mrelation采用标签传播算法计算,所述标签传播算法是利用已标注好的节点标签信息去评测尚未标记节点的标签信息。附图说明图1是本专利技术的微博用户兴趣模型构建框架图;图2是微博文本预处理流程图;图3是博主兴趣点标签传播示意图;图4是Ebbinghaus遗忘曲线图。具体实施方式下面结合附图说明及具体实施方式对本专利技术进一步说明。在微博中,博主发布或者评论的微博可以体现个人兴趣爱好,博主发表一些原创新的微博用于记录个人的喜好,博主处于获取某种信息的目的去关注一个账号,博主贴标签也是根据个人的喜好给自己标注,所有这些博主的行为都能体现博主的兴趣所在。因此,博主的标签信息,博主关注以及博主发表、转发、评论的微博都能体现博主兴趣点。但微博文本字数很短,每条微博文本字数都少于140个字,另外有的博主发表或者转发的微博并不多,微博中的内容涉及的信息太多太杂,有很多日常口语;博主标签虽然能够反映博主兴趣点,但博主可以自己贴一些可能自己随意贴一些和自己兴趣无关的标签,或者根本没有贴标签;博主关注博主要么是这两个博主在现实社会中存在着某种关系而将社会关系网络化,要么是想从被关注者那里获得有用的信息,但也不能排除一些博主可能为了刷粉丝数量去随机关注一些博主希望得到回粉。上述这三种情况可能会对博主兴趣点建模造成一定的影响,为了消除或降低这三种情况出现时对模型精度的影响,需要采用一种加权融合的信息整合建模策略。因此,本专利技术的微博用户兴趣推理模型建模总体上分为三个部分,如附图1所示,即兴趣标签的模型计算、微博文本内容提取兴趣模型和博主社交关系提取博主兴趣点模型,先分别计算每个模型,然后通过模型融合策略将三个模型融合在一起,即成为最终的微博用户兴趣推理模型。Keywords和WeightedKeywords表示法是用一组词语来描述博主兴趣点,具体形式为:M={体育,游戏,音乐,电影本文档来自技高网
...

【技术保护点】
一种建立微博用户兴趣推理模型的方法,其特征在于:所述方法包括(1)用户个人标签的获取与计算,(2)用户微博内容的兴趣关键词提取,(3)提取基于社会化网络的兴趣标签,最后对上述三个方面的兴趣特征进行融合,建立用户的兴趣模型:M=αMtags+βMcontent+γMrelation其中0≤α,β,γ≤1,且α+β+γ=1,Mtags是博主的标签通过计算得到的博主兴趣点模型,Mcontent是博主微博的内容提取出来的兴趣关键词,Mrelation是基于博主的关注列表提取的博主兴趣点模型;Mtags的模型计算主要是提取当前博主的Tags标签,并利用标签自带的权重值进行归一化处理;Mcontent的提取关键词的计算包括:微博文本的预处理,分词、同义词计算进行话题分类,微博内容扩充,关键词提取以及权重计算;Mrelation采用标签传播算法计算,所述标签传播算法是利用已标注好的节点标签信息去评测尚未标记节点的标签信息。

【技术特征摘要】
1.一种建立微博用户兴趣推理模型的方法,其特征在于:所述方法包括(1)
用户个人标签的获取与计算,(2)用户微博内容的兴趣关键词提取,(3)
提取基于社会化网络的兴趣标签,最后对上述三个方面的兴趣特征进行
融合,建立用户的兴趣模型:
M=αMtags+βMcontent+γMrelation其中0≤α,β,γ≤1,且α+β+γ=1,Mtags是博主的标签通过计算得到的
博主兴趣点模型,Mcontent是博主微博的内容提取出来的兴趣关键词,
Mrelation是基于博主的关注列表提取的博主兴趣点模型;Mtags的模型计
算主要是提取当前博主的Tags标签,并利用标签自带的权重值进行归
一化处理;Mcontent的提取关键词的计算包括:微博文本的预处理,分
词、同义词计算进行话题分类,微博内容扩充,关键词提取以及权重计
算;Mrelation采用标签传播算法计算,所述标签传播算法是利用已标注
好的节点标签信息去评测尚未标记节点的标签信息。
2.根据权利要求1所述的方法,其特征在于:所述微博内容扩充分为两种
方式:一是对该用户的微博进行分类聚类处理,从微博平台收集具有相
同话题或相似话题的微博归为博主的微博数据文本数据集中;二是利用
WBUserRank算法寻找与当前博主关系最为密切的那些博主的部分微博
混合集作为当前博主的微博文本集。
3.根据权利要求1所述的方法,其特征在于:对融合后的主题模型的关键
词提取,采用计算主题内关键词的相似性的方法,选取权重较大的有代
表性的词作为关键词。
4.根据权利要求1所述的方法,其特征在于:博主A经过标签传播算法
可以表示成:
M A = Σ i = 1 n M A i × W B U R ( ...

【专利技术属性】
技术研发人员:王岢徐晓飞叶允明李小宜刘广建
申请(专利权)人:哈尔滨工业大学深圳研究生院
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1