当前位置: 首页 > 专利查询>清华大学专利>正文

一种引入社会化标签的协作过滤评分预测方法及装置制造方法及图纸

技术编号:6152346 阅读:264 留言:0更新日期:2012-04-11 18:40
本发明专利技术涉及一种引入社会化标签的协作过滤评分预测方法及装置。该方法包括:步骤1,计算基于社会化标签的条目相似度;步骤2,计算基于打分的条目相似度;步骤3,根据基于社会化标签的条目相似度和基于打分的条目相似度计算出最终的条目相似度;步骤4,根据最终的条目相似度预测评分。本发明专利技术将具有语义信息和反映了用户主观判断的社会化标签引入了协作过滤的评分流程,在一定程度上提升了经典的协作过滤的预测准确度,能够更准确地为用户提供个性化服务。

【技术实现步骤摘要】

本专利技术涉及个性化网络服务领域,尤其涉及一种引入社会化标签的协作过滤评分预测方法及装置
技术介绍
在网络服务中,随着信息量的急剧增加,为用户提供个性化的服务显得尤为重要。推荐系统(Recommender System)是个性化服务中最重要的一种应用形式。推荐系统往往由三部分组成。行为记录模块、模型分析模块和推荐模块。行为记录模块负责记录能够体现用户喜好的行为,比如购买、下载、评分等。模型分析模块的功能则实现了对用户行为记录的分析,采用不同算法建立起模型,描述用户的喜好信息。最后,通过推荐模块, 实时的从内容集筛选出目标用户可能会感兴趣的内容推荐给用户。推荐系统有两种类型的特性误差负误识,即将“属于物体”标注为“不属于物体” 的误分类,也就是那些用户喜欢的条目未被推荐的现象;正误识,即将“不属于物体”标注为 “属于物体”的误分类,也就是给用户推荐了他们不喜欢的条目的现象。推荐技术可以分协作过滤推荐、基于内容的推荐、基于用户统计学的推荐、基于效用的推荐、基于知识的推荐和基于规则的推荐。协作过滤推荐是目前研究和应用最为广泛的个性化推荐技术,也是真正意义上的个性化推荐技术。协作过滤算法通常分为基于内存(Memory-based)的协作过滤算法和基于模型(Model-based)的协作过滤算法。基于内存的算法有时也被称作基于全局的算法或启发式方法,是将所有数据读入内存,然后利用这些数据算出相关所有用户(或条目)之间的相似度,再利用相似度根据有效的推荐算法推荐出合适的资源;基于模型的算法,一般利用打分矩阵先建立一个模型,然后在这个模型上计算用户与用户之间的或条目与条目之间的相似性。基于内存的算法主要依赖最近邻算法(K-nearest Neighbors),又可以分为基于用户⑴ser-based)的协作过滤算法和基于条目(Item-based)的协作过滤算法。基于用户的协作过滤算法适用于用户数目不大,而条目的数量远多于用户的情况,比如一个学术论文推荐系统往往只有几千个用户,但却有数万篇论文;基于条目的协作过滤算法适合于用户数量非常多、而条目数量相对用户数目较少的情况,比如较为大型的电影、音乐推荐系统。社会化标签(Social Tags)是被关联或指定到一条信息(如一个网页)上的相关关键词或术语,其作用是描述该条目信息。根据系统的不同,标签往往被条目的创建者或使用者亲自的、非正式的选择出来。用户标注社会化标签的行为也称作协作式标注(Collaborative Tagging)。相比于传统的分类方案禁止一般用户参与,在协作式标注中,任何人可以选择他们自认为合适的标签来对条目进行标注,而不必在一个条目“应该”标注什么标签上认同其他人。协作式标注在没有人充当“专家”角色或资源对于“权威人士”来说太多而无法分类时尤其有效; 这正是互联网的两个特征,而互联网也就成为了协作式标注流行的地方。当前,对社会化标签研究的较多的方向主要有标签辅助个性化推荐、标签预测、 标签辅助信息检索、从标签中抽取语义信息等等。其中,标签辅助的个性化推荐系统从算法输入上看,大致可以分为两类一类是纯粹的基于标签的推荐系统,这类系统只用标签作为推荐的算法输入,另一类是将社会化标签和传统的协作过滤系统进行结合。但从目前现有的实现方案来看,协作过滤推荐中并没有考虑将社会化标签用于条目相似度的计算。现有的协作过滤推荐实现方案准确性还不够理想,仍需要进一步提高其推荐的精度,而将社会化标签引入条目相似度的度量能够改进推荐的精度,以进一步为用户提供更优的个性化服务。
技术实现思路
为了解决上述的技术问题,本专利技术提供了一种引入社会化标签的协作过滤评分预测方法及装置,以更准确地为用户提供个性化服务。本专利技术提供了一种引入社会化标签的协作过滤评分预测方法,包括步骤1,计算基于社会化标签的条目相似度;步骤2,计算基于打分的条目相似度;步骤3,根据基于社会化标签的条目相似度和基于打分的条目相似度计算出最终的条目相似度;步骤4,根据最终的条目相似度预测评分。在一个示例中,步骤1包括步骤10,对包含社会化标签的数据集进行预处理;步骤11,计算社会化标签的评分稳定性;步骤12,根据相似度度量方法计算基于社会化标签的条目相似度。在一个示例中,步骤1中,在步骤10与步骤11之间还包括步骤13,引入元数据。在一个示例中,步骤10包括步骤101,根据Porter Stemming算法处理社会化标签的数据;步骤102,对社会化标签的数据进行大小写转换;步骤103,对社会化标签的数据进行裁减。在一个示例中,步骤103中,根据基于条目的裁减方法、基于标签的裁减方法、基于用户的裁减方法、基于条目和标签的迭代式裁减方法或者基于条目、标签和用户的迭代式裁减方法对社会化标签的数据进行裁减。在一个示例中,步骤13中,利用爬虫工具抓取包含社会化标签的数据中所有条目的元数据。在一个示例中,步骤11中,按照下述公式计算社会化标签的评分稳定性权利要求1.一种引入社会化标签的协作过滤评分预测方法,其特征在于,包括 步骤1,计算基于社会化标签的条目相似度;步骤2,计算基于打分的条目相似度;步骤3,根据基于社会化标签的条目相似度和基于打分的条目相似度计算出最终的条目相似度;步骤4,根据最终的条目相似度预测评分。2.如权利要求1所述的协作过滤评分预测方法,其特征在于,步骤1包括 步骤10,对包含社会化标签的数据集进行预处理;步骤11,计算社会化标签的评分稳定性;步骤12,根据相似度度量方法计算基于社会化标签的条目相似度。3.如权利要求2所述的协作过滤评分预测方法,其特征在于,步骤1中,在步骤10与步骤11之间还包括步骤13,引入元数据。4.如权利要求2所述的协作过滤评分预测方法,其特征在于,步骤10包括 步骤101,根据Porter Stemming算法处理社会化标签的数据; 步骤102,对社会化标签的数据进行大小写转换; 步骤103,对社会化标签的数据进行裁减。5.如权利要求4所述的协作过滤评分预测方法,其特征在于,步骤103中,根据基于条目的裁减方法、基于标签的裁减方法、基于用户的裁减方法、基于条目和标签的迭代式裁减方法或者基于条目、标签和用户的迭代式裁减方法对社会化标签的数据进行裁减。6.如权利要求3所述的协作过滤评分预测方法,其特征在于,步骤13中,利用爬虫工具抓取包含社会化标签的数据中所有条目的元数据。7.如权利要求2所述的协作过滤评分预测方法,其特征在于, 步骤11中,按照下述公式计算社会化标签的评分稳定性= 其中_ I〉 UemieTi ^itemi 少)Χ = m -二——T,表示集合{{iteml,niteml,riteml },{item2, nitem2,rUem2 },{item3, nitem3, ritem3 },......,Utemi,nitemi,rjteim }};itemi表示条目;Iiitemi表示社会化标签标注条目itemi的次数,;^表示用户对条目 itemi的平均评分;i为自然数;m是集合T’中元素的个数; y表示社会化标签标注过的条目的平均评分的加权平均,Σγι · r^ _ itemieT' lteml ltemlUemieT^itemi8.如权利要求7所述的本文档来自技高网
...

【技术保护点】
1.一种引入社会化标签的协作过滤评分预测方法,其特征在于,包括:步骤1,计算基于社会化标签的条目相似度;步骤2,计算基于打分的条目相似度;步骤3,根据基于社会化标签的条目相似度和基于打分的条目相似度计算出最终的条目相似度;步骤4,根据最终的条目相似度预测评分。

【技术特征摘要】

【专利技术属性】
技术研发人员:赵洋张勇邢春晓夏双
申请(专利权)人:清华大学
类型:发明
国别省市:11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1