基于概率模型和用户行为分析的个性化推荐方法、系统技术方案

技术编号:13196124 阅读:57 留言:0更新日期:2016-05-12 08:01
本发明专利技术公开了基于概率模型和用户行为分析的个性化推荐方法及系统,方法包括:提取得到物品以及物品属性信息,且提取得到用户对物品的操作行为;通过所述物品属性信息和用户对物品的操作行为,得到兴趣点;通过用户对物品的操作行为,获取用户兴趣相似度,并得到相似用户;根据用户对物品基于时间维度的操作行为,得到衰减因子,建立用户模型;根据用户模型,得到用户在各个维度的兴趣特征信息;过滤后并采用推荐算法生成待推荐结果,进行算法融合,得到用户个性化推荐的结果。本发明专利技术通过将原始数据进行预处理后,构建用户模型,准确刻画用户的兴趣点和本质的信息获取需求,以提供精准的个性化推荐,从而解决互联网中的信息过载和长尾物品的问题。

【技术实现步骤摘要】

本专利技术涉及计算机数据处理
,特别涉及基于概率模型和用户行为分析的 个性化推荐方法、系统。
技术介绍
随着互联网信息技术的发展,尤其是电子商务的兴起,互联网内容呈现爆炸式的 增长,人们逐渐进入海量数据时代。每天面对琳琅满目并且种类繁杂的商品、电影、歌曲、视 频等各种服务时,却无所适从,这就是经常提到的信息过载(information overload)问题。 同时,互联网上的各种物品又存在长尾(long tail)现象,指大部分商品属于冷门而没有展 示的机会。Chris Anderson在2006年出版的《长尾理论》一书中指出,传统的80/20原则 (80%的销售额来自于20%的热门品牌)在互联网时代下回面临更多挑战。主流的商品基本 上代表的是大部分用户的需求,但是长尾的商品代表的则是一小部分个性化需求。应对信 息过载和长尾物品的问题,推荐系统大显身手。能够根据用户的历史行为数据,对用户进行 兴趣建模,推荐用户感兴趣的物品(如商品、电影、新闻),这就是个性化推荐系统。 目前,个性化推荐系统能够在用户没有明确目的时候,帮助发现那些他们感兴趣 但很难发现的物品。但是也存在诸多难点。 1、用户兴趣的量化。正所谓:一千个人中有一千个汉姆雷特。个人的兴趣千差万 另IJ,如何给出一种能准确量化用户兴趣的指标,用以表征用户的偏好。比如如何判断用户喜 欢娱乐八卦的文章还是喜欢时事政治,如何量化对各个类别、标签的偏好程度。 2、用户行为模式挖掘。用户历史行为数据代表了用户的明确需求,每一次的鼠标 点击都是用户本质需求的反应。基于用户的注册、登录、浏览、点击、购买、收藏、打分、评论 等各种维度的数据中,如何提取有价值的用户属性。 3、个性化的精准性。如何保证个性化的推荐结果是真正符合用户需求,一直也都 是业界都在绞尽脑汁解决的问题。
技术实现思路
本专利技术要解决的技术问题是,通过将原始数据进行预处理后,构建用户模型,用以 准确刻画用户的兴趣点和本质的信息获取需求,以提供精准的个性化推荐,从而解决互联 网中的信息过载和长尾物品的问题。 解决上述技术问题,本专利技术提供了基于概率模型和用户行为分析的个性化推荐方 法,包括如下步骤: 提取得到物品以及物品属性信息,且提取得到用户对物品的操作行为;所述物品 是在不同场景下,待推荐主体;所述操作行为是用户在不同场景下,所包含的操作类型; 通过所述物品属性信息和用户对物品的操作行为,得到兴趣点;通过用户对物品 的操作行为,获取用户兴趣相似度,并得到相似用户;根据用户对物品基于时间维度的操作 行为,得到衰减因子;根据所述兴趣点、相似用户、衰减因子建立用户模型;根据用户模型,得到用户在各个维度的兴趣特征信息; 对所述兴趣特征信息进行过滤,并采用推荐算法生成待推荐结果; 根据所述待推荐结果进行算法融合,得到用户个性化推荐的结果。更进一步,所述物品以及物品属性信息为: 〈itemid,publisher,categroyid,tagid> 其中itemid表示唯一标识一个物品,publisher表示物品的发布者,categoryid表 示物品所属的类别i d,tag i d表示物品的标签i d。 更进一步,所述用户对物品的操作行为为: 〈userid,itemid,timestamp,action_type> 其中user id表示唯一标识一个用户,itemid表示唯一标识一个物品,timestamp表 示本次操作的时间,acti〇n_type表示本次操作的类型;所述用户对物品的操作行为包括, 用户的历史行为数据。 更进一步,通过所述物品属性信息和用户对物品的操作行为,得到兴趣点的方法 为: 4-1)遍历用户所有点击过的itemid,获取itemid对应的category id,统计每一个 用户点击行为下的每个类别的点击次数,这样就得到了每个用户点击过的类别次数分布; 4-2)计算点击过的各个物品的类别概率分布即为: 其中,P(categoryidclick)表示在点击行为下的类别categoryid的概率,表示对 不同操作类型下的属性权重;Count (categoryid | click)表示在点击行为下的类别 category id的点击次数;Count (categoryid | click)表示在点击行为下的各个类别的点击 次数之和; 4-3)类别最终的概率如下: P(categoryid) =P(categoryid | behaviori)氺Weight(behaviori) +P(categoryidIbehavior2)*Weight(behavior2) +... +P(categoryid|behaviorn)*ffeight(behaviorn) 其中,P( category id)表示在各种行为下的类别categoryid的最终权重;P (categoryid I behaviorn)表不在行为类型behavior下的类别category id的概率;Weight (behaviorn)表示行为类型的权重,η为自然数; 4-4)根据在各种行为下的类别categoryid的最终权重,得到用户在各个维度上的 偏好数据即兴趣点。 更进一步,对不同操作类型下的属性权重P进行置信度计算: 其中,α代表概率论中Z统计量的显著性水平,兔表示的是属性分布概率,η表示样 本大小,表示对应某个置信水平的ζ统计量,为常数;表示的平方,为常数。 α代表概率论中Ζ统计量的显著性水平,是指拒绝了事实上正确的原假设的概率, 根据实际的业务需求进行取值,为常数。更进一步,通过用户对物品的操作行为,获取用户兴趣相似度,并得到用户u与用 户ν的相似度计算方法具体为: 这样就可以得到每个用户与 ., 其他用户的相似度,按照相似度从大到小排列,取最高的一些用户,即为当前用户的相似用 户列表。其中,N(u)表示用户u有过行为的物品列表,i表示用户u和用户ν都有过行为的物 品,|N(i) |表示对物品i有过行为的总用户数量,|N(u) |表示用户u有过行为的物品数量,N (ν)表示用户ν有过行为的物品列表,|N(v) |表示用户ν有过行为的物品数量。 更进一步,对所述相似用户进行归一化处理:其中,simi(i)表示两个用户的相似度,min(sim)表示所有相似用户中最小的相似 度,max(sim)表示所有相似用户中最大的相似度,min (sim)表示所有相似用户中最小的相 似度。更进一步,根据用户对物品基于时间维度的操作行为,得到: 其中,time_diff表示某一次操作距离当前时间的时间间隔,max_time_diff表示 待分析数据距离当前时间最大的时间间隔,X是个调节系数。更进一步,对所述兴趣特征信息进行过滤的方法包括:基于用户的协同过滤: 找到与第一用户兴趣相似的第二用户,并把第二用户喜欢的并且第一用户不知道 的item物品推荐给第一用户; 其中第一用户与第二用户的相似度为simi,第二用户对item的喜欢程度为bias, item本身的质量得分表示为score; 则把item推荐给第一用户的权重计算方式为: weight = simi*bias*score 本文档来自技高网
...

【技术保护点】
基于概率模型和用户行为分析的个性化推荐方法,其特征在于,包括如下步骤:提取得到物品以及物品属性信息,且提取得到用户对物品的操作行为;所述物品是在不同场景下,待推荐主体;所述操作行为是用户在不同场景下,所包含的操作类型;通过所述物品属性信息和用户对物品的操作行为,得到兴趣点;通过用户对物品的操作行为,获取用户兴趣相似度,并得到相似用户;根据用户对物品基于时间维度的操作行为,得到衰减因子;根据所述兴趣点、相似用户、衰减因子建立用户模型;根据用户模型,得到用户在各个维度的兴趣特征信息;对所述兴趣特征信息进行过滤,并采用推荐算法生成待推荐结果;根据所述待推荐结果进行算法融合,得到用户个性化推荐的结果。

【技术特征摘要】

【专利技术属性】
技术研发人员:于敬陈运文桂洪冠纪传俊张健
申请(专利权)人:达而观信息科技上海有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1