一种引入用户喜好序列分析的用户协同过滤推荐方法技术

技术编号:33700924 阅读:8 留言:0更新日期:2022-06-06 08:09
本发明专利技术公开了一种引入用户喜好序列分析的用户协同过滤推荐方法,该方法基于多维度行为数据量化了用户的喜好迁移值,兼顾了用户长期、短期、近期和实时几个维度的喜好,且融合了常规的协同过滤模型,在一定程度上保证了用户的多样性且提高推荐物品的新鲜性,很好的解决了上述背景技术中存在的问题。同时,该方法创造的引入最不相似用户群体进行反向推荐,计算复杂度低,模型的迭代周期短,可以做到实时根据用户喜好而进行推荐,且具有较强的解释性。且具有较强的解释性。且具有较强的解释性。

【技术实现步骤摘要】
一种引入用户喜好序列分析的用户协同过滤推荐方法


[0001]本专利技术涉及数据挖掘
,尤其涉及一种引入用户喜好序列分析的用户协同过滤推荐方法。

技术介绍

[0002]近年来,随着信息技术的飞快发展和移动互联网的兴起,人们已经进入海量数据时代。每天面对琳琅满目并且种类繁杂的商品、电影、歌曲、视频等各种服务时,会出现无所适从的情况,也就是如何快速找到感兴趣的信息,这就是经常提到的信息过载(Information Overload)问题。同时,互联网上的各种物品又存在长尾(Long Tail)现象,主要是指大部分物品没有或者极少有展示的机会。而个性化推荐系统的出现,则很好的应对上述问题,目前也基本成为了各种产品的标配功能甚至是亮点功能。
[0003]推荐系统基于知识发现的相关技术来解决人们在选择商品、信息或者服务时的问题,尤其是基于海量用户行为数据的最近邻协同过滤方法获得普遍应用。协同过滤方法主要基于群体智慧,认为相似的用户对新物品的喜好也是相似的,相似的物品对于同一用户来说,喜好程度也是相似的。这种方法克服了基于内容方法的一些弊端,最重要的是可以推荐一些内容上差异较大但是又是用户感兴趣的物品。基于用户的协同过滤就是非常常见的一种,但是现有的实现方式存在以下问题:1)没有很好地解决用户喜好迁移的问题。大量事实表明,用户的喜好会随着时间的推移伴随有不断迁移的现象。尤其是在移动互联网小屏时代,每天都有海量信息出现,用户在有限的时间、有限的屏幕内,已经进入了快节奏的信息获取模式,信息诉求随时都可能变化,需要推荐算法能快速捕捉这种变化并能快速的调整推荐逻辑以满足用户的信息诉求,以提升推荐效果和用户体验。
[0004]2)没有充分利用多样化的用户行为数据。每天用户对同一内容的行为也是非常丰富的,比如点击、评论、点赞、收藏等等,目前的技术并没有将这些不同类型的数据纳入到算法考虑当中,分别进行分析挖掘计算,最后再进行综合运用不同方法的结果进行有机的融合。
[0005]3)比较容易受异常数据的影响,算法鲁棒性有待提升。基于用户的协同过滤推荐中有一个很重要的环节就是用户之间相似度的计算,这个最终依赖于用户行为数据。但是由于采集端的误差以及人为的干扰因素等导致了用户行为数据中出现了一些噪声数据,比如数据中出现字段缺失、取值异常等情况,以及爆点的内容会带动较多的用户操作,还有像一些用户的刷榜等作弊行为参杂其中。对于脏数据,一方面需要强化数据的预处理和清洗逻辑,另外算法层面也需要进行调整,尽可能减弱脏数据的影响,使得推荐结果更加的客观有效。
[0006]4)容易造成“马太效应”和“回声室效应”。由于片面的衡量用户喜好,使得推荐的内容越来越单调,只推荐用户曾经看过的类似内容,导致推荐的结果越来越单调乏味。另外就是推荐集中于热门结果,使得“马太效应”愈发严重,长尾内容得不到曝光,影响系统的生
态健康。

技术实现思路

[0007]有鉴于此,本专利技术提供了一种引入用户喜好序列分析的用户协同过滤推荐方法,该方法基于多维度行为数据量化了用户的喜好迁移值,兼顾了用户长期、短期、近期和实时几个维度的喜好,且融合了常规的协同过滤模型,在一定程度上保证了用户的多样性且提高推荐物品的新鲜性,很好的解决了上述
技术介绍
中存在的问题。同时,该方法创造的引入最不相似用户群体进行反向推荐,计算复杂度低,模型的迭代周期短,可以做到实时根据用户喜好而进行推荐,且具有较强的解释性。
[0008]一种引入用户喜好序列分析的用户协同过滤推荐方法,具体包括以下步骤:S1,将推荐系统中所有的用户行为数据和物品数据按特定存储格式进行存储;S2,对目标用户的用户行为数据和物品数据进行清洗和联合映射,得到目标用户的多维度行为数据;S3,对目标用户的多维度行为数据进行喜好时序分析,得到其时间序列分析值;S4,找出与目标用户喜好程度最相似和最不相似的用户群体所操作过的新物品集合,利用目标用户的时间序列分析值分别计算目标用户对于新物品集合中其未曾操作过的物品的喜好度值,得到未知物品感兴趣列表;S5,将未知物品感兴趣列表中喜好度值最高的物品推荐给目标用户。
[0009]优选地,步骤S1中用户行为数据和物品数据均按行存储,用户行为数据的每行数据均由多个字段组成,包括用户唯一标识符、用户物品操作行为、用户行为操作物品、用户行为操作发生的时间;物品数据的每行数据均由多个字段组成,包括物品唯一标识符、物品标题、物品所属类别、物品标签、物品发布时间。
[0010]优选地,步骤S2中获取目标用户的多维度行为数据的具体步骤为:S21,对目标用户的用户行为数据和物品数据进行数据清洗;S22,将目标用户的用户行为数据的每一行数据中的用户行为操作物品替换为其各自对应的物品所属类别,得到第一临时用户行为数据;S23,按照用户唯一标识符和物品所属类别,对第一临时用户行为数据中的各行数据进行聚合操作,得到第二临时用户行为数据;S24,计算第二临时用户行为数据中每一行数据的用户操作行为总权重,并利用用户操作行为总权重对应替换掉其行数据中的用户物品操作行为,从而得到目标用户的多维度行为数据。
[0011]优选地,步骤S21中数据清洗操作包括字段判空、类型检查、取值异常检测。
[0012]优选地,步骤S3中对目标用户的多维度行为数据进行喜好时序分析的具体步骤为:S31,将目标用户的多维度行为数据按照不同时间维度进行数据切割;S32,分别计算目标用户在各个时间维度下的喜好迁移值;S33,根据目标用户在各个时间维度下的喜好迁移值计算得到其喜好迁移总值;S34,根据目标用户的喜好迁移总值计算得到其时间序列分析值。
[0013]优选地,目标用户的多维度行为数据按照时间维度t被切割为m段数据;目标用户在时间维度t下的喜好迁移值的计算过程如下:首先,计算目标用户在第i段数据中对C中任意类别j的喜好值, 的计算公式为:,其中,i=1

m,k为第i段数据中的第k行数据,为第k行数据的用户操作行为权重,,,表示季度,表示月,表示周,表示天,且满足下列条件:,然后,计算目标用户对于第i段数据的喜好迁移值,的计算公式为:,最后,计算目标用户在时间维度t下对于m段数据的总的喜好迁移值,的计算公式为:。
[0014]优选地,目标用户的喜好迁移总值的计算公式为:,目标用户的时间序列分析值的计算公式为:。
[0015]优选地,步骤S4中根据改进的协同过滤推荐算法找出与目标用户喜好程度最相似和最不相似的用户群体所操作过的新物品集合的具体步骤为:S41,将所有用户行为数据中具有相同的用户物品操作行为的数据切割划分到一起,将所有的用户物品操作行为构成的行为集合记为,行为集合的长度记为,将所有
的用户行为操作物品构成的物品集合记为,物品集合的长度记为,将所有用户构成的用户集合记为,用户集合的长度记为;S42,计算目标用户与用户集合中任一用户之间的相似度,的计算公式为:,其中,为目标用户有过操作行为的并经过物品去重的物品集合,为用户有过操作行为的并经过物品去重的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种引入用户喜好序列分析的用户协同过滤推荐方法,其特征在于,具体包括以下步骤:S1,将推荐系统中所有的用户行为数据和物品数据按行存储;S2,对目标用户的用户行为数据和物品数据进行清洗和联合映射,得到目标用户的多维度行为数据;S3,对目标用户的多维度行为数据进行喜好时序分析,得到其时间序列分析值;S4,找出与目标用户喜好程度最相似和最不相似的用户群体所操作过的新物品集合,利用目标用户的时间序列分析值分别计算目标用户对于新物品集合中其未曾操作过的物品的喜好度值,得到未知物品感兴趣列表;S5,将未知物品感兴趣列表中喜好度值最高的物品推荐给目标用户。2.根据权利要求1所述的引入用户喜好序列分析的用户协同过滤推荐方法,其特征在于,所述用户行为数据的每行数据均由多个字段组成,包括用户唯一标识符、用户物品操作行为、用户行为操作物品、用户行为操作发生的时间;所述物品数据的每行数据均由多个字段组成,包括物品唯一标识符、物品标题、物品所属类别、物品标签、物品发布时间。3.根据权利要求2所述的引入用户喜好序列分析的用户协同过滤推荐方法,其特征在于,步骤S2中得到目标用户的多维度行为数据的具体步骤为:S21,对目标用户的用户行为数据和物品数据进行数据清洗;S22,将目标用户的用户行为数据的每一行数据中的用户行为操作物品替换为其各自对应的物品所属类别,得到第一临时用户行为数据;S23,按照用户唯一标识符和物品所属类别,对第一临时用户行为数据中的各行数据进行聚合操作,得到第二临时用户行为数据;S24,计算第二临时用户行为数据中每一行数据的用户操作行为总权重,并利用用户操作行为总权重对应替换掉其行数据中的用户物品操作行为,从而得到目标用户的多维度行为数据。4.根据权利要求3所述的引入用户喜好序列分析的用户协同过滤推荐方法,其特征在于,步骤S21中数据清洗操作包括字段判空、类型检查、取值异常检测。5.根据权利要求1所述的引入用户喜好序列分析的用户协同过滤推荐方法,其特征在于,步骤S3中对目标用户的多维度行为数据进行喜好时序分析的具体步骤为:S31,将目标用户的多维度行为数据按照不同时间维度进行数据切割;S32,分别计算目标用户在各个时间维度下的喜好迁移值;S33,根据目标用户在各个时间维度下的喜好迁移值计算得到其喜好迁移总值;S34,根据目标用户的喜好迁移总值计算得到其时间序列分析值。6.根据权利要求5所述的引入用户喜好序列分析的用户协同过滤推荐方法,其特征在于,目标用户的多维度行为数据按照时间维度t被切割为m段数据;目标用户在时间维度t下的喜好迁移值的计算过程如下:首先,计算目标用户在第i段数据中对C中任意类别j的喜好值, 的
计算公式为:,其中,i=1

m,k为第i段数据...

【专利技术属性】
技术研发人员:于敬石京京刘文海陈运文纪达麒周明星
申请(专利权)人:达而观数据成都有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1