当前位置: 首页 > 专利查询>东北大学专利>正文

一种考虑由物品口碑因素导致一致性偏差的推荐方法技术

技术编号:38017945 阅读:8 留言:0更新日期:2023-06-30 10:45
本发明专利技术提供一种考虑由物品口碑因素导致一致性偏差的推荐方法,将一致性偏差划分为与人气相关的一致性偏差和与口碑相关的一致性偏差,并通过负样本划分策略将训练数据集合按照交互行为潜藏的驱动因素划分为不同原因的四组训练子集合,然后通过四组训练数据子集合的不同组合来训练三个因果嵌入从而得到细化的因果特征,以实现三种因果嵌入的独立学习,从而解耦了用户兴趣、物品人气、物品口碑三种因果嵌入,最后通过将用户和物品之间的推荐得分细化为用户兴趣得分、物品口碑得分和物品人气得分,为用户产生推荐结果,使得模型很容易根据相应的得分来解释用户点击物品的具体因素,提升了一定可解释性的同时,也对推荐的准确率有所提高。确率有所提高。

【技术实现步骤摘要】
一种考虑由物品口碑因素导致一致性偏差的推荐方法


[0001]本专利技术属于人工智能
,具体涉及一种考虑由物品口碑因素导致一致性偏差的推荐方法。

技术介绍

[0002]推荐系统能够在用户没有明确需求的情况下,从用户的历史交互数据中挖掘用户偏好,为每个用户提供个性、精准、快速的内容筛选和推送,被认为是缓解信息过载的最有效方法。当前大多数研究旨在专利技术一些机器学习模型来不断拟合用户行为历史数据,但是由于用户在与推荐系统的交互过程中,可能会受到某些因素的影响,从而做出不符合自己本意的行为,导致推荐系统收集的反馈数据就会存在各种偏差。如果直接利用存在偏差的数据来训练模型,可能会使得模型无法完全准确挖掘出用户的偏好,以至于无法推荐给用户合适的符合要求的物品,从而降低推荐效果,影响用户体验。
[0003]推荐系统中的一致性偏差是指,用户受到大众或者朋友的影响,会倾向于给出与他人类似的反馈行为,即使这并不符合自己的本意。例如,用户可能仅仅因为许多其它用户点击了某个物品而点击该物品,事实上,这些交互主要是由用户的一致性驱动的,而不是由用户真正的兴趣驱动。一致性描述了用户倾向于跟随他人做出相似交互行为的一种现象,是用户做出决策考虑的一个关键因素。同时,不同的用户对不同的物品的一致性也有所不同。也有研究表明,披露物品评分会影响个人的决策以及他们对物品的质量和价值的看法,评级系统并不是简单的汇总个人意见,而是创造一个以系统方式影响后续评级的环境。现实生活中,随着信息的爆炸式增长,我们的决策也越来越依赖于他人提供的综合意见。例如,我们倾向于在网上查看电影的评分和评论后,再选择观看某一部电影。同时,我们也会在点评网站上查看各种餐馆的评价后,再决定是否选择某家餐馆,这些都是一致性的表现。
[0004]为了证明推荐系统中一致性偏差的存在,有研究通过对豆瓣数据集中的电影评分进行分析,证明了在线评级网站中一致性偏差的存在,评级分布与用户收到的公众意见明显相关。而为了缓解一致性偏差,有些研究均考虑通过建模社会因素对用户行为产生的影响,进而引入特定参数来调节一致性偏差。也有研究利用因果推理来解决一致性偏差,每个用户的一致性偏差是基于因果图通过数据学习到的一种嵌入,最终保证了算法的可解释性和健壮性。
[0005]目前推荐系统中关于一致性偏差的解决方案,主要使用统一的标量偏差项来表示一致性偏差,然而同一个用户对于不同的物品的一致性偏差并不相同,不同的用户对同一个物品的一致性偏差也并不相同。因此,仅仅使用统一的标量偏差项会忽略一致性偏差的多样性。为了解决这个问题,有的研究提出了一种基于因果嵌入来解耦兴趣和一致性偏差的推荐框架,并且为了捕捉一致性偏差的多样性,他们不再使用简单的标量人气值,而是单独学习一致性偏差嵌入。
[0006]物品人气和物品口碑都是物品不同维度特征的两个独立方面,而它们的提前披露则是导致一致性偏差的主要原因。具体来说,物品口碑代表的是物品的质量和性价比,是用
户与物品在互动之后才产生的反馈。而物品人气代表物品的受欢迎程度,则反映了商品在一定时期内对用户的吸引力程度。用户与物品的历史互动次数通常用于表示物品受欢迎程度,也就是物品人气,而物品的评分通常用于表示物品口碑。随着时间的推移,该物品的受欢迎程度可能会发生大幅度的变化,而该物品的口碑通常更稳定。
[0007]用户在与物品进行交互过程中,不仅会受到物品人气的影响,选择点击热度较高的物品,也会受到先前其它用户评分的影响,选择评分较高的物品,由此可见,由物品口碑和物品人气两种因素都可以导致一致性偏差的存在。因此,为了更加准确和全面的捕捉一致性偏差嵌入,进而提升推荐算法的准确率,由物品口碑和物品人气两种因素导致的一致性偏差都理应被考虑和捕捉。

技术实现思路

[0008]基于上述问题,本专利技术目的是提供一种考虑由物品口碑因素导致一致性偏差的推荐方法,该方法基于现有因果嵌入模型DICE进行设计。考虑在原有框架因果图基础上加入物品口碑因素,对基于因果嵌入的解决一致性偏差的推荐框架进行补充完善和优化。在计算出各个物品的口碑值的基础上,通过本专利技术设计的负样本策略将正负样本按照1:N的比例进行组合成训练样本,然后根据点击背后的驱动因素不同将训练样本分成四个数据子集,最后通过数据子集的不同组合来训练用户兴趣、物品人气、物品口碑等三种不同的嵌入,最后根据嵌入来产生推荐结果。在考虑由物品口碑因素导致一致性偏差之后,本专利技术方法不仅能成功学习到由物品口碑导致的一致性偏差嵌入,而且也能拥有更高的推荐准确率和较高的可解释性。
[0009]本专利技术提供的一种考虑由物品口碑因素导致一致性偏差的推荐方法,包括如下步骤:
[0010]步骤1:计算MovieLens

10M数据集中物品的人气值和口碑值;
[0011]在本专利技术的设计思路中,主要是通过使用不同的数据子集的组合来训练不同的嵌入来学习得到三种因果嵌入,而数据子集则是根据正负样本人气值和口碑值的大小关系来划分的。本专利技术使用MovieLens

10M数据集,因此,需要先计算数据集中物品的人气值和口碑值,人气值和口碑值的计算包括以下步骤:
[0012]步骤1.1:对MovieLens

10M数据集中的数据进行预处理;
[0013]本专利技术使用MovieLens

10M数据集,但是并不需要数据集中的全部信息,并且数据集中也并不包含本专利技术所需要的人气值和口碑值等信息,所以首先需要进行数据预处理。具体实现包括以下步骤:
[0014]步骤1.1.1:随机抽取MovieLens

10M数据集中的M个数据,形成新的数据集Q,并按照一定的格式进行存储;
[0015]MovieLens

10M数据集中包含三个文件:movies.dat、ratings.dat、tags.dat,主要选用rating.dat文件,其中包含了72000个用户对于10000部电影的评级数据,本文随机抽取了37962个用户对4819个物品的交互记录,以并(用户ID,物品ID,评分值,是否交互)的格式并另存为.npz文件;
[0016]步骤1.1.2:将数据集Q分为训练集Q1和测试集Q2,并分别进行存储;
[0017]为了便于进行后续模型的训练、验证和测试,将步骤1.1.1中生成的.npz格式的数
据集按照6:4的比例随机划分为训练集和测试集,并另存两个.npz文件;
[0018]步骤1.2:计算训练集Q1中每个物品的人气值,将计算得到的人气值形成一个一维数组;
[0019]为了能够学习到由物品人气值导致的一致性偏差的因果嵌入,需要利用步骤1.1.2中生成的训练集数据文件对4819个物品的人气值进行计算。对于物品I,其人气值p
I
的计算公式如下:
[0020][0021]其中,u代表某个用户,U代表整个用户集合,M
l
代表用户和物品的二进制交互本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种考虑由物品口碑因素导致一致性偏差的推荐方法,其特征在于,包括:步骤1:计算MovieLens

10M数据集中物品的人气值和口碑值;步骤2:考虑由物品口碑导致的一致性偏差,构建面向一致性偏差问题的因果嵌入推荐模型;步骤3:使用训练样本对构建的因果嵌入推荐模型进行训练;步骤4:利用测试集作为训练后的模型输入,输出预测结果。2.根据权利要求1所述的一种考虑由物品口碑因素导致一致性偏差的推荐方法,其特征在于,所述步骤1包括:步骤1.1:对MovieLens

10M数据集中的数据进行预处理;步骤1.2:计算训练集Q1中每个物品的人气值,将计算得到的人气值形成一个一维数组;步骤1.3:计算训练集Q1中每个物品的口碑值,将计算得到的口碑值形成一个一维数组。3.根据权利要求2所述的一种考虑由物品口碑因素导致一致性偏差的推荐方法,其特征在于,所述步骤1.1包括:步骤1.1.1:随机抽取MovieLens

10M数据集中的M个数据,形成新的数据集Q,并按照一定的格式进行存储;步骤1.1.2:将数据集Q分为训练集Q1和测试集Q2,并分别进行存储。4.根据权利要求1所述的一种考虑由物品口碑因素导致一致性偏差的推荐方法,其特征在于,所述步骤2包括:步骤2.1:生成训练样本;步骤2.2:构建考虑物品口碑导致的一致性偏差问题的因果嵌入推荐模型;步骤2.3:构建预测点击任务的损失函数步骤2.4:构建独立性监督任务的损失函数步骤2.5:构建总体损失函数L。5.根据权利要求4所述的一种考虑由物品口碑因素导致一致性偏差的推荐方法,其特征在于,所述步骤2.1包括:步骤2.1.1:对于步骤1.1.2中的训练集文件,文件中的每一行记录均可生成一个训练样本,从该训练集文件中取出记录的用户ID,物品ID分别作为训练样本中的用户和正样本;步骤2.1.2:为步骤2.1.1中的用户和正样本进行负样本采样,生成N个负样本;步骤2.1.3:将步骤2.1.1中的一个用户和一个正样本和步骤2.1.2中的N个负样本组合成训练样本;步骤2.1.4:将步骤2.1.3中生成的训练样本进行分类;步骤2.1.5:将步骤2.1.4生成的四类训练样本集合作为模型的输入进行模型训练。6.根据权利要求4所述的一种考虑由物品口碑因素导致一致性偏差的推荐方法,其特征在于,所述步骤2.2包括:步骤2.2.1.1:构建物品人气建模的损失函数:
其中,u代表用户,i代表正样本,j代表正样本,u
(pop)
、i
(pop)
、j
(pop)
分别代表用户、正样本、负样本的人气嵌入,表示物品人气建模在数据子集O1和数据子集O2上的损失函数,表示物品人气建模在数据子集O3和数据子集O4上的损失函数,BPR()表示Bayesian Personalized Ranking损失函数,可以使得正样本和负样本之间的差值尽可能大;步骤2.2.1.2:构建物品口碑建模的损失函数:步骤2.2.1.2:构建物品口碑建模的损失函数:其中,u代表用户,i代表正样本,j代表正样本,u
(rep)
、i...

【专利技术属性】
技术研发人员:郭楠黄慧慧高天寒
申请(专利权)人:东北大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1