一种基于物品隐含特征相似度的物品推荐方法及系统技术方案

技术编号:37712906 阅读:20 留言:0更新日期:2023-06-02 00:06
本发明专利技术公开一种基于物品隐含特征相似度的物品推荐方法及系统。本发明专利技术通过无偏矩阵分解得到物品隐含特征,使用物品隐含特征计算物品相似度。进一步地,基于物品相似度完成贝叶斯个性化排序中三元组和目标函数的构造优化了负样本采样问题并且提高了方法的可解释性。此外,本发明专利技术引入了倾向性加权评分,解决了训练样本不随机缺失的问题,能够减少因为物品流行度带来的偏差。行度带来的偏差。行度带来的偏差。

【技术实现步骤摘要】
一种基于物品隐含特征相似度的物品推荐方法及系统


[0001]本专利技术属于个性化推荐领域,具体涉及一种基于物品隐含特征相似度的物品推荐方法及系统。

技术介绍

[0002]贝叶斯个性化排序是一种常用于处理隐式反馈数据的推荐方法。其通过构造算三元组来解决隐式反馈数据中负样本不可观察问题。三元组假设用户对交互过的物品会比没有交互过的物品更感兴趣。
[0003]传统贝叶斯个性化排序存在以下问题:首先,三元组中负样本的采样过于随机,这将导致用户潜在的偏好物品被当作负样本进行训练,使得训练出的模型出现偏差。其次,受推荐系统影响,用户往往更容易接触到更流行的物品,这会导致采集到的训练样本不随机缺失的问题。最后,传统贝叶斯个性化排序方法缺少可解释性,即用户不清楚一个物品被推荐给他们的理由和原因。
[0004]针对传统贝叶斯个性化排序上述存在的问题,本专利技术提出一种基于物品隐含特征相似度的物品推荐方法及系统,意图解决现有方法中存在的不足。

技术实现思路

[0005]针对传统贝叶斯个性化排序存在的问题,本专利技术公开了一种基于物品隐含特征相似度的物品推荐方法及系统。本专利技术通过无偏矩阵分解得到物品隐含特征,使用物品隐含特征计算物品相似度。进一步地,基于物品相似度完成贝叶斯个性化排序中三元组和目标函数的构造优化了负样本采样问题并且提高了方法的可解释性。此外,本专利技术引入了倾向性加权评分,解决了训练样本不随机缺失的问题,能够减少因为物品流行度带来的偏差。
[0006]为了解决现有问题,本专利技术的具体技术方案如下:
[0007]第一方面,提供一种基于物品隐含特征相似度的物品推荐方法,包括以下步骤:
[0008]步骤(1):获取用户与物品交互的隐式反馈数据集,并将上述数据集进行预处理;
[0009]步骤(1)包含以下步骤:
[0010]步骤(1.1):对数据进行二值化处理,得到交互矩阵M
T

[0011]交互矩阵M
T
中的元素T
u,i
为0或1,代表用户是否与物品发生交互;矩阵M
T
具体是:
[0012][0013]其中u代表用户集U={1,2,3,...,m}中的一个用户,i代表物品集I={1,2,3,...,n}中的一个物品,D
u,i
表示数据集D中某个元素;
[0014]基于上述计算逻辑可得用户物品交互矩阵M
T
∈{0,1}
m
×
n

[0015]步骤(1.2):切分数据集;
[0016]以比例η将隐式数据集D=U
×
I分割为D
S
=U
S
×
I和D
B
=U
B
×
I,U
S
∪U
B
=U。其中D
S

于计算物品隐含特征,数据D
B
用于训练推荐模型。
[0017]步骤(2):矩阵分解获得物品隐含特征;
[0018]使用数据集D
S
作为矩阵分解模型中的数据,在矩阵分解模型学习后保存学习产生的物品隐含特征。
[0019]具体的,步骤(2)使用到引入倾向性加权评分的无偏矩阵分解,步骤如下:
[0020]步骤(2.1):计算倾向性加权评分;
[0021]以物品在用户面前曝光的概率作为倾向性评分,根据交互与曝光概率和用户偏好之间的关系可知,只有当用户即偏好该物品且物品暴露在了用户面前才能与之产生交互,因此在矩阵分解模型中要针对曝光概率这一因素调整模型,避免出现不随见缺失的问题。交互与曝光和用户的偏好的关系如下:
[0022]P(T
u,i
=1)=P(e
u,i
=1,r
u,i
=1)
ꢀꢀ
式(2)
[0023]T
u,i
=e
u,i
·
r
u,i
ꢀꢀ
式(3)
[0024]其中e
u,i
和r
u,i
均为伯努利随机变量,并且假设二者相互独立,e
u,i
=1时物品i暴露在用户u前,e
u,i
=0代表i没有出现在用户u面前过。r
u,i
=1代表用户u偏好物品i,r
u,i
=0代表用户u不偏好物品i;
[0025]用E
i
表示物品的曝光概率,在数据集中物品的曝光概率E
i
可以通过统计一个物品与不同用户的交互次数来确定。具体计算公式如下:
[0026][0027]其中τ为超参数通常≤1,此处设为0.5,m为用户的总数量,g为与不同用户交互次数最多的物品。
[0028]步骤(2.2)构造目标函数;
[0029]矩阵分解将原交互矩阵分解为与两个矩阵,其中W
S
为用户隐含特征矩阵记录|U
S
|个用户的θ维特征,Q
S
为物品隐含特征矩阵,记录n个物品的θ维特征;
[0030]因此原交互矩阵M
T
可表示为:
[0031]M
T
=W
S
×
(Q
S
)
T
ꢀꢀ
式(5)
[0032]其中(Q
S
)
T
为Q
S
的转置矩阵;
[0033]一个物品的用户偏好程度可表示为:
[0034]r
u,i
=w
u
·
q
i
ꢀꢀ
式(6)
[0035]其中r
u,i
为用户u对物品i的偏好程度;
[0036]综上,根据矩阵分解逻辑模型构造目标函数并在目标函数中引入倾向性加权评分来减少曝光度带来的误差,进一步提高了所得物品隐含特征的准确度;
[0037]无偏矩阵分解的目标函数如下:
[0038][0039]其中其中为预测的用户u对物品i的偏好程度,由用户隐含特征与物品隐含特征的点乘所得,数学公式为:
[0040]步骤(2.3)矩阵分解模型训练;
[0041]在目标函数中加入正则项避免训练过拟合,并且使用梯度下降更新目标函数中用户隐含特征向量w
u
和物品隐含特征向量q
i
。当目标函数收敛,更新完成后的Q
S
即为步骤(3)中所需的物品隐含特征矩阵。加入正则的目标函数如下:
[0042][0043]其中λ
s
为正则项系数。
[0044]步骤(3):根据保存的物品隐含特征计算物品的隐含特征相似度,并构造物品之间的隐含特征相似矩阵;具体如下:
[本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于物品隐含特征相似度的物品推荐方法,其特征在于包括以下步骤:步骤(1):获取用户与物品交互的隐式反馈数据集D,并将上述数据集进行预处理;步骤(2):使用数据集D
S
作为矩阵分解模型中的数据,矩阵分解获得物品隐含特征;具体是:步骤(2.1):计算倾向性加权评分;以物品在用户面前曝光的概率作为倾向性评分,根据交互与曝光概率和用户偏好之间的关系可知,只有当用户即偏好该物品且物品暴露在了用户面前才能与之产生交互,因此在矩阵分解模型中要针对曝光概率这一因素调整模型,避免出现不随见缺失的问题;交互与曝光和用户的偏好的关系如下:P(T
u,i
=1)=P(e
u,i
=1,r
u,i
=1)
ꢀꢀ
式(1)T
u,i
=e
u,i
·
r
u,i
ꢀꢀ
式(2)其中e
u,i
和r
u,i
均为伯努利随机变量,并且假设二者相互独立,e
u,i
=1时物品i暴露在用户u前,e
u,i
=0代表i没有出现在用户u面前过;r
u,i
=1代表用户u偏好物品i,r
u,i
=0代表用户u不偏好物品i;用E
i
表示物品的曝光概率,在数据集中物品的曝光概率E
i
通过统计一个物品与不同用户的交互次数来确定;具体计算公式如下:g∈I,且满足其中τ为超参数,m为用户的总数量,g为与不同用户交互次数最多的物品;步骤(2.2):构造目标函数;矩阵分解将原矩阵分解为与两个矩阵,其中W
S
为用户隐含特征矩阵记录|U
S
|个用户的θ维特征,Q
S
为物品隐含特征矩阵,记录n个物品的θ维特征;因此原矩阵M
T
表示为:M
T
=W
S
×
(Q
S
)
T
ꢀꢀ
式(4)其中(Q
S
)
T
为Q
S
的转置矩阵;一个物品的用户偏好程度表示为:r
u,i
=w
u
·
q
i
ꢀꢀ
式(5)其中r
u,i
为用户u对物品i的偏好程度;综上,根据矩阵分解逻辑模型构造目标函数并在目标函数中引入倾向性加权评分来减少曝光度带来的误差,进一步提高了所得物品隐含特征的准确度;
无偏矩阵分解的目标函数如下:其中其中为预测的用户u对物品i的偏好程度,由用户隐含特征与物品隐含特征的点乘所得,可知:步骤(2.3)矩阵分解模型训练;在目标函数中加入正则项避免训练过拟合,并且使用梯度下降更新目标函数中用户隐含特征向量w
u
和物品隐含特征向量q
i
;当目标函数收敛,更新完成后的Q
S
即为步骤(3)中所需的物品隐含特征矩阵;加入正则的目标函数如下:其中λ
s
为正则项系数;步骤(3):根据保存的物品隐含特征计算物品的隐含特征相似度,并构造物品之间的隐含特征相似矩阵与相似度矩阵;具体如下:步骤(3.1):计算物品隐含特征相似度;使用物品隐含特征矩阵Q
S
计算各物品间的相似度;相似度的计算使用到余弦相似度,其计算公式如下:其中q
i
,q
j
均为物品隐含相似度矩阵Q
S
中某个物品的隐含特征向量,q
i
,q
j
的长度为θ;f为向量中的一个维度;函数中加一是为了让相似度不为负数,因此sim(i,j)∈[0,2];步骤(3.2):构造隐含特征相似矩阵与相似度矩阵;根据所得的物品相似度,构造相似度矩阵M
sim
,记录n个物品间的相似度sim(i,j);然后通过相似度矩阵M
sim
构造隐含特征相似矩阵M
si
,判断物品i与物品j是否为相同物品,若是则不作为相似物品,即i=j时si
i,j
=0,若否则继续判断物品i与物品j是否满足sim(i,j)≥v,若是则认为两个物品i、j相似si
i,j
=...

【专利技术属性】
技术研发人员:袁友伟姜添郑超黄笑成李文馨刘聪鄢腊梅
申请(专利权)人:杭州电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1