一种跨域协同过滤方法和系统技术方案

技术编号:20546011 阅读:26 留言:0更新日期:2019-03-09 18:56
本发明专利技术公开了一种跨域协同过滤方法,将用户项目评分数据转换为训练样本集后,对每个辅助域的用户项目评分矩阵进行Funk‑SVD分解得到用户潜在向量,继而使用所述用户潜在向量扩展所述训练样本集得到第一扩展训练样本集,添加项目特征信息来扩展第一扩展训练样本集得到第二扩展训练样本集,使用所述第二扩展训练样本集训练不平衡分类器,最后基于所述不平衡分类器预测所述用户项目评分数据的缺失数据并生成推荐;通过采用辅助域数据进行扩展解决目标域数据稀疏性问题,继而对扩展后训练样本进行不平衡分类器的训练,采用不平衡分类器预测目标域的缺失项,进而得到推荐数据,解决现有推荐系统数据集稀疏和不平衡性问题。

A Cross-domain Collaborative Filtering Method and System

The invention discloses a cross-domain collaborative filtering method. After converting user item score data into training sample set, the user item score matrix of each auxiliary domain is decomposed into user potential vector by Funk SVD, and then the training sample set is expanded by using the user potential vector to obtain the first extended training sample set, and the project feature information is added to expand the first extended training. The second extended training sample set is obtained by training the imbalance classifier with the second extended training sample set. Finally, the missing data of the user item scoring data is predicted and the recommendation is generated based on the imbalance classifier. The sparsity problem of the target domain data is solved by extending the auxiliary domain data, and then the imbalance classification of the expanded training sample is carried out. In training, unbalanced classifier is used to predict missing items in target domain, and then recommendation data is obtained to solve the problem of sparse and unbalanced data sets in existing recommendation systems.

【技术实现步骤摘要】
一种跨域协同过滤方法和系统
本专利技术属于信息推荐
,具体地说,是涉及一种跨域协同过滤方法和系统。
技术介绍
互联网信息的快速增长需要有效的智能信息代理能够筛选出所有可用的信息,并在其中找到对用户最有价值的信息。近几年,推荐系统广泛应用于电子商务网和在线社交媒体,目前主要的推荐方法分为:基于内容的推荐、基于协同过滤的推荐、基于关联规则的推荐、基于效用推荐、基于知识推荐、组合推荐等;其中,基于协同过滤的推荐是推荐方法中最成功的策略,其基本思想是,和某用户相似的用户喜欢的资源,该用户很可能也喜欢;某用户喜欢某资源,他很可能也喜欢与该资源相似的其他资源;即用户们可以齐心协力通过自己在网站上的行为,如对资源的评价、浏览等,互相帮助挖掘过滤出自己感兴趣的内容。然而,在实际的推荐系统中,用户通常不愿意对他们不喜欢的项目进行评分,这就造成大多数的评分数据集是不平衡的。
技术实现思路
本申请提供了一种跨域协同过滤方法和系统,解决现有推荐系统存在数据集不平衡的技术问题。为解决上述技术问题,本申请采用以下技术方案予以实现:提出一种跨域协同过滤方法,包括以下步骤:将用户项目评分数据转换为分类算法的训练样本集;对每个辅助域的用户项目评分矩阵进行Funk-SVD分解,得到用户潜在向量;使用所述用户潜在向量扩展所述训练样本集中用户的特征向量,得到第一扩展训练样本集;添加项目特征信息来扩展第一扩展训练样本集中项目的特征向量得到第二扩展训练样本集;使用所述第二扩展训练样本集训练不平衡分类器;基于所述不平衡分类器预测所述用户项目评分数据的缺失数据并生成推荐。进一步的,将用户项目评分数据转换为分类算法的训练样本集,具体为:采用Lu表示用户在用户项目评分矩阵中的行,采用Li表示项目在用户项目评分矩阵中的列;基于特征向量(Lu,Li)构造用户项目评分数据的分类算法训练样本集{(Lu,Li,Rui)|(u,i)∈κ},其中κ是评分矩阵中有评分的“用户-项目”对的集合,Rui表示用户u对项目i的评分。进一步的,对每个辅助域的用户项目评分矩阵进行Funk-SVD分解得到用户潜在向量,具体包括:设定目标函数采用pu+γ(euiqi-λpu)和qi+γ(euipu-λqi)更新pu和qi,以优化所述目标函数;其中,λ为正则化参数,γ为学习速率;基于优化结果得到第j个辅助域上用户u的潜在向量其中j从1到K,K为辅助域的个数。进一步的,使用所述第二扩展训练样本集训练不平衡分类器,具体包括:初始化所述第二扩展训练样本集中每个样本的样本权重为其中,A为样本数,1≤a≤A;以下步骤重复T次:1)根据第t次迭代时,所有权重{Dt(xa)|1≤a≤A},训练并得到弱分类器ht;其中,t从1至T;2)计算每个训练样本xa的惩罚项pt=1-|amb|,其中,为弱分类器的权重;3)使用更新样本权重;其中,Zt为正则化因子,λ∈[0.5,12]为所述惩罚项的更新步长;计算不平衡分类器提出一种跨域系统过滤系统,包括训练样本转换模块、用户潜在向量生成模块、训练样本第一扩展模块、训练样本第二扩展模块、不平衡分类器训练模块和推荐模块;所述训练样本转换模块,用于将用户项目评分数据转换为分类算法的训练样本集;所述用户潜在向量生成模块,用于对每个辅助域的用户项目评分矩阵进行Funk-SVD分解,得到用户潜在向量;所述训练样本第一扩展模块,用于使用所述用户潜在向量扩展所述训练样本集中用户的特征向量,得到第一扩展训练样本集;所述训练样本第二扩展模块,用于添加项目特征信息扩展所述第一扩展训练样本集中项目的特征向量得到第二扩展训练样本集;所述不平衡分类器训练模块,用于使用所述第二扩展训练样本集训练不平衡分类器;所述推荐模块,用于基于所述不平衡分类器预测所述用户项目评分数据的缺失数据并生成推荐。进一步的,所述训练样本转换模块具体用于,采用Lu表示用户在用户项目评分矩阵中的行,采用Li表示项目在用户项目评分矩阵中的列,并基于特征向量(Lu,Li)构造用户项目评分数据的分类算法训练样本集{(Lu,Li,Rui)|(u,i)∈κ},其中κ是评分矩阵中有评分的“用户-项目”对的集合,Rui表示用户u对项目i的评分。进一步的,所述用户潜在向量生成模块包括目标函数设定单元、目标函数优化单元和用户潜在向量生成单元;所述目标函数设定单元,用于设定目标函数所述目标函数优化单元,用于采用pu+γ(euiqi-λpu)和qi+γ(euipu-λqi)更新pu和qi,以优化所述目标函数;其中,λ为正则化参数,γ为学习速率;所述用户潜在向量生成单元,用于基于优化结果得到第j个辅助域上用户u的潜在向量其中j从1到K,K为辅助域的个数。进一步的,所述不平衡分类器训练模块包括样本权重初始化单元、弱分类器训练单元、样本权重更新单元和不平衡分类器生成单元;所述样本权重初始化单元,用于初始化所述第二扩展训练样本集中每个样本的样本权重为其中,A为样本数,1≤a≤A;所述弱分类器训练单元,用于根据第t次迭代时,所有样本权重{Dt(xa)|1≤a≤A},训练并得到弱分类器ht;其中,t从1至T;所述样本权重更新单元,用于计算每个训练样本xa的惩罚项pt=1-|amb|,其中,为弱分类器的权重;使用更新样本权重;其中,Zt为正则化因子,λ∈[0.5,12]为所述惩罚项的更新步长;所述不平衡分类器生成单元,用于在所述弱分类器训练单元和所述样本权重更新单元重复T次计算后,计算不平衡分类器与现有技术相比,本申请的优点和积极效果是:本申请提出的跨域协同过滤方法和系统中,将用户项目评分矩阵中的评分数据,按照其在矩阵中的位置作为特征向量转化为训练样本,再从其他包含相对丰富信息的辅助域中通过Funk-SVD分解获得用户潜在向量,并使用用户潜在向量扩展训练样本集得到第一扩展训练样本集,从而降低了目标域的稀疏性,进而采用辅助域的项目特征信息来扩展第一扩展训练样本集得到第二扩展训练样本集,最后使用扩展后的训练样本集训练不平衡分类器,也即对转换并扩展后的训练集进行分类,预测目标域的用户项目评分矩阵的缺失数据,生成给用户的推荐数据;本申请中,采用不平衡分类模型来解决现有推荐系统存在数据集不平衡的问题,有效的克服了评分的偏态分布问题。结合附图阅读本申请实施方式的详细描述后,本申请的其他特点和优点将变得更加清楚。附图说明图1为本申请提出的跨域协同过滤方法的方法流程图;图2为本申请提出的跨域协同过滤系统的系统架构图。具体实施方式下面结合附图对本申请的具体实施方式作进一步详细地说明。本申请提出的跨域协同过滤方法,旨在对目标域的用户项目评分矩阵转换为训练样本集后,采用辅助域数据进行扩展以解决目标域数据稀疏性问题,继而对扩展后训练样本进行不平衡分类器的训练,采用不平衡分类器预测目标域的缺失项,进而得到推荐数据,解决现有推荐系统数据集稀疏和不平衡性问题。具体的包括如下步骤:步骤S11:将用户项目评分数据转换为分类算法的训练样本集。本申请实施例中,假定目标域为T,u和i分别代表用户的项目,用户和项目之间的关系通过u×i→R表示,R为评分,其范围设定为{1,2,3,4,5};本申请实施例中,采用Lu表示用户u在用户项目评分矩阵中的行,采用Li表示项目i在用户项目评分矩阵本文档来自技高网...

【技术保护点】
1.一种跨域协同过滤方法,其特征在于,包括以下步骤:将用户项目评分数据转换为分类算法的训练样本集;对每个辅助域的用户项目评分矩阵进行Funk‑SVD分解,得到用户潜在向量;使用所述用户潜在向量扩展所述训练样本集中用户的特征向量,得到第一扩展训练样本集;添加项目特征信息来扩展第一扩展训练样本集中项目的特征向量得到第二扩展训练样本集;使用所述第二扩展训练样本集训练不平衡分类器;基于所述不平衡分类器预测所述用户项目评分数据的缺失数据并生成推荐。

【技术特征摘要】
1.一种跨域协同过滤方法,其特征在于,包括以下步骤:将用户项目评分数据转换为分类算法的训练样本集;对每个辅助域的用户项目评分矩阵进行Funk-SVD分解,得到用户潜在向量;使用所述用户潜在向量扩展所述训练样本集中用户的特征向量,得到第一扩展训练样本集;添加项目特征信息来扩展第一扩展训练样本集中项目的特征向量得到第二扩展训练样本集;使用所述第二扩展训练样本集训练不平衡分类器;基于所述不平衡分类器预测所述用户项目评分数据的缺失数据并生成推荐。2.根据权利要求1所述的跨域协同过滤方法,其特征在于,将用户项目评分数据转换为分类算法的训练样本集,具体为:采用Lu表示用户在用户项目评分矩阵中的行,采用Li表示项目在用户项目评分矩阵中的列;基于特征向量(Lu,Li)构造用户项目评分数据的分类算法训练样本集{(Lu,Li,Rui)|(u,i)∈κ},其中κ是评分矩阵中有评分的“用户-项目”对的集合,Rui表示用户u对项目i的评分。3.根据权利要求2所述的跨域协同过滤方法,其特征在于,对每个辅助域的用户项目评分矩阵进行Funk-SVD分解得到用户潜在向量,具体包括:设定目标函数采用pu+γ(euiqi-λpu)和qi+γ(euipu-λqi)更新pu和qi,以优化所述目标函数;其中,λ为正则化参数,γ为学习速率;基于优化结果得到第j个辅助域上用户u的潜在向量其中j从1到K,K为辅助域的个数。4.根据权利要求1所述的跨域协同过滤方法,其特征在于,使用所述第二扩展训练样本集训练不平衡分类器,具体包括:初始化所述第二扩展训练样本集中每个样本的样本权重为其中,A为样本数,1≤a≤A;以下步骤重复T次:1)根据第t次迭代时,所有样本权重{Dt(xa)|1≤a≤A},训练并得到弱分类器ht;其中,t从1至T;2)计算每个训练样本xa的惩罚项pt=1-|amb|,其中,为弱分类器的权重;3)使用更新样本权重;其中,Zt为正则化因子,λ∈[0.5,12]为所述惩罚项的更新步长;计算不平衡分类器5.一种跨域系统过滤系统,其特征在于,包括训练样本转换模块、用户潜在向量生成模块、训练样本第一扩展模块、训练样本第二扩展模块、不平衡分类器训练模块和推荐模块;所述训练样本转换模块,用于将用户项目评分数据转换为分类算法的训练样本集;所述用户潜在向量生成模块,用于对...

【专利技术属性】
技术研发人员:于旭付裕徐凌伟杜军威巩敦卫
申请(专利权)人:青岛科技大学
类型:发明
国别省市:山东,37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1