The invention discloses a cross-domain collaborative filtering method. After converting user item score data into training sample set, the user item score matrix of each auxiliary domain is decomposed into user potential vector by Funk SVD, and then the training sample set is expanded by using the user potential vector to obtain the first extended training sample set, and the project feature information is added to expand the first extended training. The second extended training sample set is obtained by training the imbalance classifier with the second extended training sample set. Finally, the missing data of the user item scoring data is predicted and the recommendation is generated based on the imbalance classifier. The sparsity problem of the target domain data is solved by extending the auxiliary domain data, and then the imbalance classification of the expanded training sample is carried out. In training, unbalanced classifier is used to predict missing items in target domain, and then recommendation data is obtained to solve the problem of sparse and unbalanced data sets in existing recommendation systems.
【技术实现步骤摘要】
一种跨域协同过滤方法和系统
本专利技术属于信息推荐
,具体地说,是涉及一种跨域协同过滤方法和系统。
技术介绍
互联网信息的快速增长需要有效的智能信息代理能够筛选出所有可用的信息,并在其中找到对用户最有价值的信息。近几年,推荐系统广泛应用于电子商务网和在线社交媒体,目前主要的推荐方法分为:基于内容的推荐、基于协同过滤的推荐、基于关联规则的推荐、基于效用推荐、基于知识推荐、组合推荐等;其中,基于协同过滤的推荐是推荐方法中最成功的策略,其基本思想是,和某用户相似的用户喜欢的资源,该用户很可能也喜欢;某用户喜欢某资源,他很可能也喜欢与该资源相似的其他资源;即用户们可以齐心协力通过自己在网站上的行为,如对资源的评价、浏览等,互相帮助挖掘过滤出自己感兴趣的内容。然而,在实际的推荐系统中,用户通常不愿意对他们不喜欢的项目进行评分,这就造成大多数的评分数据集是不平衡的。
技术实现思路
本申请提供了一种跨域协同过滤方法和系统,解决现有推荐系统存在数据集不平衡的技术问题。为解决上述技术问题,本申请采用以下技术方案予以实现:提出一种跨域协同过滤方法,包括以下步骤:将用户项目评分数据转换为分类算法的训练样本集;对每个辅助域的用户项目评分矩阵进行Funk-SVD分解,得到用户潜在向量;使用所述用户潜在向量扩展所述训练样本集中用户的特征向量,得到第一扩展训练样本集;添加项目特征信息来扩展第一扩展训练样本集中项目的特征向量得到第二扩展训练样本集;使用所述第二扩展训练样本集训练不平衡分类器;基于所述不平衡分类器预测所述用户项目评分数据的缺失数据并生成推荐。进一步的,将用户项目评分数据转 ...
【技术保护点】
1.一种跨域协同过滤方法,其特征在于,包括以下步骤:将用户项目评分数据转换为分类算法的训练样本集;对每个辅助域的用户项目评分矩阵进行Funk‑SVD分解,得到用户潜在向量;使用所述用户潜在向量扩展所述训练样本集中用户的特征向量,得到第一扩展训练样本集;添加项目特征信息来扩展第一扩展训练样本集中项目的特征向量得到第二扩展训练样本集;使用所述第二扩展训练样本集训练不平衡分类器;基于所述不平衡分类器预测所述用户项目评分数据的缺失数据并生成推荐。
【技术特征摘要】
1.一种跨域协同过滤方法,其特征在于,包括以下步骤:将用户项目评分数据转换为分类算法的训练样本集;对每个辅助域的用户项目评分矩阵进行Funk-SVD分解,得到用户潜在向量;使用所述用户潜在向量扩展所述训练样本集中用户的特征向量,得到第一扩展训练样本集;添加项目特征信息来扩展第一扩展训练样本集中项目的特征向量得到第二扩展训练样本集;使用所述第二扩展训练样本集训练不平衡分类器;基于所述不平衡分类器预测所述用户项目评分数据的缺失数据并生成推荐。2.根据权利要求1所述的跨域协同过滤方法,其特征在于,将用户项目评分数据转换为分类算法的训练样本集,具体为:采用Lu表示用户在用户项目评分矩阵中的行,采用Li表示项目在用户项目评分矩阵中的列;基于特征向量(Lu,Li)构造用户项目评分数据的分类算法训练样本集{(Lu,Li,Rui)|(u,i)∈κ},其中κ是评分矩阵中有评分的“用户-项目”对的集合,Rui表示用户u对项目i的评分。3.根据权利要求2所述的跨域协同过滤方法,其特征在于,对每个辅助域的用户项目评分矩阵进行Funk-SVD分解得到用户潜在向量,具体包括:设定目标函数采用pu+γ(euiqi-λpu)和qi+γ(euipu-λqi)更新pu和qi,以优化所述目标函数;其中,λ为正则化参数,γ为学习速率;基于优化结果得到第j个辅助域上用户u的潜在向量其中j从1到K,K为辅助域的个数。4.根据权利要求1所述的跨域协同过滤方法,其特征在于,使用所述第二扩展训练样本集训练不平衡分类器,具体包括:初始化所述第二扩展训练样本集中每个样本的样本权重为其中,A为样本数,1≤a≤A;以下步骤重复T次:1)根据第t次迭代时,所有样本权重{Dt(xa)|1≤a≤A},训练并得到弱分类器ht;其中,t从1至T;2)计算每个训练样本xa的惩罚项pt=1-|amb|,其中,为弱分类器的权重;3)使用更新样本权重;其中,Zt为正则化因子,λ∈[0.5,12]为所述惩罚项的更新步长;计算不平衡分类器5.一种跨域系统过滤系统,其特征在于,包括训练样本转换模块、用户潜在向量生成模块、训练样本第一扩展模块、训练样本第二扩展模块、不平衡分类器训练模块和推荐模块;所述训练样本转换模块,用于将用户项目评分数据转换为分类算法的训练样本集;所述用户潜在向量生成模块,用于对...
【专利技术属性】
技术研发人员:于旭,付裕,徐凌伟,杜军威,巩敦卫,
申请(专利权)人:青岛科技大学,
类型:发明
国别省市:山东,37
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。