【技术实现步骤摘要】
基于标签迁移的跨域推荐方法
本专利技术属于数据挖掘
,具体涉及一种基于标签迁移的跨域推荐方法。
技术介绍
身处大数据时代,互联网用户每天都在生产数据、创造数据和使用数据,一方面,数据量与日俱增,信息过载问题严重,另一方面,用户面对大量的信息不能及时有效地去寻找到自己所需的信息,为了解决这些问题,推荐系统应运而生,并在各个领域中得到了广泛的应用,但是传统的推荐主要还是集中在单一领域中,随着互联网技术的高速发展,急剧增多的用户和物品数量使得传统单一的推荐系统面临数据稀疏和冷启动问题的严峻挑战。目前,基于迁移学习技术,结合推荐算法,出现了跨领域推荐的方法,旨在缓解传统单一领域推荐中存在的稀疏性问题和新用户新物品的冷启动问题,比如抹平不同领域间的评分刻度差异,直接迁移评分矩阵的方法,还有基于领域间标签的迁移学习方法,但是这些方法存在很多的不足,如果忽略领域间的评分刻度差异,可能会发生负迁移的现象,而只利用领域间的标签信息,忽略评分信息,可能会削弱最终的推荐效果。
技术实现思路
本专利技术的目的是提供 ...
【技术保护点】
1.基于标签迁移的跨域推荐方法,其特征在于,具体按照以下步骤实施:/n步骤1、假设A领域为源领域,B领域为目标领域,实现A领域与B领域之间的跨域推荐的前提条件如下:A领域与B领域存在重叠的用户,所述用户共用一套相同的标签系统并且A领域和B领域中都有对应的用户物品评分信息,通过迁移上述共享的标签信息,实现以A领域为源领域辅助目标领域B领域完成推荐任务,或者以B领域为源领域辅助目标领域A领域完成推荐任务;/n步骤2、利用用户对A领域的评分信息构建A领域用户评分矩阵;/n步骤3、对A领域用户评分矩阵进行分解,得到用户潜在特征矩阵U
【技术特征摘要】
1.基于标签迁移的跨域推荐方法,其特征在于,具体按照以下步骤实施:
步骤1、假设A领域为源领域,B领域为目标领域,实现A领域与B领域之间的跨域推荐的前提条件如下:A领域与B领域存在重叠的用户,所述用户共用一套相同的标签系统并且A领域和B领域中都有对应的用户物品评分信息,通过迁移上述共享的标签信息,实现以A领域为源领域辅助目标领域B领域完成推荐任务,或者以B领域为源领域辅助目标领域A领域完成推荐任务;
步骤2、利用用户对A领域的评分信息构建A领域用户评分矩阵;
步骤3、对A领域用户评分矩阵进行分解,得到用户潜在特征矩阵Usrc和物品潜在特征矩阵Vsrc;
步骤4、基于用户潜在特征矩阵对用户进行聚类,聚类采用K-Means聚类方法,得到每一类别下的用户;
步骤5、构建神经网络模型,对步骤4得到的不同类型下的用户使用的标签进行学习,并训练神经网络,得到能根据用户使用标签的特征对用户进行分类的神经网络模型,经过不断地训练得到最优网络模型;
步骤6、对每一类下的用户进行跨域推荐。
2.根据权利要求1所述的基于标签迁移的跨域推荐方法,其特征在于,所述步骤1中A领域与B领域重叠的用户共用一套相同的标签,标签包括属性标签和行为标签,其中属性标签包括性别、年龄、职业,行为标签包括用户对物品所属标签的使用次数。
3.根据权利要求1所述的基于标签迁移的跨域推荐方法,其特征在于,所述步骤2具体如下:
步骤2.1、利用Pandas库中的read_table函数读入用户物品评分表,该表中包括的字段有用户ID、物品ID和评分,该函数指定要打开文件的位置、用作列名的行号、用作行索引的列编号或列名,并设置python引擎来对用户物品评分表进行解析;
步骤2.2、利用读到的用户物品评分表,使用Pandas的unique函数获取用户列名和物品列名的所有唯一值,然后使用len函数得到唯一的用户和物品的个数,结合numpy的zeros函数,创建行为用户数,列为物品数的全零二维数组;
步骤2.3、按元组的方式遍历用户物品评分表,使用pandas的loc函数和python的内建函数getattr,将每个用户对每部物品的评分值对应起来并填充到创建的全零二维数组的对应位置,从而得到用户对物品的评分矩阵user_item_matrix,并保存为user_item_matrix.csv。
4.根据权利要求3所述的基于标签迁移的跨域推荐方法,其特征在于,所述步骤3具体如下:
步骤3.1、利用Pandas库中的read_csv函数读入步骤2得到的用户物品评分矩阵user_item_matrix.csv,通过设置用户潜在评分因子k和物品潜在评分因子l的大小以及最大迭代次数max_iter约束矩阵的分解;
步骤3.2、不断调整用户潜在评分因子k和物品潜在评分因子l以及最大迭代次数max_iter的值以最小化目标函数,目标函数达到最小值,得到源领域中的用户潜在特征矩阵Usrc、物品潜在特征矩阵Vsrc以及集群级的用户和物品评分矩阵S。
5.根据权利要求4所述的基于标签迁移的跨域推荐方法,其特征在于,所述步骤3.2具体如下:
通过不断地迭代以最小化目标函数:
其中,m代表源领域中的用户数,k代表用户潜在评分因子,n代表源领域中物品的个数,l代表物品潜在评分因子,Usrc的大小为m×k,表示源领域中m个用户对k个用户潜在评分因子的用户潜在特征矩阵,同样,Vsrc的大小为n×l,表示源领域中n个物品对l个物品潜在评分因子的物品潜在特征矩阵。
6.根据权利要求4所述的基于标签迁移的跨域推荐方法,其特征在于,所述步骤3.2中当k=l=40,max_iter=200时,目标函数达到最小值。
7.根据权利要求4所述的基于标签迁移的跨域推荐方法,其特征在于,所述步骤4具体如下:
步骤4.1、设聚类个数为K,即对应K个初始的类簇,然后由用户潜在特征矩...
【专利技术属性】
技术研发人员:姚全珠,吕鹏,费蓉,陈晨,
申请(专利权)人:西安理工大学,
类型:发明
国别省市:陕西;61
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。