当前位置: 首页 > 专利查询>厦门大学专利>正文

一种基于数据非随机缺失机制的推荐系统方法技术方案

技术编号:18458813 阅读:33 留言:0更新日期:2018-07-18 12:42
一种基于数据非随机缺失机制的推荐系统方法,涉及互联网技术。获取用户历史行为记录;对得到的用户历史行为数据进行预处理;对预处理后的数据划分为训练集和测试集,进行模型训练;在模型训练结果中获取用户和商品相关参数;根据用户和商品相关参数预测用户对于未评分商品的偏好,并进行推荐。一方面克服了传统推荐方法中存在的随机缺失机制不能正确体现评分的缺失行为的缺点,另一方面通过沉默的螺旋理论,更加准确的给出用户在对商品进行评分行为的机制,增强模型的可解释性,提高预测精度。

A recommendation system method based on data non random deletion mechanism

A recommendation system based on data non random deletion mechanism involves Internet technology. Obtain user historical behavior records; preprocess user historical behavior data; divide the pre processed data into training set and test set, carry out model training, obtain user and commodity related parameters in the model training results, and predict users' bias on Unrated goods according to the number of users and commodity related parameters. OK, and recommend it. On the one hand, it overcomes the shortcomings of the random deletion mechanism existing in the traditional method of recommendation, and on the other hand, through the silent spiral theory, the mechanism of the user's grading behavior on the goods is given more accurately, and the interpretability of the model is enhanced and the prediction accuracy is improved.

【技术实现步骤摘要】
一种基于数据非随机缺失机制的推荐系统方法
本专利技术涉及互联网技术,特别涉及一种基于数据非随机缺失机制的推荐系统方法。
技术介绍
随着互联网的发展,每天产生的信息数以亿计,用户需要花费大量的时间和精力才能从如此大量的数据中发现所需的信息,导致信息利用率极其低下,为了解决因信息过载而导致的问题,推荐系统得到广泛的应用,推荐系统就是,通过用户产生的历史数据,发现用户的信息需求、兴趣等,然后将用户感兴趣的信息、产品等推荐给用户的系统。和搜索引擎相比,推荐系统通过研究用户的兴趣偏好,能够发现用户的兴趣点,引导用户发现自己的信息需求,高效获取信息。近来,推荐系统受到越来越多的关注,如中国专利CN106021379A公开了一种基于用户偏好的个性化推荐方法及其系统,利用用户产生的历史行为数据,通过机器学习模型训练发现用户的偏好,并基于用户偏好对用户给出推荐,大大提高了用户的信息利用率,在大量的研究中,矩阵分解技术在评分的预测上有着很好的表现,矩阵分解即是,将已有的用户对商品的评分构成用户-商品评分矩阵,然后通过梯度下降算法将评分矩阵分解为两个子矩阵,即用户特征矩阵和商品特征矩阵,再将两个子矩阵相乘得到缺失的评分值。如中国专利CN103903163A公开了一种基于耦合主题模型的协同滤波方法,其方法就是在矩阵分解的基础上进行改进的,通过将矩阵分解与主题模型相结合的方法,提高了推荐模型的准确性。研究表明,当矩阵的缺失值是随机缺失的时候,矩阵分解算法有着非常高的评分预测准确率,但是,当矩阵的缺失值是非随机缺失时,矩阵分解表现的并不是很好。而在现实推荐场景下,评分矩阵的缺失值往往是非随机缺失的,例如,一个用户在购买商品以后,对该商品的体验很差,那用户很有可能就不倾向于给出对该商品的评分,而造成评分的缺失,这种评分的缺失是跟用户体验相关的,并不是单纯的随机缺失,这种现象相当常见,因此矩阵分解算法在现实的应用中存在一定的缺陷性。就矩阵分解存在的随机缺失假设这一不足,Marlin等人在2007年人工智能不确定性会议集(ConferenceonUncertaintyinArtificialIntelligence)第267-275页的工作首次提出了基于非随机缺失机制的推荐模型,引入数据非随机缺失机制,在缺失因素上加入用户偏好,并比较了传统的随机缺失模型,实验结果均有较大提升;紧接着Marlin等人又在2009年推荐系统会议集(ACMConferenceonRecommenderSystems)第5-12页的工作进一步提出改进;后续,包括Hernández-Lobato等人在2014年机器学习国际会议集(InternationalConferenceonMachineLearning)第1512-1520页的工作以及H.Yang等人2015年在IEEE知识与数据工程汇刊(IEEETransactionsonKnowledgeandDataEngineering)第2064-2077页的工作,都是在数据非随机缺失的基础上进行推荐模型的构建,然而,仔细研究上述文献可以发现,这些文献在在评分数据缺失因素上,只是考虑用户自身的偏好对于数据缺失的影响,更多是在用户偏好如何影响数据缺失的方式上进行改进,我们通过传播学的沉默螺旋理论发现,导致用户评分数据缺失的因素并非只有用户的偏好在起作用,大众意见也是用户参考的因素之一,由此可见,上述文献所提供的推荐模型仍然存在较大的不足,因此本专利技术通过提出一种基于数据非随机缺失机制的推荐系统方法,解决了现有模型存在的缺陷和不足,提高了推荐的精确性。
技术实现思路
本专利技术的目的在于针对现有的模型以及对现实用户评分的行为特点所存在的上述缺陷和不足,提供一种基于数据非随机缺失机制的推荐系统方法。本专利技术包括以下步骤:1)获取用户历史行为记录;2)对得到的用户历史行为数据进行预处理;3)对预处理后的数据划分为训练集和测试集,进行模型训练;4)在模型训练结果中获取用户和商品相关参数;5)根据用户和商品相关参数预测用户对于未评分商品的偏好,并进行推荐。在步骤1)中,所述获取用户历史行为记录,包括用户对商品的历史评分数据以及评分的时间戳等数据。在步骤2)中,所述对得到的用户历史行为数据进行预处理的具体步骤可为:(1)过滤掉数据不全的评分数据;(2)去掉用户评分次数和商品被评分次数低于阈值的用户ID和商品ID;(3)对评分进行数值转换。在步骤3)中,所述对预处理后的数据划分为训练集和测试集,进行模型训练的具体方法可为:当所得的评分数据中不含有时间戳时,随机将部分评分数据作为训练集,剩下的部分作为测试集;当得到的评分数据包含有时间戳时,优先将时间较早的评分数据作为训练集,剩下的部分作为测试集,将得到的训练集作为模型的数据输入。在步骤4)中,所述在模型训练结果中获取用户和商品相关参数可包括用户社区特征向量Uic、用户的偏置值BUi、用户的社区参数γi、商品特征向量Vj、商品的偏置值BVj等;在步骤5)中,所述根据用户和商品相关参数预测用户对于未评分商品的偏好,并进行推荐的具体步骤可为:(1)根据γi确定用户所属的社区c;(2)根据公式预测用户i对商品j的评分;(3)将得到的评分与测试集评分进行对比,衡量模型的可靠性;(4)对评分进行降序排序,选择位于前列的多个商品,得到用户的推荐列表,对用户给出推荐。本专利技术针对现实用户评分的行为特点,应用传播学的沉默螺旋理论,沉默螺旋理论认为,用户在社交媒体上发表观点时,会参照大众的主流意见,当用户发现自己的意见与社会主流意见相一致时,用户会更倾向于表达自己的观点,而当用户发现自己的观点与社会主流意见不一致时,用户往往会选择沉默,所以就造成社会主流意见越来越强,而反对意见则进一步沉默的螺旋形态。社会主流意见的表现形式很多,在本专利技术中,以社区意见表示社会主流意见。由此本专利技术提出一种能够更加真实的反映用户行为的评分机制,不仅成功解决了随机缺失模型在假设上存在的不足,适用于更加真实并且复杂的推荐场景,提高推荐的精准度,很大程度上改善用户体验,而且对于评分信息稀疏的情况有很大的改善。本专利技术根据推荐系统中,用户对于商品的评分存在的非随机缺失机制,分析用户进行评分行为的特点,依据传播学中沉默的螺旋理论进行模型构建,使得模型能够真实反映出用户的消费机制,给出更高的准确率。本专利技术的有益效果在于:提出的推荐方法,一方面克服了传统推荐方法中存在的随机缺失机制不能正确体现评分的缺失行为的缺点,另一方面通过沉默的螺旋理论,更加准确的给出用户在对商品进行评分行为的机制,增强模型的可解释性,提高预测精度。附图说明图1是本专利技术实施例的流程示意图。图2是本专利技术提供的于数据非随机缺失机制推荐模型的生成示意图。具体实施方式以下实施例将结合附图对本专利技术作进一步的说明。本专利技术提供的模型方法采用生成式模型,生成过程可抽象为用户进行购买行为,将用户和商品映射到隐含空间,并且引入社区隐变量,假设每个用户属于特定的社区,对每个用户所处的社区学习用户特征向量Uic和商品特征向量Vj,用户在购买完商品并使用后,形成用户对于商品的评分,之后用户会参照社会主流意见与自己的评分的差距,决定是否对该商品进行评分行为,通过引入社区变量,能够灵活的表示用户本文档来自技高网
...

【技术保护点】
1.一种基于数据非随机缺失机制的推荐系统方法,其特征在于包括以下步骤:1)获取用户历史行为记录;2)对得到的用户历史行为数据进行预处理;3)对预处理后的数据划分为训练集和测试集,进行模型训练;4)在模型训练结果中获取用户和商品相关参数;5)根据用户和商品相关参数预测用户对于未评分商品的偏好,并进行推荐。

【技术特征摘要】
1.一种基于数据非随机缺失机制的推荐系统方法,其特征在于包括以下步骤:1)获取用户历史行为记录;2)对得到的用户历史行为数据进行预处理;3)对预处理后的数据划分为训练集和测试集,进行模型训练;4)在模型训练结果中获取用户和商品相关参数;5)根据用户和商品相关参数预测用户对于未评分商品的偏好,并进行推荐。2.如权利要求1所述一种基于数据非随机缺失机制的推荐系统方法,其特征在于在步骤1)中,所述获取用户历史行为记录,包括用户对商品的历史评分数据以及评分的时间戳数据。3.如权利要求1所述一种基于数据非随机缺失机制的推荐系统方法,其特征在于在步骤2)中,所述对得到的用户历史行为数据进行预处理的具体步骤为:(1)过滤掉数据不全的评分数据;(2)去掉用户评分次数和商品被评分次数低于阈值的用户ID和商品ID;(3)对评分进行数值转换。4.如权利要求1所述一种基于数据非随机缺失机制的推荐系统方法,其特征在于在步骤3)中,所述对预处理后的数据划分为训练集和测试集...

【专利技术属性】
技术研发人员:林琛黄洁刘杜钢
申请(专利权)人:厦门大学
类型:发明
国别省市:福建,35

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1