一种基于元学习与强化学习的推荐系统技术方案

技术编号：24290316 阅读：36 留言：0更新日期：2020-05-26 20:21

本发明专利技术通过元学习、强化学习和数据挖掘领域的方法，实现了一种基于元学习与强化学习的推荐系统，定义和构建内部更新模块和元更新模块模型，并由上述两模块构成系统模型；系统模型训练过程为：对一次用户的特征数据输入产生推荐的策略，进而根据这个策略求出误差，然后通过内部更新过程中提到的优化方法来优化模型的参数得到下一步策略，根据设定的内部更新的步数得到最终的策略，最后通过输入用户对推荐内容的反馈而产生误差，然后对初始的模型进行求导，并进行更新得到新的模型。在模型训练完成之后，系统接受用户的特征数据，为该用户推荐推内容，并收集这之后用户对于这些内容的反馈。

A recommendation system based on meta learning and reinforcement learning

全部详细技术资料下载

【技术实现步骤摘要】
一种基于元学习与强化学习的推荐系统
本专利技术涉及元学习、强化学习和数据挖掘领域，尤其涉及一种基于元学习与强化学习的推荐系统。
技术介绍
目前推荐系统几乎无处不在，许多的app都运用了推荐系统，出行，购物，视频，新闻，社交等等，我们都能看到推荐系统的影子，它已经与我们的日常生活息息相关。究其原因，对于用户而言，面临海量的数据，总是希望能够快速的找到自己感兴趣或者是对自己有价值的信息；对于信息生产者而言，总是希望自己的内容能够吸引更多的顾客，但是不同的顾客有不同的偏好，所以对于不同的用户，应该有不同的推荐内容。虽然推荐系统无论对于企业还是用户都有很多好处，但是如果推荐系统的表现差强人意，会对企业造成很大的损失。目前很多的推荐系统都是基于用户或者是商品之间的相似度进行推荐的，这种基于监督式学习的推荐方式有一定的局限性：1.这些推荐系统倾向于基于短期内行为进行推荐，没有考虑到用户长期的行为。比如：当一个人在淘宝上购买了一副耳机，那么最近一段时间推荐系统仍会给该用户推荐耳机，会严重影响用户的体验。2.不能快速的根据用户的行为或者偏好进行个性化的推荐。由于是基于相似度的推荐，那么系统需要先收集到一定的用户信息和行为，才能进行个性化的推荐。这需要长时间的用户反馈，并可能导致用户的流失。3.推荐系统的偏差。推荐系统及其依赖用户的反馈，当推荐系统给用户推荐了，A和B两个商品，那么我们会只关注到用户对A和B的反馈，而不知道用户对于其他视频的喜爱程度。强化学习近年来获得了很多的关注，在围棋场上大放异彩，在...

【技术保护点】
1.一种基于元学习与强化学习的推荐系统，其特征在于：/n步骤一：输入用户基本信息以及游览记录或者购买记录，定义内部更新模块和元更新模块模型，由内部更新模块和元更新模块构成系统模型；/n所述内部更新模块模型首先接受用户以往一段时间的各项特征数据包括用户对这些数据的反馈，然后用梯度下降的方法来对模型进行优化得到快速适应后的模型，然后再接受该用户目前的各项特征数据；/n所述元更新模块通过马尔可夫过程计算用户的各项指标变化，通过定义的元损失函数使得在在整个阶段中提供的推荐的激励能达到最大；/n步骤二：所述系统模型通过所述内部更新模块，首先系统结合对用户以往一次的推荐内容，和用户对其产生的反馈，通过梯度下降的方法来进行模型修正，进行个性化的适应。/n步骤三：通过所述内部更新模块接受用户当前的的各项特征数据，然后用步骤二修正后的策略进行输出，所述输出为向该用户推荐新的内容；/n步骤四：通过输入用户对步骤三中推荐内容的反馈而计算得到推荐的激励，所述反馈为对推荐内容是否喜欢的标签记录。/n步骤五：得到经过所述步骤四推荐后得到的激励之后，再对初始的模型进行求导更新。/n

【技术特征摘要】
1.一种基于元学习与强化学习的推荐系统，其特征在于：
步骤一：输入用户基本信息以及游览记录或者购买记录，定义内部更新模块和元更新模块模型，由内部更新模块和元更新模块构成系统模型；
所述内部更新模块模型首先接受用户以往一段时间的各项特征数据包括用户对这些数据的反馈，然后用梯度下降的方法来对模型进行优化得到快速适应后的模型，然后再接受该用户目前的各项特征数据；
所述元更新模块通过马尔可夫过程计算用户的各项指标变化，通过定义的元损失函数使得在在整个阶段中提供的推荐的激励能达到最大；
步骤二：所述系统模型通过所述内部更新模块，首先系统结合对用户以往一次的推荐内容，和用户对其产生的反馈，通过梯度下降的方法来进行模型修正，进行个性化的适应。
步骤三：通过所述内部更新模块接受用户当前的的各项特征数据，然后用步骤二修正后的策略进行输出，所述输出为向该用户推荐新的内容；
步骤四：通过输入用户对步骤三中推荐内容的...

【专利技术属性】
技术研发人员：李建欣，张帅，朱琪山，杨继远，周号益，
申请(专利权)人：北京航空航天大学，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人