一种基于表示与度量的用户个性化强化学习推荐系统技术方案

技术编号：40463763 阅读：7 留言：0更新日期：2024-02-22 23:17

本发明专利技术公开一种基于表示与度量的用户个性化强化学习推荐系统，使用代表一般用户偏好的数据集和预训练模型进行初始化，并按时间步收集用户数据并更新强化学习模型。使用图像数据代表商品，将用户的操作历史通过表示学习方法得到便于计算和度量的表示，根据用户历史数据，按照强化学习策略给出推荐商品集，并依照用户的点击行为与界面浏览时间计算出奖励值。将表示、推荐商品集和奖励值拼接起来，存储到回放缓存中，度量缓存中数据与当前观测值的相似度并采样相似度较高的缓存序列，进一步更新强化学习的策略，以实现持续地与用户交互并给出推荐。本发明专利技术考虑商品的图像输入，提高了缓存中历史数据与同策略行为的相似度，有利于实现用户的个性化推荐。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及一种基于表示与度量的用户个性化强化学习推荐系统，涉及图像的表示学习、强化学习和推荐系统。

技术介绍

1、强化学习，是通过建模马尔可夫决策过程，计算状态转移的价值并进行策略寻优的学习方式。强化学习过程中需要包含的核心元素包括：状态，动作，奖励，状态转移等。当很难从一个环境中直接获取状态的表示，而是只能得到一个状态的观测时，该环境中的决策可以被称为部分可观测马尔可夫决策过程。常用的方法是通过将观测输入一个编码器，得到一个关于状态的隐变量，然后再进行传统的强化学习过程。借助强化学习，可以在任一状态下给出依据策略选择的最优动作，该动作可以给接下来的决策带来最优的收益。

2、表示学习一般就是将原数据表示为一个隐变量的过程，一种表示做得越好，其包含原数据中的信息就越完善，对于模型的训练就越有帮助。通过表示学习，可以得到一些便于计算的向量，进而可以实现降维、相似度计算等操作。

3、度量学习主要是通过计算变量之间的距离，挖掘变量之间的关系。除了计算单一距离，还存在许多结合多种度量方式的多度量学习，多度量学习通常可以更好地刻画变量关系。

4、回放缓存是强化学习，尤其是深度强化学习算法中常用的技巧，主要用于消除数据局部关联性、稳定神经网络训练、提高样本效率；而作为强化学习中的监督信号，奖励函数的设计对强化学习的算法性能极为重要，奖励函数本身应该能更好地反映任务的进行程度并对算法的策略加以评判。

5、现有的主流强化学习算法以及使用强化学习进行推荐的系统中，大多数在回放缓存时依然使用先进先出

技术实现思路

1、专利技术目的：针对现有技术中存在的问题与不足，本专利技术提供一种基于表示与度量的用户个性化强化学习推荐系统。

2、通过对回放缓存进行改进，可以实现更加贴近用户习惯的策略训练方式。使用表示学习的方法，可以便于度量不同用户数据的相似性；而通过对回放缓存和交互范式进行创新，可以帮助强化学习提升性能，并实现更好的用户个性化推荐。

3、技术方案：一种基于表示与度量的用户个性化强化学习推荐系统，接受商品图像输入并获得图像的表征，将在线收集用户数据过程与离线策略训练过程相结合。在线收集数据过程中，该推荐系统基于用户的点击行为和浏览时间生成强化学习的奖励值，且允许用户自行搜索并引入新数据；离线策略训练过程中，通过度量不同序列(实时的商品表征历史数据o_t’与缓存中的旧历史数据)的相似性对缓存中的序列进行排序，并依据优先级采样回放，训练强化学习策略模型。

4、包括在线收集用户数据模块和离线策略训练及执行推荐模块；

5、在线收集用户数据模块，用于获取推荐商品与用户操作的在线交互过程中的数据，在线收集用户数据模块的执行流程具体为：

6、步骤100，从系统数据库中获取大量用户的使用数据，使用一般的强化学习算法进行预训练，得到一个强化学习预训练模型，并将该强化学习预训练模型使用的有关商品数据存入一个数据集中，作为符合普通大众用户偏好的基础数据集。

7、步骤101，初始化交互时间步t为1，并随着每次用户在商品界面的操作结束且退出界面时增加1；

8、步骤102，在离线策略训练及执行推荐模块的离线策略训练过程结束后根据上一轮中包含用户反馈的历史数据o_(t-1)给出新的推荐商品集a_t；如果此时t＝1，则根据强化学习预训练模型给出推荐商品集。

9、步骤103，通过用户浏览交互界面推送商品；用户可以选择点击界面中的商品，自行搜索并点击一个商品，或者不进行任何操作。

10、步骤104，检查用户是否点击过任何商品。如果没有，则直接跳到步骤109的奖励函数，对强化学习的策略给予反馈，否则继续向下进入步骤105进行数据的收集。

11、步骤105，检查用户是否自行搜索过商品。如果有，则进入步骤106，否则跳转到步骤107。

12、步骤106，将用户搜索的新商品p_t加入到步骤100中的数据集中，便于重置针对不同用户的强化学习预训练模型。

13、步骤107，将用户点击的商品与历史数据o_t拼接起来，该商品可以是数据库中已有的商品，标记为i_t，或者是用户自行搜索的新商品，标记为p_t。

14、步骤108，将拼接后的数据输入到编码器中，得到新的历史数据o_t’。这里的编码器是用于得到历史数据的一种表示，本专利技术的实现方式为：先通过一个预训练的卷积神经网络提取当前用户操作的商品图像的特征，然后将这些特征组合为一个向量，再输入至具有注意力机制和池化层的网络中得到。

15、步骤109，根据用户的点击行为，使用奖励函数生成反馈值。奖励函数要同时考虑用户的点击行为和浏览时间。rt＝f(ct)+g(et)，其中f(ct)需要检查用户的点击行为ct，若未点击则给出一个较大的负的奖励值(如-1)，若点击了自行搜索的商品则给出一个较小的负奖励值(如-0.5)，否则给出一个正的奖励值(如+1)。而g(et)函数与浏览时间et正相关，一般来说，用户浏览界面的时间越长，可能表示其对当前页面的商品比较感兴趣，因此即使用户最后没有点击行为，但依然可以根据用户对界面的浏览时间给出一个奖励值。可以给定一个基准的时间值t0，如15秒，然后计算用户在界面的浏览时间与这一基准时间值的比值ρ＝tt/t0，进而将这个比值归一化得到一个与浏览时间有关的奖励值。有关的基准时间值在应用时可以根据情况进行不同的选择。在生成奖励值后，将该奖励值拼接至序列中，输入到离线策略训练过程中。

16、离线策略训练及执行推荐模块执行离线策略训练过程和商品信息推荐，具体流程为：

17、步骤200，与步骤100相同，为了展示流程的顺序在这里也同样给出；

18、步骤201，上一轮交互后，历史观测序列o_t通过推荐一个商品集a_t，得到一个由奖励函数计算得到的奖励值r_t，并将用户点击的商品与o_t拼接在一起得到新的历史观测序列o_t’。将上述操作得到的序列(o_t,a_t,r_t,o_t’)加入到回放缓存中，以便后续训练时使用；

19、步骤202，检查回放缓存是否达到设定的最低容量。一般在使用时需要回放缓存达到一定的容量才可以用来进行训练，因此需要先收集一定数量的序列。对于本专利技术来说，最低容量选取的数值不宜太大，一般为数据库中数据量的1/1000左右，否则会影响强化学习初始的训练。如果未达到最低容量，则跳转至步骤208，否则可以开始训练，进入到步骤203；

20、步骤203，对于缓存中的历史序列，度量所有历史序列数据与当前用户交互后的序列的相似度，例如使用两个向量的范数等，然后根据相似度组本文档来自技高网...

【技术保护点】

1.一种基于表示与度量的用户个性化强化学习推荐系统，其特征在于，接受商品图像输入并获得图像的表征，将在线收集用户数据过程与离线策略训练过程相结合；包括在线收集用户数据模块和离线策略训练及执行推荐模块；在线收集用户数据模块，用于获取推荐商品与用户操作的在线交互过程中的数据；离线策略训练及执行推荐模块执行离线策略训练过程和商品信息推荐；

2.根据权利要求1所述的基于表示与度量的用户个性化强化学习推荐系统，其特征在于，在线收集用户数据模块，用于获取推荐商品与用户操作的在线交互过程中的数据，在线收集用户数据模块的执行流程具体为：

3.根据权利要求2所述的基于表示与度量的用户个性化强化学习推荐系统，其特征在于，所述步骤108中，将拼接后的数据输入到编码器中，编码器用于得到拼接后的数据的表示。

4.根据权利要求2所述的基于表示与度量的用户个性化强化学习推荐系统，其特征在于，所述步骤109中，奖励函数要同时考虑用户的点击行为和浏览时间，奖励函数rt＝f(ct)+g(et)，其中f(ct)需要检查用户的点击行为ct，若未点击则给出一个较大的负的奖励值，若点击了

5.根据权利要求2所述的基于表示与度量的用户个性化强化学习推荐系统，其特征在于，离线策略训练及执行推荐模块执行离线策略训练过程和商品信息推荐，具体流程为：

...

【技术特征摘要】

4.根据...

【专利技术属性】
技术研发人员：詹德川，叶翰嘉，韩路，孙海航，周志华，
申请(专利权)人：南京大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人