基于深度强化学习的内容推荐方法以及相关设备技术

技术编号：40199200 阅读：26 留言：0更新日期：2024-01-27 00:03

本申请涉及金融科技领域，提供了一种基于深度强化学习的内容推荐方法以及相关设备，该基于深度强化学习的内容推荐方法基于用户的当前状态信息利用深度强化学习算法训练得到的内容推荐模型对目标用户进行个性化推荐，且在内容推荐模型的训练过程中，获取针对推荐系统用户的历史推荐内容的第一累积收益值，从而根据第一累积收益值调整内容推荐模型的推荐策略，使得内容推荐模型能够根据推荐效果实时调整推荐动作策略，提高推荐方法的适应性和推荐效果，提高用户体验，此外，通过根据每个推荐动作的第二累积收益值与所有推荐动作的第二累积收益值确定每个推荐动作的置信值，基于该置信值进行推荐动作选择，能够提高推荐方法的可靠性和鲁棒性。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及金融科技领域，尤其涉及一种基于深度强化学习的内容推荐方法以及相关设备。

技术介绍

1、在金融领域中，随着资产管理类产品的兴起，针对基金、保险、理财等产品的推荐逐渐成为热门。传统的推荐算法通常采用基于统计模型的方法，如协同过滤、基于内容的推荐等。

2、由于传统的推荐算法通常基于历史数据进行推荐，缺乏个性化和实时性，无法充分挖掘用户的兴趣和需求变化，且无法根据不同用户和环境的需求自动调整推荐模型，导致推荐结果不够准确以及不符合用户的实际需求，影响了用户体验。

技术实现思路

1、本申请实施例的主要目的在于提出一种基于深度强化学习的内容推荐方法以及相关设备，能够自适应为用户提供个性化内容推荐，提高用户体验。

2、为实现上述目的，本申请实施例的第一方面提出了一种基于深度强化学习的内容推荐方法，所述方法包括：

3、响应于目标用户的内容推荐请求，获取目标用户的当前状态信息；

4、利用深度强化学习算法训练得到的内容推荐模型根据所述当前状态信息确定至...

【技术保护点】

1.一种基于深度强化学习的内容推荐方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述推荐动作策略包括探索动作策略和收益动作策略；其中，

3.根据权利要求2所述的方法，其特征在于，所述根据所述比较结果将所述内容推荐模型中的推荐动作策略调整为所述探索动作策略或所述收益动作策略，包括：

4.根据权利要求2所述的方法，其特征在于，所述根据所述比较结果将所述内容推荐模型中的推荐动作策略调整为所述探索动作策略或所述收益动作策略，包括：

5.根据权利要求1所述的方法，其特征在于，所述当前状态信息包括历史行为信息和用户特征信息...

【技术特征摘要】

1.一种基于深度强化学习的内容推荐方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述推荐动作策略包括探索动作策略和收益动作策略；其中，

5.根据权利要求1所述的方...

【专利技术属性】
技术研发人员：温晓康，
申请(专利权)人：中国平安人寿保险股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人