信息推荐模型的训练方法、装置、电子设备及存储介质制造方法及图纸

技术编号：43906101 阅读：23 留言：0更新日期：2025-01-03 13:15

本发明专利技术公开了一种信息推荐模型的训练方法、装置、电子设备及存储介质。该方法包括：获取虚拟用户特征模型与虚拟用户行为模型；获取初始信息推荐智能体，将所述初始信息推荐智能体与虚拟用户特征模型、虚拟用户行为模型进行交互，收集得到信息推荐智能体的轨迹数据；基于所述信息推荐智能体的轨迹数据对所述初始信息推荐智能体进行近端策略优化训练，得到目标信息推荐模型。上述技术方案，利用强化学习技术搭配虚拟用户特征模型和虚拟用户行为模型进行信息智能体的迭代训练，使得信息推荐模型能在真实场景中进行准确推荐，提升了信息推荐的准确性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及人工智能，尤其涉及一种信息推荐模型的训练方法、装置、电子设备及存储介质。

技术介绍

1、随着人工智能技术的发展，强化学习在购物推荐、视频推荐以及游戏策略推荐等场景中得到了广泛应用。

2、目前，通过强化学习在社交媒体(微博、微信等)的信息推荐中，存在信息推荐不准确的问题。

技术实现思路

1、本专利技术提供了一种信息推荐模型的训练方法、装置、电子设备及存储介质，以提升信息推荐模型的信息推荐准确度。

2、根据本专利技术的一方面，提供了一种信息推荐模型的训练方法，包括：

3、获取虚拟用户特征模型与虚拟用户行为模型；

4、获取初始信息推荐智能体，将所述初始信息推荐智能体与虚拟用户特征模型、虚拟用户行为模型进行交互，收集得到信息推荐智能体的轨迹数据；

5、基于所述信息推荐智能体的轨迹数据对所述初始信息推荐智能体进行近端策略优化训练，得到目标信息推荐模型。

6、根据本专利技术的另一方面，提供了一种信息推荐模型的训练装置，包括：

...

【技术保护点】

1.一种信息推荐模型的训练方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述获取虚拟用户特征模型与虚拟用户行为模型，包括：

3.根据权利要求2所述的方法，其特征在于，所述基于生成对抗网络构建虚拟用户特征模型，包括：

4.根据权利要求2所述的方法，其特征在于，所述基于模仿学习构建虚拟用户行为模型，包括：

5.根据权利要求1所述的方法，其特征在于，所述将所述初始信息推荐智能体与虚拟用户特征模型、虚拟用户行为模型进行交互，收集得到信息推荐智能体的轨迹数据，包括：

6.根据权利要求1所述的方法，其特征在于，所述基于...

【技术特征摘要】

1.一种信息推荐模型的训练方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述获取虚拟用户特征模型与虚拟用户行为模型，包括：

3.根据权利要求2所述的方法，其特征在于，所述基于生成对抗网络构建虚拟用户特征模型，包括：

4.根据权利要求2所述的方法，其特征在于，所述基于模仿学习构建虚拟用户行为模型，包括：

6.根据权利要求1...

【专利技术属性】
技术研发人员：焦文明，徐亮，秦熔均，赵鉴，陈浩翔，陈健鹏，
申请(专利权)人：南栖仙策南京高新技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人