基于多目标强化学习的策略信息生成方法及装置制造方法及图纸

技术编号：40964543 阅读：3 留言：0更新日期：2024-04-18 20:44

本申请提供一种基于多目标强化学习的策略信息生成方法及装置，方法包括：获取候选对象集合中的候选个体的历史数据；基于历史数据采用多目标强化学习算法构建策略神经网络模型；利用强化学习网络中的样本训练策略神经网络模型，以得到训练模型；利用训练模型进行计算以获得近似帕累托前沿；利用近似帕累托前沿生成帕累托最优曲线；根据风险收益曲线，生成与用户输入的风险收益需求信息对应的策略信息。本申请的策略信息生成方法，通过将多目标优化引入到强化学习方法中，可获得同时考虑收益和风险的组合帕累托最优前沿，满足更多用户的需求，以解决投入策略无法满足多种需求偏好的问题。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及组合投入策略，尤其涉及一种基于多目标强化学习的策略信息生成方法及装置。

技术介绍

1、在项目投入领域中，用户需要在多个不同的候选个体中进行投入决策，以追求最佳的投入产出回报。然而，一些投入决策方法在面对多个目标和约束条件时可能变得复杂和困难，用户需要权衡不同的目标，例如收益最大化和风险最小化，同时考虑到各种限制和约束条件。这些投入决策方法基于单一目标或简化的假设，无法充分捕捉多个投入目标之间的复杂关系。

2、因此，在一些实施例中，采用强化学习算法来进行项目中的候选个体的投入决策。在使用强化学习方法进行投入决策时，通过利用强化学习技术从候选个体的历史数据中学习，以在多个目标和约束条件下生成优化的投入决策策略。然而这一过程需要对奖励函数进行人工设计，使得奖励函数受人为的影响较大，进而导致投入策略更偏向短期绩效而忽略长期积累收益，无法满足多种需求偏好。

技术实现思路

1、本申请提供一种基于多目标强化学习的策略信息生成方法及装置，以解决投入策略无法满足多种需求偏好的问题。

2、本申请第一方面提供一种基于多目标强化学习的策略信息生成方法，包括：

3、获取候选对象集合中的候选个体的历史数据；所述候选对象集合为用于生成策略信息的多个单一个体的组合，所述候选个体为在所述候选对象集合中被选中的所述单一个体，所述候选个体的数量大于或等于1，所述历史数据为所述候选个体的日序列数据值；

4、基于所述历史数据采用多目标强化学习算法构建策略神经网络模型

5、利用强化学习网络中的样本训练所述策略神经网络模型，以得到训练模型；所述样本包括所述状态空间的状态、所述动作空间的动作和所述奖励函数的函数值；

6、利用所述训练模型进行计算以获得近似帕累托前沿；

7、利用所述近似帕累托前沿生成帕累托最优曲线，所述帕累托最优曲线为风险收益曲线；

8、根据所述风险收益曲线，生成与用户输入的风险收益需求信息对应的策略信息；所述策略信息包括一个或多个所述候选个体的投入配置信息，所述投入配置信息为一个或多个所述候选个体的配置比例。

9、可选的，所述获取候选对象集合中的候选个体的历史数据包括：

10、从数据平台获取所述候选对象集合中的多个所述单一个体的数据信息；

11、根据多个所述单一个体的所述数据信息确定候选个体名称；

12、根据所述候选个体名称获取所述候选个体的历史数据；所述历史数据为至少一个时间周期内的数据，所述历史数据包括日序列初始值、日序列结束值、日序列最大值、日序列最小值以及日序列完成量值，所述日序列结束值为所述状态空间的状态。

13、可选的，所述基于所述历史数据采用多目标强化学习算法构建策略神经网络模型包括：

14、基于所述历史数据构建多目标优化问题，所述多目标优化问题为风险与收益的组合问题；

15、根据所述多目标优化问题采用多目标强化学习算法构建状态空间、动作空间和奖励函数；

16、根据所述状态空间、所述动作空间和所述奖励函数构建所述策略神经网络模型。

17、可选的，所述基于所述历史数据构建多目标优化问题包括：

18、对所述历史数据进行无量纲化处理，以得到预处理数据；

19、基于所述预处理数据构建所述多目标优化问题。

20、可选的，所述状态空间的状态为所述候选个体的数量、无风险个体的数量、所述候选个体的特征以及时间窗口长度所组成的多维向量；所述候选个体的特征为所述候选个体的所述日序列结束值；

21、所述动作空间的动作为日序列资源配置比例，所述资源包括候选个体资源和无风险个体资源；所述资源配置比例包括所述候选个体资源占总资源的比例，以及所述无风险个体资源占总资源的比例。

22、可选的，所述利用强化学习网络中的样本训练所述策略神经网络模型，以得到训练模型包括：

23、初始化强化学习网络参数和目标网络参数以初始化经验回放池；

24、获取所述候选个体的初始状态和下一状态，所述初始状态和所述下一状态为所述状态空间的状态；

25、根据贪心策略选择所述动作并执行所述动作，以利用所述收益奖励函数和风险奖励函数计算所述候选个体的收益、所述候选个体的风险，以及风险收益权重；

26、将所述初始状态、所述下一状态、所述动作、所述候选个体的收益和所述候选个体的风险作为多维向量存储到所述经验回放池中，以生成样本；

27、从所述经验回放池中对所述样本进行采样，以得到训练数据集；所述采样具有采样偏好；

28、抽取所述风险收益权重，并根据所述风险收益权重计算所述训练数据集中样本的目标值；

29、利用所述目标值对所述风险收益权重进行最小化处理，以更新所述强化学习网络参数；

30、每隔预设步数从强化学习网络复制所述强化学习网络参数至目标网络，以更新所述目标网络参数；

31、在所述采样偏好下，输出所述目标网络中参数值最大的动作，以得到所述训练模型。

32、可选的，所述利用强化学习网络中的样本训练所述策略神经网络模型，以得到训练模型还包括：

33、计算所述策略神经网络模型的均方贝尔曼误差和均方效用误差；

34、根据所述均方贝尔曼误差和所述均方效用误差计算联合损失，以通过所述联合损失优化损失函数。

35、可选的，所述利用所述训练模型进行计算以获得近似帕累托前沿包括：

36、抽取多个所述风险收益权重以生成测试集；

37、利用所述强化学习网络的网络函数，输出所述测试集中的每一个所述风险收益权重的最优策略；

38、在所述多目标优化问题中运行所述最优策略，以积累所述候选个体的所述风险和所述收益；

39、对每一个所述风险收益权重，计算所述最优策略下的累积收益和累积风险，以得到所述测试集中的点；

40、将所述点绘制在坐标系中，以获得近似帕累托前沿。

41、可选的，所述利用所述近似帕累托前沿生成帕累托最优曲线包括：

42、计算所述近似帕累托前沿的覆盖率；

43、若所述覆盖率超过覆盖率阈值，生成帕累托最优曲线。

44、本申请第二方面提供一种基于多目标强化学习的策略信息生成装置，应用于上述第一方面所提供的策略信息生成方法，所述装置包括：

45、获取模块：用于获取候选对象集合中的候选个体的历史数据；所述候选对象集合为用于生成策略信息的多个单一个体的组合，所述候选个体为在所述候选对象集合中被选中的所述单一个体，所述候选个体的数量大于或等于1，所本文档来自技高网...

【技术保护点】

1.一种基于多目标强化学习的策略信息生成方法，其特征在于，包括：

2.根据权利要求1所述的基于多目标强化学习的策略信息生成方法，其特征在于，所述获取候选对象集合中的候选个体的历史数据包括：

3.根据权利要求2所述的基于多目标强化学习的策略信息生成方法，其特征在于，所述基于所述历史数据采用多目标强化学习算法构建策略神经网络模型包括：

4.根据权利要求3所述的基于多目标强化学习的策略信息生成方法，其特征在于，所述基于所述历史数据构建多目标优化问题包括：

5.根据权利要求3所述的基于多目标强化学习的策略信息生成方法，其特征在于，

6.根据权利要求5所述的基于多目标强化学习的策略信息生成方法，其特征在于，所述利用强化学习网络中的样本训练所述策略神经网络模型，以得到训练模型包括：

7.根据权利要求1所述的基于多目标强化学习的策略信息生成方法，其特征在于，所述利用强化学习网络中的样本训练所述策略神经网络模型，以得到训练模型还包括：

8.根据权利要求6所述的基于多目标强化学习的策略信息生成方法，其特征在于，所述

9.根据权利要求8所述的基于多目标强化学习的策略信息生成方法，其特征在于，所述利用所述近似帕累托前沿生成帕累托最优曲线包括：

10.一种基于多目标强化学习的策略信息生成装置，其特征在于，应用于权利要求1-9任一项所述的基于多目标强化学习的策略信息生成方法，所述装置包括：

...

【技术特征摘要】

1.一种基于多目标强化学习的策略信息生成方法，其特征在于，包括：

2.根据权利要求1所述的基于多目标强化学习的策略信息生成方法，其特征在于，所述获取候选对象集合中的候选个体的历史数据包括：

4.根据权利要求3所述的基于多目标强化学习的策略信息生成方法，其特征在于，所述基于所述历史数据构建多目标优化问题包括：

5.根据权利要求3所述的基于多目标强化学习的策略信息生成方法，其特征在于，

6.根据权利要求5所述的基于多目标强化学习的策略信息生成方法，其特征在于，所述利...

【专利技术属性】
技术研发人员：宋辞，李雪蓉，乔红，
申请(专利权)人：同济大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人