基于强化学习的价值链优化管控方法技术

技术编号：41101773 阅读：2 留言：0更新日期：2024-04-25 13:57

本发明专利技术提供基于强化学习的价值链优化管控方法，其中，方法包括：步骤1：获取需要进行优化管控的目标价值链的价值链数据；步骤2：基于强化学习模型，根据清洗后的价值链数据，确定不同输出层的输出数据；步骤3：根据不同输出层的输出数据，确定目标决策；步骤4：根据目标决策，进行相应优化管控。本发明专利技术的基于强化学习的价值链优化管控方法，获取需要进行优化管控的目标价值链的价值链数据，同时，引入强化学习模型，让智能体通过与环境的交互学习，确定不同输出层的输出数据，提高了价值链各个环节的特征提取能力，根据输出数据确定最优的目标决策，并根据目标决策进行优化管控，决策更适宜。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及数据管理，特别涉及基于强化学习的价值链优化管控方法。

技术介绍

1、价值链技术是一种分析企业或产业的竞争优势和价值创造的方法，它将一个企业或产业的所有活动分解为不同的价值环节。当前的市场环境和技术条件下，企业或产业采用的价值链技术的具体应用和实施方式，包括价值链的设计、建设、运营和评估等各个环节。这些方案可以根据不同的价值链类型和模式进行区分，比如：全球价值链、区域价值链和数字价值链等，接着，评估每个环节的成本、收益和贡献，从而找出提高效率、降低成本、增加价值和优化资源配置的途径。

2、强化学习技术是一种机器学习的方法，它通过试错的方式学习如何做出最优的决策。强化学习技术的基本思想是将一个智能体放置在一个环境中，通过与环境的交互来学习如何做出最优的行动。在强化学习技术中，智能体通过观察环境的反馈来不断调整自己的行为，以获得最大的奖励。

3、申请号为：cn202210774647.4的专利技术专利公开了一种多企业价值链超链融动协同方法，包括超链融动业务协同体系t，超链融动业务协同体系t包括核心制造企业、第三方云服务平台和协同企业群，第三方云服务平台包括数据交换模块、构件库模块和协同系统模块，通过数据交换模块的数据适配接口交互来自所述核心制造企业和所述协同企业的业务数据；将业务数据存储在数据交换模块，并对数据进行分类集成，形成主题数据库；对主题数据库进行映射规则处理形成平台构件和业务构件，平台构件和业务构件组成构件库模块，不同的构件库模块组成基于超链融动的所述协同系统模块；基于超链融动的协同系统

4、上述现有技术通过数据交换模块的数据适配接口交互来自核心制造企业和协同企业的业务数据，但是，价值链的数据结构复杂，涉及多个维度和指标，普通模型数据分析能力不足，特征提取能力不足，进一步的，后续业务活动的协同策略也不适宜。

5、有鉴于此，亟需基于强化学习的价值链优化管控方法，以至少解决上述不足。

技术实现思路

1、本专利技术目的之一在于提供了基于强化学习的价值链优化管控方法，获取需要进行优化管控的目标价值链的价值链数据，同时，引入强化学习模型，让智能体通过与环境的交互学习，确定不同输出层的输出数据，提高了价值链各个环节的特征提取能力，根据输出数据确定最优的目标决策，并根据目标决策进行优化管控，决策更适宜。

2、本专利技术实施例提供的基于强化学习的价值链优化管控方法，包括：

3、步骤1：获取需要进行优化管控的目标价值链的价值链数据；

4、步骤2：基于强化学习模型，根据清洗后的价值链数据，确定不同输出层的输出数据；

5、步骤3：根据不同输出层的输出数据，确定目标决策；

6、步骤4：根据目标决策，进行相应优化管控。

7、优选的，步骤1：获取需要进行优化管控的目标价值链的价值链数据，包括：

8、获取需要进行优化管控的目标企业的企业活动信息；

9、基于位置编码技术，根据企业活动信息，确定价值链数据。

10、优选的，步骤2：基于强化学习模型，根据清洗后的价值链数据，确定不同输出层的输出数据，包括：

11、根据清洗后的价值链数据，确定节点状态和节点动作；

12、将节点动作根据动作维度进行动作分解，获得当前时间节点的第一维度动作；

13、获取第一维度动作同一动作维度的前序维度动作，并作为第二维度动作；

14、基于预设的时序序列生成规则，根据当前时间节点、第一维度动作和第二维度动作，生成时序序列；

15、基于强化学习模型，根据时序序列，确定不同输出层的输出数据，输出数据具体为：

16、

17、其中，为输出数据，为目标价值链中收集的时间时刻到时间时刻的数据，为向前看的时间步，为在时刻执行的第个索引的动作，为时间时刻的动作的索引，为在时刻执行的除了的其他动作，执行完所有时刻的动作后的奖励值，为目标价值链中收集的时间时刻的数据，为在时刻的所有动作，为衰减值，表示奖励值最大动作的筛选函数，为目标价值链中收集的时间时刻到时间时刻的数据，为时刻第一个索引的动作，表示为当前动作中最后的一步，为之后索引的第一个动作，为在时刻已经索引的所有动作。

18、优选的，在基于强化学习模型，根据时序序列，确定不同输出层的输出数据之后，还包括：

19、通过mse对强化学习模型进行更新，更新方程如下：

20、

21、其中，为更新后的强化学习模型，为状态，为数据集中所有状态的集合，为选择的动作，为数据集中选择的所有动作的集合，为在状态选择动作的奖励值，表示马尔可夫决策过程，为提高训练速度的步数，为步之后计算的奖励值，为状态在数据集中且动作在数据集中计算数据的均值，为保守修正值的权重。

22、优选的，根据不同输出层的输出数据，确定目标决策，包括：

23、获取进行决策需求提取的输出层的输出决策类型；

24、获取所需决策类型；

25、判断所需决策类型与输出决策类型是否一致，若一致，解析对应输出决策类型的输出层的输出数据，获得目标决策。

26、优选的，步骤4：根据目标决策，进行相应优化管控，包括：

27、解析目标决策，获取优化管控活动；

28、确定优化管控活动的活动类型；

29、获取活动类型对应预设的活动场景库，确定活动类型对应的活动场景；

30、根据活动场景和目标决策，进行管控预演，获得预演场景；

31、获取历史冲突场景库；

32、将预演场景和历史冲突场景库中的历史冲突场景进行场景匹配，判断是否存在场景匹配符合；

33、若存在场景匹配符合，进行冲突原因归因，并根据冲突原因归因的归因结果，对目标决策进行调整；

34、根据调整后的目标决策，进行优化管控。

35、优选的，若存在场景匹配符合，进行冲突原因归因，并根据冲突原因归因的归因结果，对目标决策进行调整，包括：

36、若存在场景匹配符合，将场景匹配符合的历史冲突场景作为目标归因场景；

37、将目标归因场景特征化，获得归因场景特征集；

38、基于预设的归因结果对照模版，根据归因场景特征集，确定归因结果；

39、根据归因结果，确定目标决策中需要修正的决策项和修正程度，并进行相应修正，获取修正策略；

40、获取修正策略对应的目标生产利润；

41、获取目标价值链的过程数据；

42、判断目标生产利润是否大于过程数据；

43、若是，则将修正策略作为目标决策调整后的调整策略；

44、若否，根据最大的过程数据确定调整策略。

45、本专利技术实施例提供的基于强化学习的价值链优化管控方法，还包括：

46、步骤5：在进行相应优化本文档来自技高网...

【技术保护点】

1.基于强化学习的价值链优化管控方法，其特征在于，包括：

2.如权利要求1所述的基于强化学习的价值链优化管控方法，其特征在于，步骤1：获取需要进行优化管控的目标价值链的价值链数据，包括：

3.如权利要求1所述的基于强化学习的价值链优化管控方法，其特征在于，步骤2：基于强化学习模型，根据清洗后的价值链数据，确定不同输出层的输出数据，包括：

4.如权利要求3所述的基于强化学习的价值链优化管控方法，其特征在于，在基于强化学习模型，根据时序序列，确定不同输出层的输出数据之后，所述方法还包括：

5.如权利要求1所述的基于强化学习的价值链优化管控方法，其特征在于，步骤3：根据不同输出层的输出数据，确定目标决策，包括：

6.如权利要求1所述的基于强化学习的价值链优化管控方法，其特征在于，步骤4：根据目标决策，进行相应优化管控，包括：

7.如权利要求6所述的基于强化学习的价值链优化管控方法，其特征在于，若存在场景匹配符合，进行冲突原因归因，并根据冲突原因归因的归因结果，对目标决策进行调整，包括：

8.如权利要求1

9.如权利要求8所述的基于强化学习的价值链优化管控方法，其特征在于，基于监控权重，分别进行管控节点的管控过程的监控，包括：

10.基于强化学习的价值链优化管控系统，其特征在于，包括：

...

【技术特征摘要】

1.基于强化学习的价值链优化管控方法，其特征在于，包括：

2.如权利要求1所述的基于强化学习的价值链优化管控方法，其特征在于，步骤1：获取需要进行优化管控的目标价值链的价值链数据，包括：

5.如权利要求1所述的基于强化学习的价值链优化管控方法，其特征在于，步骤3：根据不同输出层的输...

【专利技术属性】
技术研发人员：宋轩，宋歌，谢洪彬，张浩然，
申请(专利权)人：南方科技大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人