一种强化学习的组件服务装配集成方法及系统技术方案

技术编号:37147304 阅读:21 留言:0更新日期:2023-04-06 21:59
本发明专利技术提供的一种强化学习的组件服务装配集成方法及系统,方法包括以下步骤:获取目标工作流,根据工作流中的子任务构建动态服务组合模型;根据子任务对应的候选服务的当前服务质量确定第一质量指标,第一质量指标包括可用性,响应时间和代价值;构建奖励函数;通过动态服务组合模型以及奖励函数确定目标服务组合;通过时间序列预测模型以及强化学习的方式,对目标服务组合在动态环境中的预期服务质量进行预测;将预测得到预期服务质量对目标服务组合进行优化调整,根据优化调整后的目标服务组合输出目标行动选择策略;方案考虑了动态环境下的服务质量,提高了服务选择的准确性并且提高了自适应能力,可广泛应用于计算机技术领域。领域。领域。

【技术实现步骤摘要】
一种强化学习的组件服务装配集成方法及系统


[0001]本专利技术涉及计算机
,尤其是一种强化学习的组件服务装配集成方法及系统。

技术介绍

[0002]基于工业互联网的制造服务协作面向服务型制造,具有硬件、软件“互操作”的特点,对于推动企业数字化转型、管理创新和技术创新具有重要的意义。网络技术也对许多应用领域的软件开发产生了巨大的影响。越来越多的企业和组织以Web服务的形式交付其软件、系统、计算资源、存储资源等,以供其他用户使用。因此,如何有效地集成各种服务已成为一个基础性的研究问题。服务组合主要研究如何通过组合现有的服务来产生一个能够满足复杂需求的系统。它在现代软件系统的开发中具有重要意义。此外,具有相同功能的服务可以由具有不同服务质量(Quality ofService,QoS)的不同服务提供商提供。服务质量主要用于表示服务的非功能性属性,包括价格、可用性、可靠性、响应时间、信誉、吞吐量等。由于网络环境的动态变化、业务本身性能的波动以及用户接入方式的变化,服务质量也可能随着时间的推移而动态变化。因此,服务组合方法需要适应动态变化的环境。服务组合方法对于降低在大规模或小规模物联网环境中提供新的Web服务应用的代价和风险具有重要作用。此外,服务组合被指定为NP难题(即非不确定多项式时间),因此找到最佳服务组合的问题成为制造服务协作中的一个重大挑战。另外,云应用程序和智能设备包含许多候选组件和资源,以提供所请求的服务。因此,当资源和物联网设备的数量增加时,可用组合服务的集合也呈指数增长。因此,在状态空间中选择和推荐最优的候选服务组合以支持服务组合中的服务水平协议(Service Level Agreement,SLA)是不切实际的。

技术实现思路

[0003]有鉴于此,为至少部分解决上述技术问题或者缺陷之一,本专利技术实施例的目的在于提供一种强化学习的组件服务装配集成方法,方法可以适用于更大的状态空间,自适应能力强,解决大规模动态环境下的服务组合问题。
[0004]一方面,本申请技术方案提供了一种强化学习的组件服务装配集成方法,包括以下步骤:
[0005]获取目标工作流,根据所述工作流中的子任务构建动态服务组合模型;
[0006]根据所述子任务对应的候选服务的当前服务质量确定第一质量指标,所述第一质量指标包括可用性,响应时间和代价值;
[0007]根据所述可用性、所述响应时间和所述代价值构建奖励函数;
[0008]通过所述动态服务组合模型以及所述奖励函数确定目标服务组合;
[0009]通过时间序列预测模型以及强化学习的方式,对所述目标服务组合在动态环境中的预期服务质量进行预测;
[0010]将预测得到所述预期服务质量对所述目标服务组合进行优化调整,根据优化调整
后的所述目标服务组合输出目标行动选择策略。
[0011]在本申请方案的一种可行的实施例中,所述获取目标工作流,根据所述工作流中的子任务构建动态服务组合模型,包括:
[0012]根据所述候选服务的功能类别进行分组得到的候选服务集合;
[0013]根据目标业务规则的抽象描述从所述候选服务集合筛选得到子任务的第一序列,根据所述第一序列确定所述目标工作流。
[0014]在本申请方案的一种可行的实施例中,所述根据所述子任务对应的候选服务的当前服务质量确定第一质量指标,包括:
[0015]获取所述候选服务对应的当前服务质量的最大值、当前服务质量的最小值以及当前服务质量的初始值;
[0016]根据所述最大值、所述最小值以及所述初始值进行标准化处理得到所述第一质量指标。
[0017]在本申请方案的一种可行的实施例中,所述时间序列预测模型的训练过程,包括:
[0018]获取若干历史服务组合,对所述历史服务组合进行归一化处理,并将归一化处理后的结果进行划分得到若干训练数据集;
[0019]通过初始化后的粒子群参数构建LSTM神经网络,将所述训练数据集输入至所述LSTM神经网络,计算粒子群个体的适应度函数值;
[0020]根据所述适应度函数值迭代更新粒子群的个体最优位置和全局最优位置;
[0021]将所述个体最优位置以及所述全局最优位置映射至所述LSTM神经网络的参数中,得到训练完成的所述时间序列预测模型。
[0022]在本申请方案的一种可行的实施例中,所述通过初始化后的粒子群参数构建LSTM神经网络,将所述训练数据集输入至所述LSTM神经网络,计算粒子群个体的适应度函数值,包括:
[0023]确定所述训练数据集中数据的实际值与所述LSTM神经网络输出的预测值之间的均方误差;
[0024]根据所述均方误差构建所述粒子群优化算法的适应度函数,根据所述适应度函数计算得到粒子群个体的适应度函数值。
[0025]在本申请方案的一种可行的实施例中,所述适应度函数的计算公式如下:
[0026][0027]其中,L表示适应度函数值,x
t
表示t时刻的实际值,x
t

表示t时刻的预测值,N是训练集的数据点数量。
[0028]在本申请方案的一种可行的实施例中,所述通过时间序列预测模型以及强化学习的方式,对所述目标服务组合在动态环境中的预期服务质量进行预测,包括:
[0029]通过所述时间序列预测模型预测得到所述目标服务组合中目标服务在目标状态下的第一预测值;
[0030]根据所述目标状态与所述第一预测值将所述目标服务的奖励值进行线性叠加得到所述预期服务质量;所述奖励值是通过所述奖励函数进行计算确定。
[0031]在本申请方案的一种可行的实施例中,所述时间序列预测模型的训练过程,还包
括:
[0032]将所述预期服务质量与所述目标服务组合进行关联,将关联后的数据更新至历史数据集;
[0033]确定所述历史数据集中的更新数据满足预设更新阈值,对所述时间序列预测模型进行重新训练。
[0034]在本申请方案的一种可行的实施例中,所述获取目标工作流,根据所述工作流中的子任务构建动态服务组合模型,包括:
[0035]获取所述目标工作流的有限状态集合、初始状态以及终止状态;
[0036]获取所述有限状态集合中各个状态下的有限行为组合;
[0037]根据概率分布函数、所述奖励函数、所述有限状态集合、所述初始状态、所述终止状态以及所述有限行为组合构建六元组,根据所述六元组确定动态服务组合模型。
[0038]另一方面,本申请技术方案还提供了一种强化学习的组件服务装配集成系统,该系统包括:
[0039]服务获取单元,用于获取目标工作流,根据所述工作流中的子任务构建动态服务组合模型;
[0040]指标计算单元,用于根据所述子任务对应的候选服务的当前服务质量确定第一质量指标,所述第一质量指标包括可用性,响应时间和代价值;
[0041]奖励函数单元,用于根据所述可用性、所述响应时间和所述代价值构建本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种强化学习的组件服务装配集成方法,其特征在于,包括以下步骤:获取目标工作流,根据所述工作流中的子任务构建动态服务组合模型;根据所述子任务对应的候选服务的当前服务质量确定第一质量指标,所述第一质量指标包括可用性,响应时间和代价值;根据所述可用性、所述响应时间和所述代价值构建奖励函数;通过所述动态服务组合模型以及所述奖励函数确定目标服务组合;通过时间序列预测模型以及强化学习的方式,对所述目标服务组合在动态环境中的预期服务质量进行预测;将预测得到所述预期服务质量对所述目标服务组合进行优化调整,根据优化调整后的所述目标服务组合输出目标行动选择策略。2.根据权利要求1所述的一种强化学习的组件服务装配集成方法,其特征在于,所述获取目标工作流,根据所述工作流中的子任务构建动态服务组合模型,包括:根据所述候选服务的功能类别进行分组得到的候选服务集合;根据目标业务规则的抽象描述从所述候选服务集合筛选得到子任务的第一序列,根据所述第一序列确定所述目标工作流。3.根据权利要求1所述的一种强化学习的组件服务装配集成方法,其特征在于,所述根据所述子任务对应的候选服务的当前服务质量确定第一质量指标,包括:获取所述候选服务对应的当前服务质量的最大值、当前服务质量的最小值以及当前服务质量的初始值;根据所述最大值、所述最小值以及所述初始值进行标准化处理得到所述第一质量指标。4.根据权利要求1所述的一种强化学习的组件服务装配集成方法,其特征在于,所述时间序列预测模型的训练过程,包括:获取若干历史服务组合,对所述历史服务组合进行归一化处理,并将归一化处理后的结果进行划分得到若干训练数据集;通过初始化后的粒子群参数构建LSTM神经网络,将所述训练数据集输入至所述LSTM神经网络,计算粒子群个体的适应度函数值;根据所述适应度函数值迭代更新粒子群的个体最优位置和全局最优位置;将所述个体最优位置以及所述全局最优位置映射至所述LSTM神经网络的参数中,得到训练完成的所述时间序列预测模型。5.根据权利要求4所述的一种强化学习的组件服务装配集成方法,其特征在于,所述通过初始化后的粒子群参数构建LSTM神经网络,将所述训练数据集输入至所述LSTM神经网络,计算粒子群个体的适应度函数值,包括:确定所述训练数据集中数据的实际值与所述LSTM神经网络输出的预测值之间的均方误差;根据所述均方误差构建所述粒子群优化算法的适应度函数,根据所述适应度函数计算得到粒子群个体的适应度...

【专利技术属性】
技术研发人员:程良伦卓惠敏王涛
申请(专利权)人:广东能哥知识科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1