当前位置: 首页 > 专利查询>海南大学专利>正文

基于强化学习的服务组合方法技术

技术编号:23710250 阅读:24 留言:0更新日期:2020-04-08 12:10
本发明专利技术公开了一种基于强化学习的服务组合方法,所述服务组合满足动态约束,其包括如下步骤:根据用户的功能性需求建立工作流,为工作流中的每个任务选取候选服务,对所有候选服务的QoS非功能属性进行数据预处理;根据建立的工作流结构搭建基于强化学习的自适应模型;每一次训练自适应模型时,均将根据建立工作流结构随机生成的训练集、用户对QoS非功能属性的偏好和约束输入自适应模型中,循环迭代若干次训练,以得到收敛的自适应模型;将工作流中每个任务的候选服务属性、用户对QoS非功能属性的偏好和约束输入收敛的自适应模型中,输出合适的工作流候选服务序列。本发明专利技术的基于强化学习的服务组合方法弥补了传统Q‑learning的不足,大大减少了服务组合过程中耗费的资源。

Service composition method based on Reinforcement Learning

【技术实现步骤摘要】
基于强化学习的服务组合方法
本专利技术涉及网络服务
,更具体地涉及基于强化学习的服务组合方法。
技术介绍
在SOA(面向服务的架构)体系结构中,软件打包为单独的Web服务,使用者可以组合这些服务向用户提供新服务。选择和组合不同的Web服务以满足用户日益多样化的需求已经成为一个突出的问题。实际上,许多Web服务具有相同的功能,但它们的QoS(QualityofService,服务质量)非功能属性(如响应时间、吞吐量、价格、调用成功率等)各不相同。如何选择合适的Web服务来同时满足用户的功能需求和用户对QoS非功能属性的约束是一个关键的问题,动态约束的服务组合问题(简称CSSC)也就成了一个迫在眉睫的需要解决的问题。由于Internet的动态性,Web服务的可用性及其QoS非功能属性可能会不时发生变化。另一方面,SOA应用程序的功能需求和用户的QoS非功能属性约束也变得越来越复杂。传统的解决方案通常通过两个阶段来解决CSSC问题:服务选择和服务执行。在服务选择阶段,选择并组合满足功能需求和用户QoS约束的服务。在服务执行阶段,调用组合好的服务来处理用户的请求。在这样的解决方案中有一个假设:一旦选择了一个服务并在一个服务组合中进行组合,该服务及其QoS非功能属性值就不应该改变。然而,由于QoS属性的波动性和主机服务器行为的不确定性,这种假设在实践中并不总是成立。使得,在选择阶段为服务组合选择的最佳服务到了执行阶段可能不是最佳的,甚至在服务执行阶段不可用,而此时用户便需要从头开始重新选择所有任务的最佳候选服务,这无疑会消耗额外的资源,导致糟糕的用户体验。近年来,针对动态环境下的CSSC问题进行了大量的研究,包括随机模型、MDP模型与HTN编程模型的结合、博弈论等。但这些方法存在成本高、速度慢等缺点。有研究者提出使用Q-learning模型来解决动态CSSC问题。该方法的主要局限性在于Q表的状态爆炸问题。为了减少大量的状态,便将所有的连续状态划分为一个给定数量的离散状态级。使得,非功能QoS属性被定义在一个粗糙的范围中。因此,针对上述问题,有必要提供一种改进的基于强化学习的服务组合方法以克服上述缺陷。
技术实现思路
本专利技术的目的是提供一种基于强化学习的服务组合方法,本专利技术的基于强化学习的服务组合方法弥补了Q-learning的不足,可以满足大规模的服务组合问题,并具有泛化能力,当遇到相同结构的服务组合问题时,不需要重新训练,大大减少了服务组合过程中耗费的资源。为实现上述目的,本专利技术提供一种改进的基于强化学习的服务组合方法,所述服务组合满足动态约束,其包括如下步骤:根据用户的功能性需求建立工作流,为工作流中的每个任务选取候选服务,对所有候选服务的QoS非功能属性进行数据预处理;根据建立的工作流结构搭建基于强化学习的自适应模型;每一次训练所述自适应模型时,均根据建立工作流结构随机生成的训练集、用户对QoS非功能属性的偏好和约束输入所述自适应模型中,循环迭代若干次训练,以得到收敛的自适应模型;将工作流中每个任务的候选服务属性、用户对QoS非功能属性的偏好和约束输入所述收敛的自适应模型中,输出合适的工作流候选服务序列。较佳地,对所有候选服务的非功能QoS属性进行归一化处理。较佳地,所述对所有候选服务的QoS非功能属性进行数据预处理具体为,计算每一个任务所有候选服务关于该属性的期望μ和标准差σ,求出工作流关于该属性的总期望和标准差如下其中n表示工作流中的任务数目。较佳地,根据正态分布的3σ原则,用户约束应满足下式:μcs-2σcs<Constraint<μcs+2σcs。较佳地,训练所述自适应模型具体为,根据工作流的结构以构造随机数据集作为训练集,采用两个神经网络来进行训练,且每隔一设定时间同步两个神经网络的参数。较佳地,将探索环境得到的数据储存起来,采用随机采样样本更新深度神经网络的参数。较佳地,所述自适应模型具有两个神经网络,每个神经网络的结构相同,都有三层结构,包括如下步骤:将当前的状态s转换成特征向量输入第一层,以使所述自适应模型在第二层得到两组值;在第三层将第二层得到的两组值相结合得到每一个候选服务的综合评分;根据每一个候选服务的综合评分选取合适的候选服务。较佳地,循环迭代若干次训练,以得到收敛的自适应模型具体还包括:每一次循环都根据工作流结构随机生成训练集,每循环训练设定次数就保存一次自适应模型;在保存下来的自适应模型上运行同一个测试集,并通过不同训练阶段得到的自适应模型在同一个测试集上的运行效果分析自适应模型的学习历程;以收敛后的自适应模型作为最终的自适应模型,应用到实际的服务组合问题中。较佳地,根据工作流的结构和单个任务的最大候选服务数目,建立内部值为0到1之间浮点数的矩阵,每一次训练时均随机生成一个新的矩阵作为训练集。较佳地,所述基于强化学习的服务组合方法还包括步骤:判断用户的QoS非功能属性约束是否合理,若不合理就进行约束合理性协商,协商失败则输出用户约束不合理。与现有技术相比,本专利技术的基于强化学习的服务组合方法弥补了Q-learning不能适应大规模服务组合问题的不足,而且本专利技术的自适应模型具有泛化性,不仅可以应对候选服务在执行阶段故障缺失问题,还能应对候选服务的服务质量(QoS)非功能属性整体波动的情况,另外当遇到相同结构的服务组合问题时,可以直接使用所述自适应模型,不需要重新训练,大大减少了服务组合过程中耗费的资源。通过以下的描述并结合附图,本专利技术将变得更加清晰,这些附图用于解释本专利技术的实施例。附图说明图1为本专利技术基于强化学习的服务组合方法的流程图。图2为本专利技术基于强化学习的服务组合方法的选择候选服务的流程图。图3为本专利技术基于强化学习的服务组合方法的选择最终自适应模型的流程图。图4为本专利技术基于强化学习的服务组合方法的强化学习过程的时序图。具体实施方式现在参考附图描述本专利技术的实施例,附图中类似的元件标号代表类似的元件。如上所述,本专利技术提供了一种基于强化学习的服务组合方法,本专利技术的基于强化学习的服务组合方法弥补了Q-learning的不足,可以应对大规模的服务组合问题,同时,本专利技术具有泛化能力,当遇到相同结构的服务组合问题时,不需要重新训练,大大减少了服务组合过程中耗费的资源。由于已经有了很多将复杂结构服务组合问题转化为顺序服务组合问题的工作,所以本专利技术重点处理顺序结构工作流的服务组合问题。请参考图1,图1为本专利技术基于强化学习的服务组合方法的流程图。如图1所示,本专利技术的基于强化学习的服务组合方法包括如下步骤:步骤S001,根据用户的功能性需求建立工作流,为工作流中的每个任务选取候选服务,对所有候选服务的QoS非功能属性进行数据预处理;在本步骤中,具体地从云端服务器的云服务池中为工作流中的每个任务选取候选服务;所本文档来自技高网
...

【技术保护点】
1.一种基于强化学习的服务组合方法,所述服务组合满足动态约束,其特征在于,包括如下步骤:/n根据用户的功能性需求建立工作流,为工作流中的每个任务选取候选服务,对所有候选服务的QoS非功能属性进行数据预处理;/n根据建立的工作流结构搭建基于强化学习的自适应模型;/n每一次训练所述自适应模型时,均根据建立工作流结构随机生成的训练集、用户对QoS非功能属性的偏好和约束输入所述自适应模型中,循环迭代若干次训练,以得到收敛的自适应模型;/n将工作流中每个任务的候选服务属性、用户对QoS非功能属性的偏好和约束输入所述收敛的自适应模型中,输出合适的工作流候选服务序列。/n

【技术特征摘要】
1.一种基于强化学习的服务组合方法,所述服务组合满足动态约束,其特征在于,包括如下步骤:
根据用户的功能性需求建立工作流,为工作流中的每个任务选取候选服务,对所有候选服务的QoS非功能属性进行数据预处理;
根据建立的工作流结构搭建基于强化学习的自适应模型;
每一次训练所述自适应模型时,均根据建立工作流结构随机生成的训练集、用户对QoS非功能属性的偏好和约束输入所述自适应模型中,循环迭代若干次训练,以得到收敛的自适应模型;
将工作流中每个任务的候选服务属性、用户对QoS非功能属性的偏好和约束输入所述收敛的自适应模型中,输出合适的工作流候选服务序列。


2.如权利要求1所述的基于强化学习的服务组合方法,其特征在于,对所有候选服务的非功能QoS属性进行归一化处理。


3.如权利要求1所述的基于强化学习的服务组合方法,其特征在于,还包括步骤:
判断用户的QoS非功能属性约束是否合理,若不合理则进行约束合理性协商,协商失败则输出用户约束不合理。


4.如权利要求3所述基于强化学习的服务组合方法,其特征在于,计算每一个任务所有候选服务关于该属性的期望μ和标准差σ,求出工作流关于该属性的总期望和标准差如下



其中n表示工作流中的任务数目。


5.如权利要求4所述的基于强化学习的服务组合方法,其特征在于,根据正态分布的3σ原则,用户约束应满足下式:
μcs-2σcs<Constraint<μcs+2σcs。


6.如权利要...

【专利技术属性】
技术研发人员:余学志叶春杨周辉
申请(专利权)人:海南大学
类型:发明
国别省市:海南;46

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1