当前位置: 首页 > 专利查询>东南大学专利>正文

结合Skyline计算与多目标强化学习服务组合方法技术

技术编号:16484200 阅读:222 留言:0更新日期:2017-10-31 16:25
本发明专利技术涉及一种结合Skyline计算与多目标强化学习的服务组合方法,其特征在于,所述方法包括以下步骤:1)根据实际应用场景,模拟建立模型;2)使用Skyline计算的算法缩减同质服务空间;3)利用多目标强化学习的单策略方法和多策略方法,根据算法得出一些列最优解集。该方法能很好地适应环境的动态变化及满足用户的多样化需求,从而展现其良好的适应性和扩展性。

Combining Skyline computing with multi objective reinforcement learning service composition method

The invention relates to a method for strengthening the service combination learning with Skyline computing and multi target, which is characterized in that the method comprises the following steps: 1) according to the actual application scene simulation model; 2) calculated using the Skyline algorithm to reduce the homogeneous service space; 3) to strengthen the strategy learning method of single and multi strategy method the use of multiple targets, according to some algorithm to get the optimal solution set. The method can well adapt to the dynamic changes of the environment and meet the diverse needs of users, thus showing its good adaptability and scalability.

【技术实现步骤摘要】
结合Skyline计算与多目标强化学习服务组合方法
本专利技术涉及一种组合方法,具体涉及一种结合Skyline计算与多目标强化学习的服务组合方法,属于多目标强化学习

技术介绍
随着软件组件技术的发展,SOA成为一种受到广泛关注的软件开发范式,通过软件组件实现企业软件系统,在实现应用集成和B2B行业展现了巨大的潜力。随着网络技术的飞速发展,单个Web服务的功能相对来说比较单一、有限,也许已经不能满足人们的需求了,在这种情况下,一个任务需要能调用多个Web服务。而Web服务组合能使得Web上的业务应用无缝地、动态地集成。因此,我们可以对现有的服务进行组合。尽管服务组合能提高软件组件的复用,可以灵活快速构建新的业务系统和扩展更新已有的业务系统,其所依托的环境特点也影响了服务组合的正确性、可靠性等质量属性。Web服务是依托于互联网的,然而互联网是动态不断变化的,任何一个服务提供商发生意外都可能影响组合服务的质量。另外,Web服务自身也会进行演化、更新,互联网上随时都可能会有新的Web服务发布、失效、删除和更新等。这种场景下,就要求服务组合方案对环境有一定的自适应性,使得服务组合能自主适应环境并构建出有效的组合服务。此外,已存在的Web服务组合方法,绝大部分都把QoS综合成一个效用函数,用这个效用函数来评估组合服务的质量,而没有考虑这些QoS属性是否冲突。比如,好的服务质量(高可靠性、响应时间小、好的声誉等)对应着高的服务价格。这种情况下,把所有服务质量(QoS)综合成一个统一的效用函数就显得不那么合理了。且随着用户的需求越来越多样化,单独给用户提供一个组合方案,有时并不能真正满足用户的需求,这时,可以根据用户的需求提供多个候选的组合方案。强化学习是一种试错学习,对环境有自适应性,近些年来被应用到自适应服务组合场景中。应用规划技术时,要构造完成一个复杂的状态图,规划技术适合于那些相对比较稳定的环境。不同于规划技术,强化学习中的学习者只要知道所处的环境状态和当前学习策略即可,所以强化学习适合解决信息不完备场景下的序列决策问题。强化学习把学习看作试探评价过程,学习Agent选择一个动作用于环境,环境接受该动作后状态发生变化,同时产生一个强化信号(奖或惩)反馈给Agent。为了得到多的回报值,强化学习Agent倾向于它过去已经尝试过并且能产生相应回报的动作。相较于传统强化学习,多目标强化学习要求学习Agent得到动作的策略能够同时优化两个或者更多目标。在多目标强化学习中,每个目标有一个相应的回报信号,因此,回报值不再是一个标题值而成为一个向量。利用多目标强化学习的服务组合方法对现有的、多种多样的服务进行再合成,为组件系统的发展提供了新的思路,且对于用户而言,满足其多样的需求,并为企业软件系统中的组件技术的应用提供支撑。由此看来,本专利技术具有重要的理论意义与实际应用价值。
技术实现思路
本专利技术正是针对现有技术中存在的技术问题,提供一种结合Skyline计算与多目标强化学习的服务组合方法,该方法能很好地适应环境的动态变化及满足用户的多样化需求,从而展现其良好的适应性和扩展性。在此服务组合方法中,对于给定的功能性服务组合需求和完成的任务流程图,功能性需求里面有若干任务节点,每个任务节点对应着一类抽象服务。每个任务节点包含有许多候选服务。服务组合目标是,面对复杂组合工作流、多个抽象服务和大量的候选服务,学习出最优的服务组合或pareto最优服务组合集合,以实现服务组合方案的自适应性、可扩展性和好的计算效率。为实现上述目的,本专利技术的技术方案如下,一种结合Skyline计算与多目标强化学习的服务组合方法,其特征在于,所述方法包括以下步骤:1)根据实际应用场景,建立模型;2)使用Skyline计算的算法缩减同质服务空间;3)利用多目标强化学习的单策略方法和多策略方法,根据算法得出一些列最优解集。作为本专利技术的一种改进,所述步骤1)根据实际应用场景,模拟建立模型具体如下,将构建一个机器理解的抽象化的模型,一个Web服务描述成计算机可理解的形式,采用IOPE形式:六元组WS=<ID,In,Out,Pr,E,QoS>;其中ID表示唯一标识符,In表示输入,Out表示输出,Pr表示前提条件,E表示效果影响,QoS表示Web服务的QoS属性集合,是个N元向量,而为解决多个目标约束情况下的Web服务组合,将一个基于多目标马尔可夫决策过程(WSC-MOMDP)的Web服务组合定义成一个六元组其中S是有限离散状态集合,包含所有的环境状态;s0是Web服务组合执行的起始状态;ST是终止状态集合;A(s)是在s状态下可供调用的服务集合;A是所有状态下能被执行的服务集合;T是状态转移概率函数,是N维回报向量形式的立即回报函数。我们知道基于多目标马尔可夫决策过程的服务组合模型能够充分表达一个业务过程的控制流,且基于WSC-MOMDP的服务组合模型的解决方案是一个确定性的服务选择策略π,这个策略定义在每个状态选择哪个服务能够得到最优的组合结果,通过策略确定每个状态的具体服务之后,就得到了最优的组合结果或者近优的组合结果的集合。因此,WSC-MOMDP的解就是通过不断交互找到一个最优策略或者一个近优策略的集合,通过这些策略确定相应的具体服务绑定的工作流。Web服务工作流对应着具体的Web服务组合方案,而一个WSC-MDP模型中很可能会包括多个可行的服务工作流。在学习过程中,WSC-MOMDP的状态转移函数T和回报函数R都在不断的更新,面对服务组合环境不断变化的环境(服务的删除、加入、服务不用等),服务组合模型要能够适应这些变化。依据确定性策略,执行工作流中的服务,用户将得到一个回报值或汇报向量,在模型中,找到得到最多累积回报的最优策略。然后,我们将使用QoS属性方法设计回报函数来评价服务。针对我们建立WSC-MOMDP模型,采用强化学习算法,学习策略进行更新时,依靠学习Agent不断与环境进行交互,当学习Agent调用某一个服务后,当前环境迁移到后续环境状态,Agent同时接收环境给出的反馈信号,环境的反馈信号是根据被调用服务的QoS属性来计算的,根据当前状态和得到的反馈信号进行下一步动作的选择,不断重复这个过程直到到达终止状态,具有最大累积回报的服务序列就是最优的组合方案,其中QoS的属性值的计算公式如下:qresT(ws)=Te(s)+Tt(s)其中,qa(ws)是可用性,t是一时间段,t(a)是此时间段中Web服务正常执行时间;qr(ws)是可靠性,Ns是Web服务成功执行次数,Nt是执行总次数;qp(ws)是调用服务所花费用;qrexT(ws)是响应时间,Te(s)是服务执行时间,Tt(s)是服务提供商与服务请求者之间的网络通信时间;接下来,我们将计算调用某个服务会得到什么样的回报。由于Web服务有多个QoS属性,而且各个属性的量度单位和取值范围并不相同,这些不同QoS之间没有可比较,不能直接计算QoS属性值,且其属性值与服务质量关系也不一样,所以我们会对服务质量进行预处理,规格化不同QoS属性,把QoS值映射到区间[0,1]之间,然后使用离策略强化学习方法—Q学习算法,初始时,状态之间的转移函数T和回报函数R都是不知道的,Q本文档来自技高网
...
结合Skyline计算与多目标强化学习服务组合方法

【技术保护点】
一种结合Skyline计算与多目标强化学习的服务组合方法,其特征在于,所述方法包括以下步骤:1)根据实际应用场景,建立模型;2)使用Skyline计算的算法缩减同质服务空间;3)利用多目标强化学习的单策略方法和多策略方法,根据算法得出一些列最优解集。

【技术特征摘要】
1.一种结合Skyline计算与多目标强化学习的服务组合方法,其特征在于,所述方法包括以下步骤:1)根据实际应用场景,建立模型;2)使用Skyline计算的算法缩减同质服务空间;3)利用多目标强化学习的单策略方法和多策略方法,根据算法得出一些列最优解集。2.根据权利要求1所述的结合Skyline计算与多目标强化学习的服务组合方法,其特征在于,所述步骤1)根据实际应用场景,模拟建立模型具体如下,将构建一个机器理解的抽象化的模型,一个Web服务描述成计算机可理解的形式,采用IOPE形式:六元组WS=<ID,In,Out,Pr,E,QoS>;其中ID表示唯一标识符,In表示输入,Out表示输出,Pr表示前提条件,E表示效果影响,QoS表示Web服务的QoS属性集合,是个N元向量,将一个基于多目标马尔可夫决策过程(WSC-MOMDP)的Web服务组合定义成一个六元组其中S是有限离散状态集合,包含所有的环境状态;s0是Web服务组合执行的起始状态;ST是终止状态集合;A(s)是在s状态下可供调用的服务集合;A是所有状态下能被执行的服务集合;T是状态转移概率函数,是N维回报向量形式的立即回报函数;针对建立WSC-MOMDP模型,采用强化学习算法,学习策略进行更新时,依靠学习Agent不断与环境进行交互,当学习Agent调用某一个服务后,当前环境迁移到后续环境状态,Agent同时接收环境给出的反馈信号,环境的反馈信号是根据被调用服务的QoS属性来计算的,根据当前状态和得到的反馈信号进行下一步动作的选择,不断重复这个过程直到到达终止状态,具有最大累积回报的服务序列就是最优的组合方案,其中QoS的属性值的计算公式如下:qresT(ws)=Te(s)+Tt(s)其中,qa(ws)是可用性,t是一时间段,t(a)是此时间段中Web服务正常执行时间;qr(ws)是可靠性,Ns是Web服务成功执行次数,Nt是执行总次数;qp(ws)是调用服务所花费用;qrexT(ws)是响应时间,Te(s)是服务执行时间,Tt(s)是服务提供商与服务请求者之间的网络通信时间;对服务质量进行预处理,规格化不同QoS属性,把QoS值映射到区间[0,1]之间,然后使用离策略强化学习方法—Q学习算法,初始时,状态之间的转移函数T和回报函数R都是不知道的,Q学习中,基于立即回报值和Q-value值函数,以增量式的方法评估选择动作的Q值,Q学习方法状态动作对值函数更新如下公式:其中,s和s’表示状态,a和a’表示动作,Q(s,a)和Q(s’,a’)表示矩阵...

【专利技术属性】
技术研发人员:王红兵胡兴国洪恬静
申请(专利权)人:东南大学
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1