The invention relates to a method for strengthening the service combination learning with Skyline computing and multi target, which is characterized in that the method comprises the following steps: 1) according to the actual application scene simulation model; 2) calculated using the Skyline algorithm to reduce the homogeneous service space; 3) to strengthen the strategy learning method of single and multi strategy method the use of multiple targets, according to some algorithm to get the optimal solution set. The method can well adapt to the dynamic changes of the environment and meet the diverse needs of users, thus showing its good adaptability and scalability.
【技术实现步骤摘要】
结合Skyline计算与多目标强化学习服务组合方法
本专利技术涉及一种组合方法,具体涉及一种结合Skyline计算与多目标强化学习的服务组合方法,属于多目标强化学习
技术介绍
随着软件组件技术的发展,SOA成为一种受到广泛关注的软件开发范式,通过软件组件实现企业软件系统,在实现应用集成和B2B行业展现了巨大的潜力。随着网络技术的飞速发展,单个Web服务的功能相对来说比较单一、有限,也许已经不能满足人们的需求了,在这种情况下,一个任务需要能调用多个Web服务。而Web服务组合能使得Web上的业务应用无缝地、动态地集成。因此,我们可以对现有的服务进行组合。尽管服务组合能提高软件组件的复用,可以灵活快速构建新的业务系统和扩展更新已有的业务系统,其所依托的环境特点也影响了服务组合的正确性、可靠性等质量属性。Web服务是依托于互联网的,然而互联网是动态不断变化的,任何一个服务提供商发生意外都可能影响组合服务的质量。另外,Web服务自身也会进行演化、更新,互联网上随时都可能会有新的Web服务发布、失效、删除和更新等。这种场景下,就要求服务组合方案对环境有一定的自适应性,使得服务组合能自主适应环境并构建出有效的组合服务。此外,已存在的Web服务组合方法,绝大部分都把QoS综合成一个效用函数,用这个效用函数来评估组合服务的质量,而没有考虑这些QoS属性是否冲突。比如,好的服务质量(高可靠性、响应时间小、好的声誉等)对应着高的服务价格。这种情况下,把所有服务质量(QoS)综合成一个统一的效用函数就显得不那么合理了。且随着用户的需求越来越多样化,单独给用户提供一个组 ...
【技术保护点】
一种结合Skyline计算与多目标强化学习的服务组合方法,其特征在于,所述方法包括以下步骤:1)根据实际应用场景,建立模型;2)使用Skyline计算的算法缩减同质服务空间;3)利用多目标强化学习的单策略方法和多策略方法,根据算法得出一些列最优解集。
【技术特征摘要】
1.一种结合Skyline计算与多目标强化学习的服务组合方法,其特征在于,所述方法包括以下步骤:1)根据实际应用场景,建立模型;2)使用Skyline计算的算法缩减同质服务空间;3)利用多目标强化学习的单策略方法和多策略方法,根据算法得出一些列最优解集。2.根据权利要求1所述的结合Skyline计算与多目标强化学习的服务组合方法,其特征在于,所述步骤1)根据实际应用场景,模拟建立模型具体如下,将构建一个机器理解的抽象化的模型,一个Web服务描述成计算机可理解的形式,采用IOPE形式:六元组WS=<ID,In,Out,Pr,E,QoS>;其中ID表示唯一标识符,In表示输入,Out表示输出,Pr表示前提条件,E表示效果影响,QoS表示Web服务的QoS属性集合,是个N元向量,将一个基于多目标马尔可夫决策过程(WSC-MOMDP)的Web服务组合定义成一个六元组其中S是有限离散状态集合,包含所有的环境状态;s0是Web服务组合执行的起始状态;ST是终止状态集合;A(s)是在s状态下可供调用的服务集合;A是所有状态下能被执行的服务集合;T是状态转移概率函数,是N维回报向量形式的立即回报函数;针对建立WSC-MOMDP模型,采用强化学习算法,学习策略进行更新时,依靠学习Agent不断与环境进行交互,当学习Agent调用某一个服务后,当前环境迁移到后续环境状态,Agent同时接收环境给出的反馈信号,环境的反馈信号是根据被调用服务的QoS属性来计算的,根据当前状态和得到的反馈信号进行下一步动作的选择,不断重复这个过程直到到达终止状态,具有最大累积回报的服务序列就是最优的组合方案,其中QoS的属性值的计算公式如下:qresT(ws)=Te(s)+Tt(s)其中,qa(ws)是可用性,t是一时间段,t(a)是此时间段中Web服务正常执行时间;qr(ws)是可靠性,Ns是Web服务成功执行次数,Nt是执行总次数;qp(ws)是调用服务所花费用;qrexT(ws)是响应时间,Te(s)是服务执行时间,Tt(s)是服务提供商与服务请求者之间的网络通信时间;对服务质量进行预处理,规格化不同QoS属性,把QoS值映射到区间[0,1]之间,然后使用离策略强化学习方法—Q学习算法,初始时,状态之间的转移函数T和回报函数R都是不知道的,Q学习中,基于立即回报值和Q-value值函数,以增量式的方法评估选择动作的Q值,Q学习方法状态动作对值函数更新如下公式:其中,s和s’表示状态,a和a’表示动作,Q(s,a)和Q(s’,a’)表示矩阵...
【专利技术属性】
技术研发人员:王红兵,胡兴国,洪恬静,
申请(专利权)人:东南大学,
类型:发明
国别省市:江苏,32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。