一种基于流量识别的网络功能虚拟化智能调度方法技术

技术编号:22298331 阅读:79 留言:0更新日期:2019-10-15 06:54
一种基于流量识别的网络功能虚拟化智能调度方法,基于置信区域策略优化算法实现,所述方法包括下列操作步骤:(1)对网络数据流进行分类:(2)设置置信区域策略优化算法的状态空间;(3)设置置信区域策略优化算法的动作空间;(4)设置置信区域策略优化算法的奖励函数:(5)设置置信区域策略优化算法的损失函数;(6)在前述步骤的基础上,利用置信区域策略优化算法实现对虚拟网络功能的智能调度。本发明专利技术方法,能根据不同流量数据的服务质量需求,实现虚拟网络功能的智能调度,提高了网络利用率和网络服务性能。

An Intelligent Scheduling Method for Network Function Virtualization Based on Traffic Recognition

【技术实现步骤摘要】
一种基于流量识别的网络功能虚拟化智能调度方法
本专利技术涉及一种基于流量识别的网络功能虚拟化智能调度方法,属于信息
,特别是属于网络功能虚拟化

技术介绍
随着网络流量数据的快速增长和网络应用的不断普及,网络用户对于服务质量的需求越来越高,包括低延时、低丢包率和高吞吐量等,因此网络设备不仅需要提高带宽和容量,更需要一个合适的资源调度机制。NetworkFunctionVirtualization(NFV)即网络功能虚拟化技术将网络功能从传统硬件设备分离,能够灵活地编排网络功能,共享网络资源。NFV技术使用virtualizednetworkfunctions(VNF)即虚拟网络功能实现对不同网络的创建、配置、监测和运行,VNF被部署在不同的网络节点中,不同的网络服务由一些特定的虚拟网络功能组成的服务功能链完成。因此在NFV环境下,对网络功能的编排即调度决定了网络服务的质量与网络资源的调度使用。但是目前NFV环境中的调度方案大多遵从先进先出原则,以提高网络利用率为目标,完成尽可能多的流量数据的传输任务,而没有考虑到用户对于不同种类的流量数据有着不同的服务质量要求,往往会导致用户优先级较低的流量数据占用大量网络带宽等资源,影响优先级较高的流量数据的用户体验。当前主流的流量识别研究都采用机器学习的方法,提取流量数据的特征进行识别分类。然而这些工作大多局限在识别少数特定网络应用或者特定网络环境下的流量数据,在流量包被加密后很难起到作用,应用的范围较为狭窄。而虚拟网络功能的动态编排方案被视为一个在线决策问题,现有的研究都局限于对环境进行建模来得到最优方案,忽略了从历史经验中提取的最优长期收益。如何把虚拟网络功能的编排或调度机制与网络流量识别技术进行有效结合,提高网络资源利用率,为不同业务需求提供定制化的服务,并降低网络传输延时和网络功耗,成为网络功能虚拟化
的一个亟待解决的技术难题。
技术实现思路
有鉴于此,本专利技术的目的是专利技术一种基于流量识别的网络功能虚拟化智能调度方法,实现基于用户业务需求的网络流量的种类划分,并实现根据网络环境和用户业务需求的网络功能的智能调度。为了达到上述目的,本专利技术提出了一种基于流量识别的网络功能虚拟化智能调度方法,基于置信区域策略优化算法TrustRegionPolicyOptimization算法实现,所述方法包括下列操作步骤:(1)对网络数据流进行分类:根据网络数据流的到达时间、数量和长度构造网络数据流的识别特征,对网络数据流进行分类;所述识别特征不会受到网络数据流是否加密的限制;所述识别特征取决于网络用户行为的流量类型,不会受到同一类型不同应用的限制;(2)设置TrustRegionPolicyOptimization算法的状态空间:对于数据包i,定义其在时间步ti到达时的网络状态为由此时网络中所有节点状态链路状态和传输状态共同组成;上式中,表示时间步ti时节点n的空闲计算资源,表示时间步ti时链路e的空闲带宽资源;MTTi表示数据包i的最大传输时间,该最大传输时间根据步骤(1)中对数据包i的分类结果来设定;TPi表示数据包i的传输优先级,该传输优先级根据步骤(1)中对数据包i的分类结果来设定;(3)设置TrustRegionPolicyOptimization算法的动作空间:系统扫描整个网络,获得所有从源节点到目的节点的所有可达路径,假设存在P条路径,则动作空间为:A={a|a∈{1,2,…,P},上式中a表示系统所采取的动作,即对应具体编号的路径;(4)设置TrustRegionPolicyOptimization算法的奖励函数:由于受到网络服务质量的限制,当数据包在网络中传输时间超过其最大传输时间时,则该数据包被丢弃,故以最小化数据包的平均延时和丢弃包的数量为目的,设置t时间步的奖励函数rt为:上式中It表示t时间步在网络中传输的流量数据包的集合,Nt表示t时间步丢弃的数据包的数量,b和c分别表示基准值和惩罚系数;(5)设置TrustRegionPolicyOptimization算法的损失函数:上式中,Et[]表示对t时间步方括号内的部分求数学期望;θ表示生成该算法中决策策略的神经网络所有参数集合,表示新策略πθ(at|st)与旧策略之间相同的状态-动作对被选中的概率比值,clip()函数表示数值截断函数,括号内第二项和第三项的数值分别为第一项数值的上界和下界,rt(θ)在上下界之间则函数值输出rt(θ)的原始值,若超出上下界则对rt(θ)进行截断,输出上界值或下界值。表示新策略πθ(at|st)与旧策略之间点概率分布的距离平方值,rt(θ)与Dpp均为衡量新旧策略之间差值的指标,ε为截取系数,λ为惩罚系数,为优势函数,表示在t时间步选择特定动作的收益与所有动作平均收益的差:其中第一项表示根据策略π在状态s下采取动作a带来的期望奖励值,为累积奖励值;γ为折扣系数,在0和1之间取值,用以平衡最新奖励值与历史奖励值的影响;rt+k表示第t+k时间步的奖励值;V(s)表示在状态s下所有动作奖励的平均值;(6)在前述步骤的基础上,利用置信区域策略优化算法实现对虚拟网络功能的智能调度。所述的识别特征具体包括如下特征:前向包的到达时间间隔最大值,前向包的到达时间间隔最小值,前向包的到达时间间隔平均值,前向包的到达时间间隔标准差;后向包的到达时间间隔最大值,后向包的到达时间间隔最小值,后向包的到达时间间隔平均值,后向包的到达时间间隔标准差;双向包的到达时间间隔最大值,双向包的到达时间间隔最小值,双向包的到达时间间隔平均值,双向包的到达时间间隔标准差;网络数据流持续时间;前向包包长度最大值,前向包包长度最小值,前向包包长度平均值,前向包包长度标准差;后向包包长度最大值,后向包包长度最小值,后向包包长度平均值,后向包包长度标准差;双向包包长度最大值,双向包包长度最小值,双向包包长度平均值,双向包包长度标准差;前向包平均每秒包数,前向包平均每秒字节数;后向包平均每秒包数,后向包平均每秒字节数;前向包和后向包平均每秒包数比值,前向包和后向包平均每秒字节数比值;所述前向包是指从本地客户端传输向服务器端的网络流量数据包,所述后向包是指从服务器端传输向本地客户端的网络流量数据包,所述双向包是指本地客户端与服务器端之间传输的所有网络流量数据包。所述步骤(1)中对网络数据流进行分类的具体内容是:使用统计学习方法和神经网络对网络数据流进行训练分类,获得训练好的分类模型之后,获取网络中新进入的双向包,按照设定周期进行特征提取后输入到所述分类模型中,得到实时的分类结果。所述的分类模型是深度森林模型。本专利技术的有益效果在于:本专利技术提出的基于流量识别的网络功能虚拟化智能调度方法,能根据不同流量数据的服务质量需求,实现虚拟网络功能的智能调度,为每一个流量包的细粒度调度提供了精确的传输要求,实验证明本方法能有效调度网络资源,提高网络利用率和网络服务性能。附图说明图1是本专利技术提出的一种基于流量识别的网络功能虚拟化智能调度方法的流程图。具体实施方式为使本专利技术的目的、技术方案和优点更加清楚,下面结合附图对本专利技术作进一步的详细描述。参见图1,介绍本专利技术提出的一种基于流量识别的网络功能虚拟化智能调度方法本文档来自技高网
...

【技术保护点】
1.一种基于流量识别的网络功能虚拟化智能调度方法,基于置信区域策略优化算法Trust Region Policy Optimization算法实现,其特征在于:所述方法包括下列操作步骤:(1)对网络数据流进行分类:根据网络数据流的到达时间、数量和长度构造网络数据流的识别特征,对网络数据流进行分类;所述识别特征不会受到网络数据流是否加密的限制;所述识别特征取决于网络用户行为的流量类型,不会受到同一类型不同应用的限制;(2)设置Trust Region Policy Optimization算法的状态空间:

【技术特征摘要】
1.一种基于流量识别的网络功能虚拟化智能调度方法,基于置信区域策略优化算法TrustRegionPolicyOptimization算法实现,其特征在于:所述方法包括下列操作步骤:(1)对网络数据流进行分类:根据网络数据流的到达时间、数量和长度构造网络数据流的识别特征,对网络数据流进行分类;所述识别特征不会受到网络数据流是否加密的限制;所述识别特征取决于网络用户行为的流量类型,不会受到同一类型不同应用的限制;(2)设置TrustRegionPolicyOptimization算法的状态空间:对于数据包i,定义其在时间步ti到达时的网络状态为由此时网络中所有节点状态链路状态和传输状态共同组成;上式中,表示时间步ti时节点n的空闲计算资源,表示时间步ti时链路e的空闲带宽资源;MTTi表示数据包i的最大传输时间,该最大传输时间根据步骤(1)中对数据包i的分类结果来设定;TPi表示数据包i的传输优先级,该传输优先级根据步骤(1)中对数据包i的分类结果来设定;(3)设置TrustRegionPolicyOptimization算法的动作空间:系统扫描整个网络,获得所有从源节点到目的节点的所有可达路径,假设存在P条路径,则动作空间为:A={a|a∈{1,2,…,P},上式中a表示系统所采取的动作,即对应具体编号的路径;(4)设置TrustRegionPolicyOptimization算法的奖励函数:由于受到网络服务质量的限制,当数据包在网络中传输时间超过其最大传输时间时,则该数据包被丢弃,故以最小化数据包的平均延时和丢弃包的数量为目的,设置t时间步的奖励函数rt为:上式中It表示t时间步在网络中传输的流量数据包的集合,Nt表示t时间步丢弃的数据包的数量,b和c分别表示基准值和惩罚系数;(5)设置TrustRegionPolicyOptimization算法的损失函数:上式中,Et[]表示对t时间步方括号内的部分求数学期望;θ表示生成该算法中决策策略的神经网络所有参数集合,表示新策略πθ(at|st)与旧策略之间相同的状态-动作对被选中的概率比值,clip()函数表示数值截断函数,括号内第二项和第三项的数值分别为第一项数值的上界和下界,rt(θ)在上下界之间则函数值输出rt(θ)的原始值,若超出上下界则对rt(θ)进行截断,输出上界值或下界值;表示新策略...

【专利技术属性】
技术研发人员:王晶王敬宇孙海峰戚琦何波廖建新
申请(专利权)人:北京邮电大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1