当前位置: 首页 > 专利查询>大连大学专利>正文

一种基于SDN架构的业务识别方法技术

技术编号:18784455 阅读:195 留言:0更新日期:2018-08-29 07:12
本发明专利技术公开了一种基于SDN架构的业务识别方法,利用SDN控制和转发相分离思想重新定义了在线流量分类,同时针对存在大量噪声问题提出了一种样本差异性度量的方式选取出标记置信度较高的样本用于训练分类从而实现了噪声过滤功能,适用于空间信息网络在线业务识别。

【技术实现步骤摘要】
一种基于SDN架构的业务识别方法
本专利技术属于卫星网络
,具体说是一种基于SDN架构的业务识别方法。
技术介绍
随着各种新任务、新应用的不断涌现,对空间信息网络提出了众多不同的新需求,复杂的网络环境、星上资源受限、拓扑动态变化频繁等特性对网络的灵活管控和业务的高效编排提出挑战。传统的离线业务流量识别方法消耗时间长、实时性差且无法满足星上在线处理需求的问题,研究者借鉴SDN控制与转发相分离的思想,屏蔽了协议异构性,以一种更加灵活的方式对网络进行管理和控制,离线业务流量分类通过从网络中采集流量数据并存储,然后再进行特征统计按照分类方法进行业务分类,然而在空间信息网络中存在大量的实时性业务迫切需要能够以实时或近实时方式识别出不同的业务类型,如何在SDN网络中实现在线流量分类需要针对业务流量数据的收集以及分类器的训练问题展开专门研究。选择合适的流量统计特征对于实现业务分类准确率来说具有十分重大的意义,传统的离线流量统计特征也并不完全适用于空间信息网络在线流量分类,有必要针对空间信息网络在线业务流量分类技术的统计特征选取问题展开讨论。此外,在真实的空间信息网络环境下存在大量的噪声如Ka频段受雨水天气,太阳活动等引起的高误码率,以及长时延问题等问题引入的噪声,直接使用这些包含大量噪声的流量数据来训练分类器会对所训练出的分类器性能产生影响,迫切需要针对大量噪声存在的问题展开研究。目前,有关在线业务识别展开研究的包括:有研究者提出了一种部署在企业网络中的SDN架构,使用SDN控制器收集来自OpenFlow交换机转发过来前几个数据包并进行特征统计,采用机器学习算法来实现在线流量分类,实验结果表明使用有监督机器学习可以对数据集进行高精度分类,但研究只是在企业网络中部署SDN架构并不能应用于空间信息网络;有研究者利用流开始的前5个数据包进行相关特征的统计,通过分析3种机器学习算法(C4.5、BayesNet和NBTree)分类结果,研究可用于在线流量分类的特征以及这些特征应满足的条件,实验结果表明这三种算法均取得较高的分类准确率,然而所采用的算法已有的有监督机器学习并未对针对包含大量噪声数据空间信息网络环境进行考虑;还有研究者提出了一种Tri-Training协同训练算法,利用少部分已标记的训练样本和大量未标记辅助训练样本训练分类器,从已标记样本集中随机抽取产生三个样本子集,采用相同的分类算法训练出三个基础分类器,选取出一个作为主分类器剩下的作为辅助分类器,取出两辅助分类器分类结果相同的样本进行标记,然后用于辅助主分类器的强化训练,然而存在两辅助分类器同时标记错误情况这样会引入噪声数据从而对分类结果造成一定的影响。
技术实现思路
为解决现有技术存在的上述问题,本专利技术要设计一种基于SDN架构的业务识别方法,针对空间信息网络存在大量噪声造成训练的分类器分类性能较弱的问题提出了一种具有噪声过滤功能的协同训练算法--Dif-TriTraining,从而实现对空间信息网络的灵活管控以及业务的高效编排。本申请采用一种基于软件定义的空间信息网络(SoftwareDefinedSpatialInformationNetwork,SDSIN)架构,其实际的部署方案如下:将SDN核心思想应用于空间信息网络,实现空间信息网络控制平面和转发平面分离,该架构由三个层面分别为应用层面、控制层面和转发层面组成,各个层面在其中承担不同的任务。进一步地,在上述体系架构下,使用在控制层面在线收集OpenFlow交换机转发过来的数据包并进行特征统计使用分类器来进行业务分类。为了实现上述目的,本专利技术的技术方案如下:一种基于SDN架构的业务识别方法,具体包括以下步骤:A、满足星上在线业务分类需求,设计一种在线学习框架传统离线流量分类方法必须等整条流都结束后才能进行分类处理,无法满足一些实时性要求较高或需要高速处理的业务需求,因此设计了一种在线学习框架,在线识别分为离线训练和在线分类两个阶段。(1)离线训练阶段离线训练阶段主要获取实时业务流量数据作为训练集,通过提取流量特征和对样本进行部分标记,实现基于Dif-TriTraining算法的训练分类器。(2)在线分类阶段该阶段的主要工作在于抓取实时网络流量并进行特征提取,使用分类器进行流量分类,以获得分类结果。B、筛选适用于空间信息网络的在线流流量分类特征传统的基于离线的流量分类特征并不完全适用于空间信息网络在线流量分类,在线流量分类特征应该易于统计、能够满足尽早分类、计算存储开销低、可重新训练分类器的需求,基于此选取合适的基于包的统计特征和基于流的统计特征。(1)基于包的统计特征的选取。把选取流中前5个数据包作为一条子流,统计子流中最大包、最小包、平均包的大小、平均到达时间间隔的均值作为统计特征,避免使用那些需要通过傅里叶变换等复杂计算得到的特征值,由于空间信息网络长时延特性可能会导致包到达顺序不一致的情况,因而诸如流中某一位数据包大小的统计特征也不适用。(2)基于流的统计特征的选取。由于空间信息网络采用了不同的传输协议导致数据包格式有所不同,因而针对流中ACK包数和一些特殊标志位的统计特征并不能用于空间信息网络在线业务识别,选取了流大小,流的持续时间,相邻两数据包到达时间间隔最小值作为统计特征。C、基于噪声过滤的协同训练算法—Dif-TriTraining基于噪声学习理论,如果大部分被标记的样本被标记正确,那么,引入错误标记所带来的分类错误率会被抵消。基于此提出了一种样本差异性度量方式,计算样本与整个样本集之间的差距,用以衡量样本在整个样本集中的偏移情况,通过计算值大小来确定样本标记置信度,并引入抽取比例的概念用于选取大量置信度较高的样本以抵消错误标记样本所带来的分类精度不高的问题。在机器学习中为估算不同样本之间的差距,需要通过计算样本间的“距离”的方式来实现。本申请采用了基于欧式距离的样本距离计算方式,假设有两个n维向量s1(x11,x12,...,x1n)和s2(x21,x22,...,x2n)他们之间的距离为:通过欧式距离可以反映出两个样本之间的“距离”,但无法代表某一样本与整个样本集之间整体性差距,需要计算样本与样本集之间的距离来筛选可靠性高的样本,因此定义了一种衡量单个样本与整个样本集之间整体性的差距的计算方式。定义通过单个样本与其他样本之间的距离之和的方式来衡量单个样本与整个样本集之间的“距离”,将其称之为样本差异性度量。由此,需要计算单个样本与样本集中其他所有的样本之间的距离然后求和,即可得出该样本与整个样本集的“距离”,其计算公式如下:假设初始已标记样本集为L,未标记样本集为U,训练分类器的具体步骤如下:C1、首先对有标记样本集L采用传统的可放回随机抽样方法(Bagging)从初始已标记样本集中获取三个有差异性的已标记样本集,再使用C4.5分类算法对这三个有标记数据集进行训练,得到三个初始分类器A、B、C。C2、选择其中任意一个为主分类器,假设A为主分类器,B和C为辅助分类器,然后利用辅助分类器B和C对未标记样本集U进行分类,做分类结果标记,将标记相同的样本与相应的标记组合成集合Xa。统计集合Xa样本个数,假设为K1。C3、计算每个样本xi属于Xa的样本差距。样本差距计算公式如下:其中本文档来自技高网
...

【技术保护点】
1.一种基于SDN架构的业务识别方法,其特征在于,具体包括以下步骤:A、设计一种在线学习框架;B、筛选适用于空间信息网络的在线流流量分类特征;C、训练分类器。

【技术特征摘要】
1.一种基于SDN架构的业务识别方法,其特征在于,具体包括以下步骤:A、设计一种在线学习框架;B、筛选适用于空间信息网络的在线流流量分类特征;C、训练分类器。2.根据权利要求1所述一种基于SDN架构的业务识别方法,其特征在于,一种在线学习框架,包括离线训练和在线分类两个阶段;离线训练阶段:获取实时业务流量数据作为训练集,通过提取流量特征和对样本进行部分标记,实现基于Dif-TriTraining算法的训练分类器;在线分类阶段:抓取实时网络流量并进行特征提取,使用分类器进行流量分类,以获得分类结果。3.根据权利要求1所述一种基于SDN架构的业务识别方法,其特征在于,在线流流量分类特征包括:(1)基于包的统计特征的选取:把选取流中前N个数据包作为一条子流,统计子流中最大包、最小包、平均包的大小、平均到达时间间隔的均值作为统计特征;(2)基于流的统计特征的选取:流大小、流的持续时间,相邻两数据包到达时间间隔最小值作为统计特征。4.根据权利要求1所述一种基于SDN架构的业务识别方法,其特征在于,训练分类器的具体步骤如下:假设初始已标记样本集为L,未标记样本集为U;C1、采用可放回随机抽样方法从初始已标记样本集L中获取三个有差异性的已标记样本集,再使用分类算法对这三个有标记数据集进行训练,得到三个初始...

【专利技术属性】
技术研发人员:潘成胜杨力魏德斌石怀峰刘勇
申请(专利权)人:大连大学
类型:发明
国别省市:辽宁,21

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1