集成学习网络流量预测方法、系统、设备、终端、介质技术方案

技术编号:31795824 阅读:18 留言:0更新日期:2022-01-08 10:55
本发明专利技术属于网络管理技术领域,公开了一种集成学习网络流量预测方法、系统、设备、终端、介质,所述集成学习网络流量预测方法包括:进行基于时间与空间的网络流量预测模型的构建;确定基于多层感知机的集成学习网络流量预测模型框架结构;进行基于多层感知机集成学习的网络流量时空建模,通过基于多层感知机的集成学习网络流量预测模型得出预测结果。本发明专利技术提供的基于多层感知机集成学习网络流量数据预测应用研究:1)用卷积神经网络与GRU门控单元对网络流量数据进行空间与时间的建模;2)提出一种基于多层感知机的集成学习网络流量预测模型;3)首次将时空建模引入网络流量预测领域。本发明专利技术预测结果精准度高,适应复杂因素影响,且控制更加准确。且控制更加准确。且控制更加准确。

【技术实现步骤摘要】
集成学习网络流量预测方法、系统、设备、终端、介质


[0001]本专利技术属于网络管理
,尤其涉及一种集成学习网络流量预测方法、系统、设备、终端、介质。

技术介绍

[0002]目前,随着网络的迅速发展,网络上承载的业务应用日益丰富,人们生活与移动网络之间的关系逐渐紧密,使用网络流量的用户出现逐年增长的态势。于是网络管理的一个重要方面就是网络流量的实时检测,能够有效掌握网络流量信息、提高网络的运行速度和利用率。通过网络流量预测可以解决流量过载、网络拥塞、网络崩溃等问题。不断优化网络结构、提高网络性能,高精度的网络流量预测尤为重要。
[0003]快速增长的用户需求和网络规模,使网络流量的使用逐渐增多,在建立更多基站的同时提高网络运营商的数据处理能力,从而进行精准的网络流量预测。但是网络流量的数据量庞大,在网络流量数据集中,会出现有端口样本点天数不连续的情况发生,出现这种情况的原因是新加入的端口路由、设备故障维修暂停服务等等。因此需要对数据集进行初步筛选,剔除掉不连续的端口样本,类似于此类影响网络流量预测的因素有很多。传统的网络流量预测已经不能适应网络规模的迅速发展以及这种复杂的数据变化。基于研究近年来国内外的研究现状,对网络流量预测相关文献进行充分分析,发现传统的网络流量预测方法对如今多影响因素的流量数据存在预测精度低等问题。
[0004](1)国内外研究网络流量预测方法的分类
[0005]从常用的流量预测模型角度分类,可分为基于神经网络和基于灰色模型的。神经网络主要通过调节内部大量节点之间相互连接的关系,从而达到处理信息的目的。它的学习方式可以分为有监督的学习和无监督的学习。它的系统监督途径大致将其划分为两种,有监督学习就是利用系统给定的样本数据作为标准进行监督分类或模仿,另一种无监督学习只是明确规定了学习的基本方式和规律,而具体的学习内容可能会因为学习系统所在环境不同而产生差异,系统这样就可以自动快速发现自己所在学习环境的一些基本特征和规律,是一种近似于人脑自动学习的功能。如果一个系统本身仍然具有多种时间层次、结构和空间关系的模糊性、动态变化的随机性、指标数据的不完备性,则可以称这些系统特性为灰色的系统特性。
[0006]从网络流量预测研究方法侧重的角度,网络流量预测方法基本上可以分为两大类,即线性预测方法和非线性预测方法。这种预测方法是基于时间序列的,需要对数据进行分析来判断出长期变化趋势,以便得出需要预测的数据结果。它的原理是根据这些有序数据找到规律后进行数学建模来进行预测。典型的线性预测模型有自回归模型Autoregressive(AR)Model、移动平均模型Moving Average (MA)Model及其改进模型,包括自回归滑动平均模型Autoregressive Moving Average(ARMA)Model、差分自回归移动平均模型Autoregressive Integrated Moving Average(ARIMA)Model、差分自回归求和滑动平均模型Fractional autoregressive integration moving average(FARIMA)Model等。基
于神经网络的非线性预测算法分析,神经网络以其分布式数据存储、并行处理、良好的鲁棒性、自适应性、自动学习性在现代计算机
已经有广泛的应用和发展前景。神经网络的实际建模应用理论和方法具有一定的普遍性,并且非线性的神经预测模型技术在神经网络建模的应用中已经取得较好的科研成果,常见的非线性理论应用于网络流量预测中的模型有支持向量机Support vector machines(SVM)、灰色模型Grey Model(GM)、神经网络Neural Network(NN)等。非线性模型的预测结果是较为理想的,但是仍然存在不足,并不能有效地进行多步的预测,它比较明显的优势是可以进行单步预测。
[0007]从发展阶段的角度分析,预测方法可被分为传统时间序列预测方法和基于神经网络的预测方法。用于传统时间序列的预测方法有线性回归、自回归移动平均模型等。也可以选择基于空间的卷积神经网络和基于时间序列的循环神经网络。卷积神经网络已经成功地应用于图像分割、语义分割、机械翻译等领域。它通过一种卷积操作可以提取数据的空间信息,针对不同的数据可以分为一维卷积、二维卷积与三维卷积。在图像领域采用二维卷积。卷积神经网络能很好的提取数据之间的空间信息,并且采取了残差神经网络来提升预测的准确性。循环网络的特殊结构是模型具有记忆功能,因此能够记住每个输入数据之间的关系。循环网络在机械翻译、语音识别、文本相似度等领域得到广泛的应用,尤其是机械翻译这种输入数据之间由强烈联系的数据。
[0008]近年来,网络规模逐渐增大,使用网络流量的用户日益增多,网络流量的变化错综复杂,影响网络流量变化的因素繁多,但其仍具有一定的变化规律,在网络流量预测中通常使用建立合适的数学预测模型来实现网络流量预测的高度精确性。目前在网络流量的预测提出的众多解决方案中,多数还是对预测模型的改进。下面将从国内、国外两个方面展开叙述。
[0009](2)国内网络流量预测研究现状
[0010]许多近年来基于新型网络预测系统模型与分析方法已经得到了越来越多的应用。对于神经网络应用中的时间流量进行预测的技术主要包括流量回归预测模型、时间序列预测模型、灰色区域预测分析方法、神经网络、模糊预测理论、小波理论等。Possion网络模型分析是目前最早在移动互联网上广泛应用于网络流量的预测分析领域。这时的流量数据是基于指数分布且网络流量的数据组成也是相对简单的。泊松分布方法是用来描述一个在特定单位周期时间内的随机事件所具有可能发生的频率和次数,它通常使用在因变量的计数变量的情形。
[0011]后来基于自回归的AR模型被引入到流量预测领域,通过对AR模型的改进,分别提出ARMA、 ARIMA、FARIMA等模型。在经典的回归模型中,为考察事物之间的关联关系,需要通过使用回归模型方法来建立不同变量之间的函数关系。得到预测结果的前提就是发现数据之间存在的规律,并利用数据之间的规律建立数学模型,基于时间序列的预测模型在此时彰显出它的优点,因为它的预测模型不需要通过建立一个具有因果关系的模型,仅是需要其中一个变量数据就已经可以进行建模,这种基于时间序列的分析可以在建模方式中得到广泛应用。在国内,武汉大学也在网络性能、流量及路由测量方面做了大量的研究工作,并完成部分模块的实现,他们提出了一种网络性能分析与测量支持系统。高波在文献《基于时间相关的网络流量建模与预测研究》中提出网络流量建模的基础是进行网络流量特征的研究,在比较几种常见的流量模型后提出C

ON/OFF模型和EMD

AMRA模型来解决流量计算度复
Applied to Network TrafficPrediction[J].》提出一种FIR神经网络算法,并且推导了一种自适应增益的学习算法每一层激活函数。由于神经网络具有自学习能力,它可以只通过输本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种集成学习网络流量预测方法,其特征在于,所述集成学习网络流量预测方法包括:基于序列到序列Seq

to

Seq的框架思想,分别用卷积神经网络与GRU门控单元对网络流量数据进行空间与时间的建模,空间模型中使用到的残差神经网络ResNet与批归一化技术BatchNorm,时间模型中使用的注意力机制Attention;构建基于多层感知机的集成学习网络流量预测模型;获得空间和时间特征编码;基于集成学习思想,通过多层感知机将空间与时间特征进行集成学习;得到集成学习的时空特征后,将所述时空特征输入到基于GUR门控单元的解码部分得出预测结果;加入注意力机制和Teacher

Forcing机制,最后确定基于多层感知机的集成学习网络流量预测模型框架结构。2.如权利要求1所述集成学习网络流量预测方法,其特征在于,所述集成学习网络流量预测方法包括以下步骤:步骤一,进行基于时间与空间的网络流量预测模型的构建;步骤二,确定基于多层感知机的集成学习网络流量预测模型框架结构;步骤三,进行基于多层感知机集成学习的网络流量时空建模,通过基于多层感知机的集成学习网络流量预测模型得出预测结果。3.如权利要求2所述集成学习网络流量预测方法,其特征在于,步骤一中,所述基于时间与空间的网络流量预测模型构建,包括:(1)确定网络流量的空间与时间依赖性

数据的空间依赖性针对具有一定城区居住特性的数据格式,用于表明某个城市不同居民流量使用情况,通过遍布在城市的基站进行流量的转发与发送;在网络流量预测问题中,基站的空间分布与欧几里得空间非常相似,所有流量的输出点与汇入点呈现一种网状分布;

数据的时间依赖性网络流量数据随时间的变化是非线性的、非平稳的;其中,2月份与10月份流量是所有月份流量中最高的两个月;(2)基于卷积神经网络的空间依赖建模针对数据对于空间的依赖性,提出卷积神经网络CNNS建模;通过卷积神经网络提取数据之间的空间信息,采取残差神经网络;对于序列数据,卷积神经网络CNN对于输入有不同的处理;输入样本定义为[M,C,N],其中M表示输入的样本数,N表示输入样本的特征维度,C设置为1,表示一维数据;样本通过一个一维卷积网络的数据转换,并将其输出通道数设置为城市基站的数量120个,得到数据格式为[M,120,N];将输入样本格式变为[M,120,N,1],提取到每个基站的空间特征信息;最后交给二维卷积神经网络做空间特征提取工作;采取金典的ResNet50网络,其级参数说明如下:1.ZEROPAD:填充矩阵(3,3),3行3列的零填充;即原始输入的数据矩阵为(2,2)大小,填充后大小为(5,5);多出部分全部为零;2.CONV块:64个卷积核大小为(7,7),卷积步长为(2,2)的二维卷积;3.BatchNorm块:批规范化;
4.ReLU:Relu激活函数,公式定义如下:5.MAXPOOL、AVGPOOL块:最大池化层,大小(3,3),步长(2,2);平均池化,大小(2,2),步长(1,1);6.CONVBLOCK块:将前几层的x通过一个短“路径”于其前一层的结果进行矩阵相加操作,其中会经历一个二维卷积操作与批量归一化操作把数据大小缩放到[

1,1]区间,最后经过一个Relu激活函数输出;7.IDBLOCK x n块:x通过一个“短路径”直接与其前一层的输出结果进行矩阵相加操作;n代表多个相同的IDBLOCK块链接在一起;8.Flatten块:将输入展平为一维数据;大小为(M,

1),M表示样本数,

1表示输入样本矩阵数据综合;9.FC块:全连接层,大小为(H,N),H表示上一层输入维度,N表示所需预测数据输出维度;残差神经网络ResNet用于解决深度神经网络而出现的“跳跃链接”技术;ResNet网络表现良好的原因总结如下:假设有一个较深的神经网络,其输入为x,输出为a
l
;加入一个残差块结构,网络中的激活函数均为Relu激活函数,即所有的输出均大于等于零;BigRNN为深度神经网络,Layer1、Layer2为额外添加的残差块网络假设Layer2未经过激活函数的输出未z
l+2
,则输出a
l+2
的公式定义如下:a
l+2
=g(z
l+2
+a
l
);其中,g表示Relu激活函数;经扩展公式变为:a
l+2
=g(w
l+2
x+b
l+2
+a
l
);其中,w
l+2
、b
l+2
为Layer2层的权重与偏执;如果w
l+2
=0,同时b
l+2
=0,则a
l+2
将等于a
l
,加入残差块后网络的性能并未发生改变;假设在未经过批归一化的神经网路的输出为z
i
,其中i=1,2,3......n表示有n个样本数,表示经过批归一化的输出结果,计算公式定义如下:计算公式定义如下:计算公式定义如下:计算公式定义如下:其中,ε表示一个不小于零的极小数,η、β是通过神经网络学习得出的参数;假设神经网络的输入为x
t
,选择的批量大小为γ,其中0<γ≤m,m为样本总数,则批归一化的数量
以传统的最小批量梯度下降算法为例η、β计算过程如下:1.For t=1,2,3
……
n;2.在所有x
t
上进行前向传播;3.使用批归一化技术得到l表示神经网络第l层;4.使用反向传播技术计算各个梯度:dw
l
,dη
l
,dβ
l
;5.更新参数:w
l
=w
l

αdw
l
,η
l
=η
l

αdη
l
,β
l
=β
l

αdβ
l
,其中α表示学习率;(3)基于门控单元的时间依赖建模针对数据对于时间的依赖性,提出基于GRU门控单元的时间序列建模;模型框架采取的是序列到序列Seq2Seq框架,其中编码器部分采用双向GRU单元,解码器部分采取单项GRU单元;在解码器进行解码之前,添加注意力机制;在编码器部分中,初始是a<0>为零向量矩阵,Bi

GRU表示双向GRU单元其输出为2倍大小的单向GRU单元输出,其中分别代表a<1>的正向与反向的输出;Attention表示注意力机制;在解码器部分中,s<0&...

【专利技术属性】
技术研发人员:严灵毓赵羽茜王春枝夏金耀郑坤鹏周显敬
申请(专利权)人:武汉卓尔信息科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1