网络流量预测数据预处理阶段的参数最优化方法及系统技术方案

技术编号:30552531 阅读:81 留言:0更新日期:2021-10-30 13:33
本发明专利技术属于数据处理技术领域,公开了一种网络流量预测数据预处理阶段的参数最优化方法及系统,网络流量预测数据预处理阶段的参数最优化方法包括:对数据集进行改进策略上的Q

【技术实现步骤摘要】
网络流量预测数据预处理阶段的参数最优化方法及系统


[0001]本专利技术属于数据处理
,尤其涉及一种网络流量预测数据预处理阶段的参数最优化方法及系统。

技术介绍

[0002]目前,21世纪的今天,正处于科技创新高速发展的阶段,科技创新是第一生产力。网络科技的飞速发展,带动了很多的新兴产业和网络产物,自媒体、直播等网络科技的发展,尽管带来了很多的就业岗位,但也带来了巨大的网络流量使用的需求。因此,需要一种合理的对网络流量资源的使用进行科学信息化的规划,保障在安全高效使用的情况保证用户需求,从而保证更高效的社会经济的持续发展。要想做到网络流量负荷系统的正常运行,首要的前提条件就是加强关于网络流量预测的相关工作,特别是在预测前的工作,即对数据的科学预处理模块,这在网络流量市场的发展过程中显得十分必要。
[0003]在网络流量预测中,因为数据采集时的操作不规范、采集设备故障、数据系统升级等原因,导致数据中存在大量的空值、异常值的情况。数据质量较差对数据预处理构成了严重的挑战。在数据清洗阶段,既不能一味的去除所有的包含空值的数据行,也不能放任含有大量空值的数据行进入数据增强阶段或者模型训练阶段。在数据清洗流程中,通常使用有效数据的非空值率参数作为平衡数据质量的关键指标之一。该参数通过控制有效数据中包含的非空值数量与总量数量之间的比例,决定哪些数据行将被保留并进入下一个阶段,哪些数据行将被剔除出数据集。当非空值率处于最优状态下时,数据清洗将可以在保留尽可能多数据的情况下,提升数据集总体的非空值率,即在保留了尽可能多的数据多样性的前提下,降低数据集中噪点数据的数量。非空值率指标是一个百分比,该指标不会自动给出,一般由具备网络工程与计算机背景的领域专家根据经验给出,具有难以推广、缺乏可解释性、非最优性等问题。同时,如果采用穷举策略进行参数的搜索,又存在搜索计算复杂度高,耗时久等问题。现今网络流量预测数据预处理方法中,一般来说对于数据的空值、异常值情况,会采用数据清洗和增强填充数据的方法对数据进行清洗操作,可以在一定范围内提升模型的预测精度,但是引入这些额外的操作会增加模型的负担和GPU在运行过程中过多的内存占用和资源消耗。
[0004]为解决上述问题,我们将目光投向机器学习。近几年,随着科学研究和社会的进步发展,强化学习逐渐成为了人工智能科学领域的热点问题,强化学习的发展通过与其他认知科学理论的交叉,成为了当下机器学习的一个很重要的方法,作为机器学习衍生的一个分支研究课题,结合强化学习本身的学习特点和机制,可以通过对模型的评价反馈和训练模型过程中对于结果的交互来提高模型整体的泛化能力,因此对于网络流量预测当中的数据预处理这块,可以很好地应对复杂的场景,但是强化学习也有其局限性,面对数据维数过大的时候,会出现维数灾难,对于学习参数和状态的指数级增长无法应对。当下,克服维数灾难有四种主流方法:如状态聚类法、有限策略空间搜索法、值函数近似法和分层强化学习HRL(Hierarchical Reinforcement Learning)法。Q

Learning作为三大主流的强化学习算
法之一,可以通过改进优化更好的适应网络流量数据预处理研究。
[0005](1)数据预处理方法的分类
[0006]数据预处理作为数据研究领域必不可少的前提工作,因为对于实验研究和大数据预测领域,经过适当预处理成功的数据才更加有质量,可以更好的适应整个数据流的挖掘、预测和分析过程,可以适当的减少运算量或优化运算过程,某些时候对于实验的进展的结果好坏取到了决定性作用。提升数据的质量,可以为决策提供更为有利的支持服务。
[0007]具体的数据预处理方法:
[0008]1)数据清理(data cleaning)处理的常用领域有:识别或者除去数据的异常值、对于平滑有噪声的数据进行处理或者填补遗漏的数据;
[0009]2)数据集成(data integration):是将多个数据源的数据合并到一起,形成统一的新的数据存储资源,不过在把不同数据库的数据进行集成到一个数据仓库后,仍然需要进行数据清洗对可能存在的冗余数据进行消除。
[0010]3)数据变换(data transformation):主要是根据研究方向的需求特点,将原始数据转换成适合于研究模型的形式,比如将数据的属性按照一定的权重比例进行缩放,使之汇聚在一个特定的较小的区间,这种数据处理方法适用于针对距离研究的挖掘算法,具体的方法有:平滑处理法、数据泛化处理、规格化、属性构造、聚集处理。
[0011]4)数据规约(data reduction):前提条件是,不影响对于数据研究的总体方向前提下,通过对原始数据进行数值聚集、删除冗余的方法进行数据的压缩,从而提高数据的质量,降低整体数据量的复杂度和空间。
[0012]近年来,国内外专家学者一直致力于数据预处理预测方面的研究,在数据预处理方面提出了多种方案。下面将对数据预处理的研究现状从国内、国外两个方面展开叙述。
[0013](2)国内网络流量数据预处理研究现状
[0014]国内对数据预处理的研究相对于国外起步较晚,国内数据填补算法基本是借鉴国外的算法,同样最早出现在统计学领域,后来逐渐被应用在不同的领域上。针对试验数据预处理的研究较少,目前研究的重点与难点是进行异常数据剔除和对于满足修复条件的数据加以修复,这是数据预处理的关键部分。对于一维试验数据的异常数据剔除,在文献《戴高乐,陈志军.考虑异常数据剔除的产品可靠性评估[J].空军工程大学学报(自然科学版),2016,17(5):31

36》中,戴高乐等人依据异常数据剔除准则将由试验误差和样本分散性造成的异常数据给予剔除。在文献《童丽,周海银.异常数据剔除的一种改进计算方法[J].中国空间科学技术,2001,(4):11

16》中,童丽等人针对大型线性回归模型,在逐点剔除法的基础上提出了一种异常点剔除的改进算法。文献《唐雪莲,王姗姗.人力资源统计数据异常的数据挖掘检验[J].统计与决策,2015,(9):4

8》中,唐雪莲等人针对人力资源中的异常数据运用数据挖掘技术进行异常数据检测。文献《赵永宁,叶林,朱倩雯.风电场弃风异常数据簇的特征及处理方法[J].电力系统自动化,2014,30(4):39

46》中,赵永宁等人在分析风电场弃风异常数据特征的基础上,提出了一种基于四分位法和聚类分析的异常数据组合筛选模型。文献《姜大治,韩先平.基于双向检验的异常数据剔除与修复方法[J].电光与控制,2013,20(6):70

74》中,姜大治等人提出了一种利用多项式拟合对测量结果数据进行双向检验剔除异常数据的方法,并在检验结果满足修复条件时,对剔除数据进行加权修复。
[0015](3)国外网络流量数据预处理研究现状
[0016]数据预处理的思想和方法在国外出现较早,许多最原始简单的数据预处理方法是由国外研究者提出。由于含有相本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种网络流量预测数据预处理阶段的参数最优化方法,其特征在于,应用于数据信息处理终端,所述网络流量预测数据预处理阶段的参数最优化方法包括以下步骤:步骤一,对数据集进行改进策略上的Q

Learning强化学习预处理;步骤二,进行基于流程压缩的快速估值网络模型的构建;步骤三,进行基于混合精度的模型训练;步骤四,进行基于改进Q

Learning的最优化参数搜索。2.如权利要求1所述的网络流量预测数据预处理阶段的参数最优化方法,其特征在于,步骤一中,所述数据预处理,还包括:通过流属性统计特征的识别分类方法的核心思想,利用数据挖掘和机器学习领域的统计决策、分类和聚类的方法,对原始网络流量数据进行流属性统计特征分析,选取合适的机器学习算法,对数据进行分类提取,通过数据包层面特征、数据流层面特征、连接层面特征三大类找出相关流的数据特征,在数据端口出区分开汇聚层和接入层数据。3.如权利要求1所述的网络流量预测数据预处理阶段的参数最优化方法,其特征在于,步骤二中,所述基于流程压缩的快速估值网络模型的构建,包括:提出快速估值网络,先用快速估值网络模型进行参数寻找,通过实验设计选择新的策略,每过5%进行一次迭代,省略对数据的零值和异常值的处理操作,直接进行十代的迭代处理,当找到最优参数后,再进行对数据的清洗和增强处理,且选取epoch=10;通过Q

Learning策略中的reward指标对网络进行反馈,学习期望价值,从当前一步到所有后续步骤,总期望获取最大价值Q值、Value;Action决定Q值函数中每一个state下的最佳策略,在每个state下,选择Q值最高的Action,且网络不依赖环境模型;当前Action获得Reward,加下一步可获得最大期望价值,当前状态行动奖励,加下一状态行动最大期望价值;学习速率决定新获取样本信息覆盖率前掌握到信息比率,通常设定较小值;Q

Learning初始值Q,通过定义比较高初始值,鼓励模型多探索;不同数据处理在训练时间的对比中,纵坐标的SMAPE值是对称平均绝对百分比误差,是基于百分比或者相对误差的一种精确性度量,用于衡量网络模型好坏的指标,SMAPE值越低越好,SMAPE是针对MAPE的问题的修正指标,计算方式如以下公式所示:其中,A
t
是真实值,F
t
是预测值。4.如权利要求1所述的网络流量预测数据预处理阶段的参数最优化方法,其特征在于,步骤三中,所述基于混合精度的模型训练,包括:预测模型采用半精度的数据;其中,所述双精度浮点数、单精度浮点数和半精度浮点数的区别如下:float16半精度浮点数,包括1个符号位,5个指数位,10个尾数位;float32单精度浮点数,包括1个符号位,8个指数位,23个尾数位;float64双精度浮点数,包括1个符号位,11个指数位,52个尾数位。5.如权利要求1所述的网络流量预测数据预处理阶段的参数最优化方法,其特征在于,
步骤四中,所述基于改进Q

Le...

【专利技术属性】
技术研发人员:王春枝文晓东严灵毓苏军杨杰詹军
申请(专利权)人:武汉烽火技术服务有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1