【技术实现步骤摘要】
结合离散特征编码和聚类修正的广域网单点流量预测方法
[0001]本申请涉及网络流量预测
,尤其涉及一种结合离散特征编码和聚类修正的广域网单点流量预测方法和装置。
技术介绍
[0002]网络流量是广域网管理和维护的关键指标,在广域网异常检测、广域网流量工程等多个领域起到重要作用。实时的网络流量采集和监控使得网络管理人员可以掌握网络的运行状态,并对潜在的网络异常进行检测、定位和排查。广域网流量主要存在自相似性、非线性和突发性等特征。
[0003]目前广域网单点流量预测的相关研究主要分为三类:基于统计/线性模型进行预测、基于机器学习/深度学习模型进行预测,以及基于组合模型进行预测。基于统计/线性模型进行广域网单点流量预测,无法拟合流量的非线性和长相关性特征,因此预测准确度较低;基于合适的机器学习/深度学习模型进行广域网单点预测,可以在拟合流量的非线性特征的同时很好地提取其长期依赖性,因此预测准确度较高。然而,相关工作考虑到的流量特征较为单一,大多仅以流量序列作为模型的输入,没有进一步考虑广域网流量的其他关联特征;基于 ...
【技术保护点】
【技术特征摘要】
1.一种结合离散特征编码和聚类修正的广域网单点流量预测方法,其特征在于,包括以下步骤:获取训练集、验证集和测试集,其中,所有数据集均包含流量时间序列和对应的小时信息、日期信息;使用K
‑
Means算法对所述训练集和所述验证集进行聚类,得到聚类结果;对所述流量时间序列进行特征提取,获得对应的流量时间序列关联特征;对所述小时信息、所述日期信息进行编码,得到编码结果,所述编码结果包括小时信息编码结果和日期信息编码结果;将所述流量时间关联特征和所述编码结果进行拼接,之后将拼接后的向量进行转换,得到初步预测结果;根据所述聚类结果,获取所述测试集包含的最后一个流量时间序列所属的聚类中心,并将所述聚类中心与所述初步预测结果进行平均,得到最终预测结果。2.如权利要求1所述的方法,其特征在于,所述使用K
‑
Means算法对所述训练集和所述验证集进行聚类,包括以下步骤:随机选择预设数目的初始聚类中心,其中,所述预设数目采用Canopy算法确定;迭代计算数据点到每个初始聚类中心的距离,将所述数据点分配给最近的初始聚类中心,并对所述最近的初始聚类中心进行更新,最终将待聚类的数据集划分为所述预设数目数量的簇。3.如权利要求1所述的方法,其特征在于,所述对所述流量时间序列进行特征提取,具体为将所述流量时间序列输入到LSTM网络中进行时间关联信息提取,其中,所述LSTM网络的输入维度为一维,对于所述流量时间序列包含的每一时刻的流量,所述LSTM网络都会产生一个隐藏层输出,最后一步的隐藏层输出将作为所述对应的流量时间序列关联特征。4.如权利要求1所述的方法,其特征在于,所述对所述小时信息、所述日期信息进行编码,具体采用Emdedding对所述小时信息、所述日期信息进行编码嵌入,包括以下步骤:根据所述小时信息、所述日期信息和给定的编码维度生成对应的小时信息矩阵和日期信息矩阵;取出所述小时信息矩阵和日期信息矩阵中与待预测时刻对应的行作为所述编码结果。5.一种结合离散特征编码和聚类修正的广域网单点流量预测装置,其特征在于,包括获取模块、聚类模块、特征提取模块、编码模块、拼接模块...
【专利技术属性】
技术研发人员:王之梁,刘智峰,赵鋆峰,尹霞,张世泽,施新刚,杨家海,
申请(专利权)人:清华大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。