一种基于离散化张量填充的top-k大象流预测方法及系统技术方案

技术编号:21917192 阅读:14 留言:0更新日期:2019-08-21 13:25
本发明专利技术公开一种基于离散化张量填充的top‑k大象流预测方法及系统,该方法包括:从已知流量数据中获取含有缺失流量数据的张量;将张量分解为三个离散的二值因子矩阵形成实值因子矩阵;用三个因子矩阵的构成元素分别为张量源节点、时间和目标节点三个维度方向的二值因子向量表示实值张量数据;用三个维度方向的二值因子向量的内积表示每个时刻缺失流量数据,通过基于位运算的高效数据预测方法计算汉明距离代替内积;基于二值码分割的top‑k预测加速方法计算汉明距离,并根据汉明距离确定对应的实值张量数据是否top‑k大象流;检索所有实值张量数据,并返回前k个最大的实值张量数据,获得top‑k大象流。解决现有技术中计算复杂问题,减少时间和降低空间复杂度。

A Top-k Elephant Flow Prediction Method and System Based on Discrete Tensor Filling

【技术实现步骤摘要】
一种基于离散化张量填充的top-k大象流预测方法及系统
本专利技术涉及数据交互
,具体是一种基于离散化张量填充的top-k大象流预测方法及系统。
技术介绍
大象流在网络流量中占据非常重要的位置,对网络状况分析尤为重要。对前k个最大流预测,也称为top-k大象流预测,是一个基本的网络管理功能。很多管理应用能够从top-k大象流的有效标识中获益,包括通过拥塞控制来动态调度大象流、网络容量规划、异常检测和转发表条目的缓存等。目前国内外有许多top-k大象流预测的研究,大致可以分为两类:第一,一些文献研究试图使用少量的内存来测量每个数据流的基数,比如统计包的个数或字节数。以基于概要数据结构的算法为例,它依赖于概要数据结构(例如CM概要数据结构[5])来测量网络流的大小,同时使用最小堆来跟踪top-k网络流。对于每个传入的数据包,它在概要数据结构中记录并更新此包所属流fi的大小ni。如果ni大于最下堆中的流大小,而fi不在堆中,则用流fi替换堆中的最小流。如果fi在最小堆中,它将使用ni更新fi的流大小。第二,还有一些研究尝试利用部分获得的网络流数据,首先恢复丢失的数据,然后在对恢复的数据并进行排序后,最后返回前k个最大的流。例如:基于一维属性信息(纯空间或纯时间属性)的数据恢复算法[1]-[3]、基于二维属性信息(时空属性)的矩阵填充算法[4]-[6]、基于三维或更多维属性信息的张量填充算法[7]、[8]尝试将流量数据建模为一个三维张量,然后通过张量填充算法填充缺失数据。[1]A.Lakhina,K.Papagiannaki,M.Crovella,C.Diot,E.D.Kolaczyk,andN.Taft,“Structuralanalysisofnetworktraffificflflows,”inACMSIGMETRICS,2003.[2]Y.Vardi,“Networktomography,”J.Amer.Statist.Assoc.,vol.vol.91,no.433,,p.pp.365377,1996.[3]P.Barford,J.Kline,D.Plonka,andA.Ron,“Asignalanalysisofnetworktraffificanomalies,”ACMIMW,2002.[4]M.Roughan,Y.Zhang,W.Willinger,andL.Qiu,“Spatio-temporalcompressivesensingandinternettraffificmatrices(extendedversion),”NetworkingIEEE/ACMTransactionson,vol.20,no.3,pp.662–676,2012.[5]G.GursunandM.Crovella,“Ontraffificmatrixcompletionintheinternet,”inACMIMC2012.[6]Y.-C.Chen,L.Qiu,Y.Zhang,G.Xue,andZ.Hu,“Robustnetworkcompressivesensing,”inACMMobiCom,2014.[7]K.Xie,L.Wang,X.Wang,G.Xie,J.Wen,andG.Zhang,“Accuraterecoveryofinternettraffificdata:Atensorcompletionapproach,”inIEEEINFOCOM,2016.[8]K.Xie,C.Peng,X.Wang,G.Xie,andJ.Wen,“Accuraterecoveryofinternettraffificdataunderdynamicmeasurements,”inIEEEINFOCOM,2017.现有的大象流预测技术,在真实网络环境中无法达到精确、高效的要求,比如在实际网络环境中,由于网络监控和通信成本高,基于概要数据结构技术从大量网络节点收集完整的流量信息是不现实的。此外,测量数据在极端的网络条件下可能丢失,包括网络拥塞、节点行为不当、监控故障、通过不可靠的传输协议传输测量信息等。而现有的通过恢复部分网络流数据,进而预测大象流的算法也都存在一些问题。比如基于纯空间或纯时间信息的数据恢复方法性能往往较低;同时利用时空信息的基于矩阵填充的算法恢复缺失的流量数据时,数据缺失率较低时性能较好,但数据缺失率较大时性能较差;基于三维或更多维属性信息的张量填充算法够对缺失的测量数据进行更准确的填充,可以利用部分测量数据找到top-k大象流。但当流量监测张量较大时,算法过于耗时成为阻碍高效查找top-k大象流的一大瓶颈。
技术实现思路
本专利技术提供一种基于离散化张量填充的top-k大象流预测方法及系统,用于克服现有技术中由于空间复杂度较高导致耗时过长等缺陷,实现极大减少时间和降低空间复杂度。为实现上述目的,本专利技术提供一种基于离散化张量填充的top-k大象流预测方法,包括以下步骤:从已知流量数据中获取含有缺失流量数据的张量;将所述张量分解为三个离散的二值因子矩阵形成实值因子矩阵;其中三个因子矩阵的构成元素分别为所述张量源节点、时间和目标节点三个维度方向的二值因子向量;用所有所述二值因子向量表示实值张量数据,所述实值张量数据包括所述已知流量数据和缺失流量数据;用三个维度方向的二值因子向量的内积表示每个时刻缺失流量数据,通过基于位运算的高效数据预测方法计算汉明距离以代替内积;基于二值码分割的top-k预测加速方法计算汉明距离,并根据汉明距离判断两二值因子向量是否相似以确定所述二值因子向量对应的实值张量数据是否top-k大象流;检索所有实值张量数据,并返回前k个最大的实值张量数据,获得top-k大象流。为实现上述目的,本专利技术还提供一种基于离散化张量填充的top-k大象流预测系统,包括存储器和处理器,所述存储器存储有大象流预测程序,在所述处理器运行所述大象流预测程序时执行所述权利要求1~8任一项所述基于离散化张量填充的top-k大象流预测方法的步骤。本专利技术提供的基于离散化张量填充的top-k大象流预测方法及系统,通过对张量进行多维度离散分解,用二值因子矩阵表达实值因子矩阵,能够充分利用多维信息提高精度的同时,利用运算的特点提高效率,同时降低空间复杂度。与上述的其他专利技术相比,首先是在面向复杂的网络环境时,大象流的预测精度获得提升;其次,能够通过位运算的特性,有效提升时间效率;最后,离散化的编码转成二进制存储,可以极大降低空间复杂度。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图示出的结构获得其他的附图。图1为本专利技术实施例提供的大象流预测方法中基于离散化张量分解的top-k大象流预测机制;图2为图1中离散化张量分解示意图;图3为图2中张量分解和张量按模式展开之间的关系;图4为实施例提供的大象流预测方法中二值码分割示意图。本专利技术目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。具体实施方式下面将结合本专利技术实施例本文档来自技高网
...

【技术保护点】
1.一种基于离散化张量填充的top‑k大象流预测方法,其特征在于,包括以下步骤:从已知流量数据中获取含有缺失流量数据的张量;将所述张量分解为三个离散的二值因子矩阵形成实值因子矩阵;其中三个因子矩阵的构成元素分别为张量源节点、时间和目标节点三个维度方向的二值因子向量;用所有所述二值因子向量表示实值张量数据,所述实值张量数据包括所述已知流量数据和缺失流量数据;用三个维度方向的二值因子向量的内积表示每个时刻缺失流量数据,通过基于位运算的高效数据预测方法计算汉明距离以代替内积;基于二值码分割的top‑k预测加速方法计算汉明距离,并根据汉明距离判断两二值因子向量是否相似以确定所述二值因子向量对应的实值张量数据是否top‑k大象流;检索所有实值张量数据,并返回前k个最大的实值张量数据,获得top‑k大象流。

【技术特征摘要】
1.一种基于离散化张量填充的top-k大象流预测方法,其特征在于,包括以下步骤:从已知流量数据中获取含有缺失流量数据的张量;将所述张量分解为三个离散的二值因子矩阵形成实值因子矩阵;其中三个因子矩阵的构成元素分别为张量源节点、时间和目标节点三个维度方向的二值因子向量;用所有所述二值因子向量表示实值张量数据,所述实值张量数据包括所述已知流量数据和缺失流量数据;用三个维度方向的二值因子向量的内积表示每个时刻缺失流量数据,通过基于位运算的高效数据预测方法计算汉明距离以代替内积;基于二值码分割的top-k预测加速方法计算汉明距离,并根据汉明距离判断两二值因子向量是否相似以确定所述二值因子向量对应的实值张量数据是否top-k大象流;检索所有实值张量数据,并返回前k个最大的实值张量数据,获得top-k大象流。2.如权利要求1所述的基于离散化张量填充的top-k大象流预测方法,其特征在于,所述将所述张量分解为三个二值因子矩阵的步骤,包括:根据秩为R的张量的部分已知数据及恢复数据构建以下目标函数:其中A,B,C为张量分解后得到的三个二值因子矩阵,值为1或-1;ai,bj,ck分别为因子矩阵A,B,C的行向量,a(i),b(j),c(k)分别为因子矩阵A,B,C的列向量;xijk为张量的第i个源节点到第j个目标节点在第k个时刻的流量数据,在i,j,k∈Ω时表示获取的已知数据;在时,表示待填充流量数据;I*J*K表示张量的大小,其中包括I个源节点,J个目标节点,K个时刻;通过迭代求解上述目标函数获得实值张量数据,以实现对缺失流量数据的填充。3.如权利要求2所述的基于离散化张量填充的top-k大象流预测方法,其特征在于,所述通过迭代求解上述目标函数获得实值张量数据的步骤包括:分别固定其中两个二值因子矩阵,对另外一个二值因子矩阵中每个二值因子向量进行逐位更新;重复上述步骤,交替获得三个二值因子矩阵的所有二值因子向量。4.如权利要求3所述的基于离散化张量填充的top-k大象流预测方法,其特征在于,所述分别固定其中两个二值因子矩阵,对另外一个二值因子矩阵中每个二值因子向量进行逐位更新的步骤包括:固定B和C,根据对式(1)展开的式(2)更新A:式(2)中的目标函数对ai求和,逐位更新每个ai来更新A:5.如权利要求3所述的基于离散化张量填充的top-k大象流预测方法,其特征在于,所述对另外一个二值因子矩阵中每个二值因子向量进行逐位更新的步骤包括:每次位数迭代更新过程中均固定除更新位数之外的余位,只更新该位数。6.如权利要求5所述的基于离散化张量填充的to...

【专利技术属性】
技术研发人员:田家政谢鲲文吉刚曾彬周新峰袁小坊
申请(专利权)人:湖南友道信息技术有限公司
类型:发明
国别省市:湖南,43

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1