当前位置: 首页 > 专利查询>天津大学专利>正文

基于轻量级神经网络的路由数据高效分类检索方法技术

技术编号:35532049 阅读:17 留言:0更新日期:2022-11-09 14:56
本发明专利技术公开了一种基于轻量级神经网络的路由数据分类检索方法,包含输入单元、分类单元和映射单元。输入单元将每一条索引数据拆分为若干子向量,然后对所有子向量中相同位置的元素执行按位异或运算,得到对应的输入向量。分类单元用于将数据空间分为多个子空间,实现将索引数据分类至其对应的子空间。映射单元则用于训练、预测累积分布函数值。考虑到路由器查找速度和存储消耗等需求,利用轻量级神经网络作为其基本单元,将已预测的累积分布函数值乘以映射表中槽的总个数,得到映射表中的映射位置。该结构的训练方法能够针对路由表数据特点实现快速稳定的神经网络训练,其数据检索方法能够在保证数据检索速度的基础上提升存储效率。效率。效率。

【技术实现步骤摘要】
基于轻量级神经网络的路由数据高效分类检索方法


[0001]本专利技术属于高性能路由器索引结构设计领域,特别针对路由器数据的快速检索和高效存储问题。

技术介绍

[0002]随着互联网规模的不断扩大,全息通信、感官互联、智能交互、通信感知等新业务与新需求的不断涌现,雾计算、人工智能等创新技术和计算模式的不断发展,当今互联网单位时间内需要处理的数据量急剧增加。这一现状为高性能路由器的设计带来了巨大的挑战,国内外许多研究机构都在积极探索路由器新型索引结构的设计问题。
[0003]路由器新型索引结构的设计需要坚持如下两个原则。首先,所设计的索引结构应支持基本的路由数据快速检索,所有的插入、查找、更新等操作均应以线速执行。第二,所设计的索引结构应实现路由数据压缩存储,以应对路由表数据量日益增长的现状。
[0004]针对路由器的索引结构设计问题,当前的研究思路主要为基于查找树、哈希表、布隆过滤器和跳表四种经典数据结构。其中,查找树的查找速度会随着其节点个数与深度的增加而降低;哈希表需要消耗更大的存储空间以处理由于哈希函数因其的哈希冲突;布隆过滤器仅能判断元素的存在性,而无法实现存储器地址映射;跳表因其较高的时间复杂度而难以支持大规模数据的快速处理。
[0005]综上,目前主要研究成果都在存储消耗和查找速度之间进行权衡,无法很好的满足高性能路由器数据检索的所有要求。因此,为适应当今互联网的发展趋势,亟需设计出一种更加高效的路由器索引结构,实现数据的快速检索与高效压缩存储。

技术实现思路

[0006]针对上述现有技术,本专利技术设计了一种基于轻量级神经网络的路由数据高效分类索引结构及其数据检索方法。该结构能够在保证数据检索速度的基础上提升存储效率,其训练方法能够针对路由表数据特点实现快速稳定的神经网络训练。
[0007]为了解决上述技术问题,本专利技术提出的一种基于轻量级神经网络的路由数据高效分类检索方法,该检索方法包括以下步骤:
[0008]步骤一、构建分类单元数组:将收集到的索引数据转换为向量,并形成向量集合;将向量集合按照向量值由小到大进行排序,并将所述的向量集合等分为若干个子集;计算出所有子集中的最后一个向量所对应的基向量个数L,并将其按顺序存入数组中;
[0009]步骤二、构建训练集,并训练映射单元中的神经网络:将每个子集中的各项数据用其累积分布函数值作为标签进行标定,构建训练集;利用上述训练集分别训练映射单元中的神经网络,学习得到各子集的累积分布函数;训练完成后,映射单元中的所有神经网络的预测范围覆盖整个累积分布函数,即训练后的神经网络是一个累积分布函数的预测函数;
[0010]步骤三、利用训练后的神经网络实现路由数据高效分类索引的检索,包括:
[0011]将实际路由表索引数据输入至输入单元,将其转换为向量,并计算该向量所对应
的基向量个数;
[0012]将该向量所对应的基向量个数与步骤一中构建的分类单元数组中记录的各区域末位向量所对应的基向量个数L进行大小判断,得到该索引数据所对应的区域编号;
[0013]根据所获得的区域编号,利用对应编号的神经网络计算该索引数据所对应的累积分布函数值;将所得累积分布函数值乘以该数据对应的索引空间大小,得到实际路由表索引数据在该索引空间中的位置。
[0014]同时,本专利技术中还提出了用于实现检索方法的高性能路由器学习型数据索引结构,主要包含输入单元、分类单元与映射单元;其中:
[0015]所述输入单元用于将路由表索引数据转换为定长的向量以输入至映射单元的神经网络中;所述输入单元将输入的索引数据拆分为若干子向量,然后对所有子向量中相同位置的元素执行按位异或运算,最终得到该索引数据对应的定长输入向量;
[0016]所述分类单元由一个数组构成,用于将百万级别数据量的数据空间分为多个数据子空间,实现将索引数据分类至其对应的子空间区域。通过将索引数据所对应的基向量个数与分类单元数组中记录的各区域末位向量所对应的基向量个数L进行大小判断,即可得到索引数据所属的区域编号;
[0017]所述映射单元由若干个神经网络组成,用于训练、拟合索引数据的累积分布函数,实现索引数据累积分布函数值的预测;映射单元将输出索引数据所对应的累积分布函数值,将其乘以该数据所对应映射空间中槽的总个数,得到该索引数据在映射表中的位置。
[0018]与现有技术相比,本专利技术的有益效果是:
[0019]将本专利技术的基于轻量级神经网络的路由器高性能数据检索方法在一台配置为Intel i9

10920X 3.5GHz、DDR4 64GB SDRAM的小型工作站上进行软件部署测试。考虑到实际路由表索引数据量,实验中利用一亿条路由表索引数据作为训练集,测试集由二百万条全新的路由表索引数据构成。实验结果表明,在误判概率为1%的条件下,该结构的存储消耗仅为1.08MB,是传统哈希表存储消耗的0.27%,并可直接部署于高速片内存储器。对于查找速度,其远高于MD5和CityHash256等传统哈希函数。而对于当前数据处理速度最快的哈希函数xxHash而言,该结构数据检索的吞吐量可达到其10倍以上。因此,在实际应用中是切实可行的。由此表明,本专利技术中设计的基于神经网络的路由器高性能数据检索方法,能够在保证数据检索速度的同时提升存储效率,具有良好的综合性能。
附图说明
[0020]图1为本专利技术中高性能路由器学习型数据索引结构设计图;
[0021]图2为本专利技术检索方法中路由数据高效分类索引基本原理图;
[0022]图3为构建数据索引结构及对数据索引结构训练的流程框图;
[0023]图4为利用训练后的神经网络实现路由数据高效分类索引的检索的流程框图。
具体实施方式
[0024]下面结合附图及具体实施例对本专利技术做进一步的说明,但下述实施例绝非对本专利技术有任何限制。
[0025]本专利技术中设计了用于实现基于轻量级神经网络的路由数据高效分类检索方法的
高性能路由器学习型数据索引结构,如图1所示,该数据索引结构包含输入单元、分类单元与映射单元。所述输入单元用于将路由表索引数据转换为定长的向量作为输入向量,以输入至映射单元的神经网络中,所述输入单元对于每一条输入的索引数据均将其拆分为若干子向量,然后对所有子向量中相同位置的元素执行按位异或运算,最终得到该索引数据对应的定长输入向量。所述分类单元由一个数组构成,用于将百万级别数据量的数据空间分为多个数据子空间,实现将索引数据分类至其对应的子空间区域。通过将索引数据所对应的基向量个数与分类单元数组中记录的各区域末位向量所对应的基向量个数L进行大小判断,即可得到索引数据所属的区域编号。所述映射单元由若干个神经网络组成,用于训练、拟合索引数据的累积分布函数,实现索引数据累积分布函数值的预测;考虑到路由器查找速度和存储消耗等需求,利用小型简单的神经网络作为其基本单元,映射单元将输出索引数据所对应的累积分布函数值,将其乘以该数据所对应映射空间中本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于轻量级神经网络的路由数据高效分类检索方法,其特征在于,该检索方法包括以下步骤:步骤一、构建分类单元数组:将收集到的索引数据转换为向量,并形成向量集合;将向量集合按照向量值由小到大进行排序,并将所述的向量集合等分为若干个子集;计算出所有子集中的最后一个向量所对应的基向量个数L,并将其按顺序存入数组中;步骤二、构建训练集,并训练映射单元中的神经网络:将每个子集中的各项数据用其累积分布函数值作为标签进行标定,构建训练集;利用上述训练集分别训练映射单元中的神经网络,学习得到各子集的累积分布函数;训练完成后,映射单元中的所有神经网络的预测范围覆盖整个累积分布函数,即训练后的神经网络是一个累积分布函数的预测函数;步骤三、利用训练后的神经网络实现路由数据高效分类索引的检索,包括:将实际路由表索引数据输入至输入单元,将其转换为向量,并计算该向量所对应的基向量个数;将该向量所对应的基向量个数与步骤一中构建的分类单元数组中记录的各区域末位向量所对应的基向量个数L进行大小判断,得到该索引数据所对应的区域编号;根据所获得的区域编号,利用对应编号的神经网络...

【专利技术属性】
技术研发人员:李卓刘金典刘开华
申请(专利权)人:天津大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1