System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及网络安全,尤其是涉及一种辅助机器学习应用生成网络流量数据集的方法及装置。
技术介绍
1、随着机器学习技术的发展,基于机器学习的目标识别应用越来越广泛。机器学习的相关模型在进行目标识别之前,通常需要采集数据集进行模型训练。目前在网络安全领域,网络流量分类的数据集,通常采用人工标注特征的方式生成网络流量数据集,这种方式能够得到数据流量的各种特征,对数据流量进行打包生成数据集,但是,存在人工经验误差,容易导致生成的数据集质量稳定性较差,进而影响后续的模型训练。
技术实现思路
1、有鉴于此,本专利技术的目的在于提供一种辅助机器学习应用生成网络流量数据集的方法及装置,能够实现根据网络流量数据流自动快速生成所需要的数据集,避免因人工经验误差导致数据集质量稳定性较差,提升了数据集的生成效率及准确率。
2、为了实现上述目的,本专利技术实施例采用的技术方案如下:
3、第一方面,本专利技术实施例提供了一种辅助机器学习应用生成网络流量数据集的方法,包括:获取预设的网络流量数据流;其中,所述网络流量数据流包括多个网络层地址对应的传输数据;基于所述网络层地址从所述网络流量数据流中筛选出目标网站对应的多个数据流段;将各所述数据流段转换为预设尺寸的灰度图像,将各所述数据流段对应的灰度图像转换为预设格式文件,形成网络流量数据集;其中,所述预设格式文件包括标签文件和数据文件。
4、进一步,本专利技术实施例提供了第一方面的第一种可能的实施方式,其中,所述将各所述数据流
5、进一步,本专利技术实施例提供了第一方面的第二种可能的实施方式,其中,所述基于字节取值与灰度图取值的映射关系将所述预设字节长度的数据转化为灰度图像的步骤,包括:将所述预设字节长度的数据中的每个字节转换为十六进制数,将各所述十六进制数转换为十进制无符号整数,形成数组矩阵;基于字节取值与灰度图取值的映射关系将所述数组矩阵转化为灰度图。
6、进一步,本专利技术实施例提供了第一方面的第三种可能的实施方式,其中,所述预设字节长度为x2,x的取值范围为25~30。
7、进一步,本专利技术实施例提供了第一方面的第四种可能的实施方式,其中,所述将各所述数据流段对应的灰度图像转换为预设格式文件,形成网络流量数据集的步骤,包括:基于所述十六进制数、所述数组矩阵及数据标签生成所述标签文件;基于所述十六进制数、所述数组矩阵及所述灰度图像生成所述数据文件。
8、进一步,本专利技术实施例提供了第一方面的第五种可能的实施方式,其中,所述基于所述网络层地址从所述网络流量数据流中筛选出目标网站对应的多个数据流段的步骤,包括:从所述网络流量数据流中筛选出预设设备与所述目标网站之间的数据流;其中,所述数据流包括多种传输控制协议下的数据流段;基于所述传输控制协议将所述数据流切分为多个数据流段;其中,各所述数据流段对应的传输控制协议不同,所述数据流段的数量与所述数据流包括的传输控制协议的数量相同。
9、进一步,本专利技术实施例提供了第一方面的第六种可能的实施方式,其中,所述网络流量数据流包括网络攻击数据流,所述网络流量数据集为入侵检测数据集,所述方法还包括:将所述入侵检测数据集输入网络安全检测模型进行模型训练,基于训练后的所述网络安全检测模型进行网络入侵检测。
10、第二方面,本专利技术实施例还提供了一种辅助机器学习应用生成数据集的装置,包括:获取模块,用于获取预设的网络流量数据流;其中,所述网络流量数据流包括多个网络层地址对应的传输数据;筛选模块,用于基于所述网络层地址从所述网络流量数据流中筛选出目标网站对应的多个数据流段;转换模块,用于将各所述数据流段转换为预设尺寸的灰度图像,将各所述数据流段对应的灰度图像转换为预设格式文件,形成网络流量数据集;其中,所述预设格式文件包括标签文件和数据文件。
11、第三方面,本专利技术实施例提供了一种电子设备,包括:处理器和存储装置;所述存储装置上存储有计算机程序,所述计算机程序在被所述处理器运行时执行如第一方面任一项所述的方法。
12、第四方面,本专利技术实施例提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行上述第一方面任一项所述的方法的步骤。
13、本专利技术实施例提供了一种辅助机器学习应用生成网络流量数据集的方法及装置,通过从网络流量数据流中筛选出传输至特定的目标网站的数据流段,并数据流段转换为预设尺寸的灰度图像,使各数据流段的大小一致,且可以使生成的数据集大小可控,通过将数据流段对应的灰度图像转换为预设格式文件,以方便后续网络检测模型读取训练数据,实现了根据网络流量数据流自动快速生成所需要的数据集,避免因人工经验误差导致数据集质量稳定性较差,提升了数据集的生成效率及准确率。
14、本专利技术实施例的其他特征和优点将在随后的说明书中阐述,或者,部分特征和优点可以从说明书推知或毫无疑义地确定,或者通过实施本专利技术实施例的上述技术即可得知。
15、为使本专利技术的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
本文档来自技高网...【技术保护点】
1.一种辅助机器学习应用生成网络流量数据集的方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述将各所述数据流段转换为预设尺寸的灰度图像的步骤,包括:
3.根据权利要求2所述的方法,其特征在于,所述基于字节取值与灰度图取值的映射关系将所述预设字节长度的数据转化为灰度图像的步骤,包括:
4.根据权利要求2所述的方法,其特征在于,所述预设字节长度为X2,X的取值范围为25~30。
5.根据权利要求3所述的方法,其特征在于,所述将各所述数据流段对应的灰度图像转换为预设格式文件,形成网络流量数据集的步骤,包括:
6.根据权利要求1所述的方法,其特征在于,所述基于所述网络层地址从所述网络流量数据流中筛选出目标网站对应的多个数据流段的步骤,包括:
7.根据权利要求1-6任一项所述的方法,其特征在于,所述网络流量数据流包括网络攻击数据流,所述网络流量数据集为入侵检测数据集,所述方法还包括:
8.一种辅助机器学习应用生成数据集的装置,其特征在于,包括:
9.一种电子设备,其特征在于
10.一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,其特征在于,所述计算机程序被处理器运行时执行上述权利要求1至7任一项所述的方法的步骤。
...【技术特征摘要】
1.一种辅助机器学习应用生成网络流量数据集的方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述将各所述数据流段转换为预设尺寸的灰度图像的步骤,包括:
3.根据权利要求2所述的方法,其特征在于,所述基于字节取值与灰度图取值的映射关系将所述预设字节长度的数据转化为灰度图像的步骤,包括:
4.根据权利要求2所述的方法,其特征在于,所述预设字节长度为x2,x的取值范围为25~30。
5.根据权利要求3所述的方法,其特征在于,所述将各所述数据流段对应的灰度图像转换为预设格式文件,形成网络流量数据集的步骤,包括:
6.根...
【专利技术属性】
技术研发人员:邓楠轶,董夏昕,崔鑫,杨东,王文庆,介银娟,朱召鹏,王艺杰,
申请(专利权)人:西安热工研究院有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。