软件流量检测方法、装置、存储介质及电子设备制造方法及图纸

技术编号:39127525 阅读:8 留言:0更新日期:2023-10-23 14:49
本发明专利技术公开了一种软件流量检测方法、装置、存储介质及电子设备。其中,该方法包括:获取待测软件流量;确定待测软件流量对应的目标流量特征;将待测软件流量对应的目标流量特征输入至目标随机森林分类器,得到待测软件的流量检测结果,其中,目标随机森林分类器是基于多组样本流量分别对应的初始流量特征和流量分类标签训练得到的,流量分类标签为正常流量或恶意流量。本发明专利技术解决了相关技术中的软件流量检测方法存在的检测效率低且检测结果准确性低的技术问题。性低的技术问题。性低的技术问题。

【技术实现步骤摘要】
软件流量检测方法、装置、存储介质及电子设备


[0001]本专利技术涉及安全检测
,具体而言,涉及一种软件流量检测方法、装置、存储介质及电子设备。

技术介绍

[0002]恶意软件是任何旨在损害计算机,服务器或计算机网络的软件。恶意软件在植入或以某种方式引入目标计算机后会造成损害,并可采取可执行代码,脚本,活动内容和其他软件的形式。该代码除计算机病毒,蠕虫,特洛伊木马,广告软件等异常软件外,还包括其他形式的恶意代码。恶意软件在未明确提示用户或未经用户许可的情况下,在计算机上安装运行,一般具有下述行为的一种或多种:强制安装、浏览器拦截、修改用户数据、恶意收集用户信息、恶意卸载、恶意捆绑及其他侵犯用户知情权、选择权的恶意行为等。这些行为将严重侵犯用户权益,甚至将为用户及他人带来巨大的经济或其他形式的利益损失。然而相关技术中主要采用防火墙拦截、沙箱检测等方式进行恶意软件的识别,检测效率低且检测结果准确性低。
[0003]针对上述的问题,目前尚未提出有效的解决方案。

技术实现思路

[0004]本专利技术实施例提供了一种软件流量检测方法、装置、存储介质及电子设备,以至少解决相关技术中的软件流量检测方法存在的检测效率低且检测结果准确性低的技术问题。
[0005]根据本专利技术实施例的一个方面,提供了一种软件流量检测方法,包括:获取待测软件流量;确定上述待测软件流量对应的目标流量特征;将上述待测软件流量对应的目标流量特征输入至目标随机森林分类器,得到上述待测软件的流量检测结果,其中,上述目标随机森林分类器是基于多组样本流量分别对应的初始流量特征和流量分类标签训练得到的,上述流量分类标签为正常流量或恶意流量。
[0006]可选的,在上述将上述待测软件流量对应的目标流量特征输入至目标随机森林分类器,得到上述待测软件的流量检测结果之前,上述方法还包括:在初始流量特征为多个的情况下,获取上述多组样本流量分别对应的多个初始流量特征;基于上述多组样本流量分别对应的多个初始流量特征中的预定流量特征进行特征构造,得到多组样本流量分别对应的多个目标流量特征;基于上述多组样本流量分别对应的多个目标流量特征和流量分类标签,对初始随机森林分类器进行训练,得到上述目标随机森林分类器。
[0007]可选的,上述多组样本流量分别对应的多个初始流量特征至少包括:上述多组样本流量分别对应的传输控制协议包数、源流量包数、源字节数、外连互联网协议数、域名解析请求数、传输控制协议数、远程流量包数、远程字节数、外连端口数;上述多组样本流量分别对应的预定流量特征至少包括:上述多组样本流量分别对应的源流量包数、源字节数、远程流量包数、远程字节数。
[0008]可选的,上述基于上述多组样本流量分别对应的多个初始流量特征中的预定流量
特征进行特征构造,得到多组样本流量分别对应的多个目标流量特征,包括:基于上述多组样本流量分别对应的源流量包数和源字节数,得到上述多组样本流量分别对应的平均源字节数,以及基于上述多组样本流量分别对应的上述远程流量包数和上述远程字节数,得到上述多组样本流量分别对应的平均远程字节数;根据上述多组样本流量分别对应的平均源字节数、平均远程字节数、传输控制协议包数、外连互联网协议数、域名解析请求数、传输控制协议数以及外连端口数,得到上述多组样本流量分别对应的多个目标流量特征。
[0009]可选的,上述根据上述多组样本流量分别对应的平均源字节数、平均远程字节数、传输控制协议包数、外连互联网协议数、域名解析请求数、传输控制协议数以及外连端口数,得到上述多组样本流量分别对应的多个目标流量特征,包括:将上述多组样本流量分别对应的平均源字节数、平均远程字节数、传输控制协议包数、外连互联网协议数、域名解析请求数、传输控制协议数以及外连端口数,作为上述多组样本流量分别对应的多个第一流量特征;对上述多组样本流量分别对应的多个第一流量特征中包括的连续特征进行离散处理,得到上述多组样本流量分别对应的多个第二流量特征;对上述多组样本流量分别对应的多个第二流量特征进行归一化处理,得到上述多组样本流量分别对应的多个目标流量特征。
[0010]可选的,上述基于上述多组样本流量分别对应的多个初始流量特征中的预定流量特征进行特征构造,得到多组样本流量分别对应的多个目标流量特征,包括:检测上述多组样本流量分别对应的多个初始流量特征中是否存在缺失数据和/或异常数据;在检测到上述多组样本流量分别对应的多个初始流量特征中存在缺失数据和/或异常数据的情况下,对上述多组样本流量分别对应的多个初始流量特征中包括的异常数据进行剔除处理,和/或对上述多组样本流量分别对应的多个初始流量特征中包括的缺失数据进行填补处理,得到多组样本流量分别对应的处理后的多个初始流量特征;基于上述多组样本流量分别对应的处理后的多个初始流量特征中的预定流量特征进行特征构造,得到多组样本流量分别对应的多个目标流量特征。
[0011]可选的,上述确定上述待测软件流量对应的目标流量特征,包括:在目标流量特征为多个的情况下,获取上述待测软件流量对应的多个初始流量特征,其中,上述待测软件流量对应的多个初始流量特征至少包括:上述待测软件流量对应的传输控制协议包数、源流量包数、源字节数、外连互联网协议数、域名解析请求数、传输控制协议数、远程流量包数、远程字节数、外连端口数;基于上述待测软件流量对应的源流量包数和源字节数,得到上述待测软件流量对应的平均源字节数,以及基于上述待测软件流量对应的远程流量包数和远程字节数,得到上述待测软件流量对应的平均远程字节数;将上述待测软件流量对应的平均源字节数、平均远程字节数、传输控制协议包数、外连互联网协议数、域名解析请求数、传输控制协议数、上述外连端口数,作为上述待测软件流量对应的多个第一流量特征;对上述待测软件流量对应的多个第一流量特征进行离散处理,得到上述待测软件流量对应的多个第二流量特征;对上述待测软件流量对应的多个第二流量特征进行归一化处理,得到上述待测软件流量对应的多个目标流量特征。
[0012]根据本专利技术实施例的另一方面,还提供了一种软件流量检测装置,包括:第一获取模块,用于获取待测软件流量;第一确定模块,用于确定上述待测软件流量对应的目标流量特征;第二确定模块,将上述待测软件流量对应的目标流量特征输入至目标随机森林分类
器,得到上述待测软件的流量检测结果,其中,上述目标随机森林分类器是基于多组样本流量分别对应的初始流量特征和流量分类标签训练得到的,上述流量分类标签为正常流量或恶意流量。
[0013]根据本专利技术实施例的另一方面,还提供了一种计算机可读存储介质,上述计算机可读存储介质存储有多条指令,上述指令适于由处理器加载并执行任意一项上述的软件流量检测方法。
[0014]根据本专利技术实施例的另一方面,还提供了一种电子设备,包括一个或多个处理器和存储器,上述存储器用于存储一个或多个程序,其中,当上述一个或多个程序被上述一个或多个处理器执行时,使得上述一个或多个处理器实现任意一项上述的软件流量检测方法。
[0015]在本发本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种软件流量检测方法,其特征在于,包括:获取待测软件流量;确定所述待测软件流量对应的目标流量特征;将所述待测软件流量对应的目标流量特征输入至目标随机森林分类器,得到所述待测软件的流量检测结果,其中,所述目标随机森林分类器是基于多组样本流量分别对应的初始流量特征和流量分类标签训练得到的,所述流量分类标签为正常流量或恶意流量。2.根据权利要求1所述的方法,其特征在于,在所述将所述待测软件流量对应的目标流量特征输入至目标随机森林分类器,得到所述待测软件的流量检测结果之前,所述方法还包括:在初始流量特征为多个的情况下,获取所述多组样本流量分别对应的多个初始流量特征;基于所述多组样本流量分别对应的多个初始流量特征中的预定流量特征进行特征构造,得到多组样本流量分别对应的多个目标流量特征;基于所述多组样本流量分别对应的多个目标流量特征和流量分类标签,对初始随机森林分类器进行训练,得到所述目标随机森林分类器。3.根据权利要求2所述的方法,其特征在于,所述多组样本流量分别对应的多个初始流量特征至少包括:所述多组样本流量分别对应的传输控制协议包数、源流量包数、源字节数、外连互联网协议数、域名解析请求数、传输控制协议数、远程流量包数、远程字节数、外连端口数;所述多组样本流量分别对应的预定流量特征至少包括:所述多组样本流量分别对应的源流量包数、源字节数、远程流量包数、远程字节数。4.根据权利要求3所述的方法,其特征在于,所述基于所述多组样本流量分别对应的多个初始流量特征中的预定流量特征进行特征构造,得到多组样本流量分别对应的多个目标流量特征,包括:基于所述多组样本流量分别对应的源流量包数和源字节数,得到所述多组样本流量分别对应的平均源字节数,以及基于所述多组样本流量分别对应的所述远程流量包数和所述远程字节数,得到所述多组样本流量分别对应的平均远程字节数;根据所述多组样本流量分别对应的平均源字节数、平均远程字节数、传输控制协议包数、外连互联网协议数、域名解析请求数、传输控制协议数以及外连端口数,得到所述多组样本流量分别对应的多个目标流量特征。5.根据权利要求4所述的方法,其特征在于,所述根据所述多组样本流量分别对应的平均源字节数、平均远程字节数、传输控制协议包数、外连互联网协议数、域名解析请求数、传输控制协议数以及外连端口数,得到所述多组样本流量分别对应的多个目标流量特征,包括:将所述多组样本流量分别对应的平均源字节数、平均远程字节数、传输控制协议包数、外连互联网协议数、域名解析请求数、传输控制协议数以及外连端口数,作为所述多组样本流量分别对应的多个第一流量特征;对所述多组样本流量分别对应的多个第一流量特征中包括的连续特征进行离散处理,得到所述多组样本流量分别对应的多个第二流量特征;
对所述多组样本流量分别对应的多个第二流量特征进行归一化处理,得到所述多组样本流量分别对应的多个目标流量...

【专利技术属性】
技术研发人员:陈健祁海珍唐殊瑶陈鸿峰黄冲
申请(专利权)人:山石网科通信技术股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1