当前位置: 首页 > 专利查询>济南大学专利>正文

一种模型增量更新的方法及系统技术方案

技术编号:28622303 阅读:125 留言:0更新日期:2021-05-28 16:18
本公开提出了一种模型增量更新的方法及系统,包括:使用归纳保形的思想筛选出测试数据集中携带新知识或复杂知识的数据,用于训练数据集和模型的迭代更新;使用时间窗口限制训练数据集的规模;使用数据循环选择的方法来抑制老旧冲突数据对训练模型的负面影响和训练数据集的无限增长。当携带复杂知识的数据占据新增数据一定比例或模型精确度降低到设定阈值,重新进行特征选择,数据集构建和模型训练。本公开实施例子提出了一种带有新知识和复杂知识的数据筛选方式,大幅度减少人工标记样本数量,减少训练数据规模,一定程度可以减少非平衡对模型性能的影响。

【技术实现步骤摘要】
一种模型增量更新的方法及系统
本公开属于计算机
,尤其涉及一种模型增量更新的方法及系统。
技术介绍
本部分的陈述仅仅是提供了与本公开相关的
技术介绍
信息,不必然构成在先技术。移动安全是安全领域的关键问题之一。平均使用的36种设备中就有一种处于高风险,AV-TEST最新报告,2019年,沉寂长达三年的恶意应用再次呈现出急速增长。Monet报告中,97%的移动恶意软件来源于Android平台,99%的移动恶意软件存在于没有足够的恶意软件筛选机制的第三方应用商店。为了对抗上述威胁,一方面,基于机器学习技术的Android恶意软件检测被提出来,通过分析恶意软件静态和动态特征来进行恶意应用的检测。然而,攻击者可以经常使用技术更新他们的恶意代码,例如代码混淆方法,以重新包装恶意软件。因此基于学习和内容信息的软件预测器,在检测新的恶意应用或者零日软件时,会出现随着时间推移检测效果变差的问题即概念漂移。另一方面,通过分析恶意应用的恶意网络行为来对Android恶意应用检测是一种比较有前途的方法,通过学习恶意应用的网络行为,NIDS可以识别正常和恶意应用之间的网络痕迹,从而达到检测恶意应用的目的。不幸的是,NIDS同样存在这种随着时间推移,检测效果衰减的问题。为了解决概念漂移带来的模型检测效果衰退问题,保持模型的检测效果,不可避免的,不时对模型进行升级或重新训练。现有大部分工作重点关注增量模型方面的研究,在原有模型基础上,增加新数据进行增量训练,从而避免模型在大量数据训练时带来的巨大的时间消耗。先不论这种方式有效性,单一的从模型方面去解决概念漂移问题,带来的增益是有限的。解决概念漂移问题,模型不可避免的要进行重新训练问题,因此重训练样本规模,样本标记成本,模型历史知识保留情况,老旧数据对新数据分布的影响都是需要考虑的因素。只有综合各个方面,才能有效的解决概念漂移问题带来的模型检测效果的衰减问题。
技术实现思路
为克服上述现有技术的不足,本公开提供了一种模型增量更新的方法,来应对概念漂移带来的检测模型效果衰退的问题。为实现上述目的,本公开的一个或多个实施例提供了如下技术方案:第一方面,公开了一种模型增量更新的方法,包括:对采集的网络流量进行分流和特征提取,构成数据集,分为训练集及测试集;针对上述训练集中样本通过时间窗口处理以抑制样本规模无限增长,通过样本循环筛选保留模型历史知识,减少老旧数据对现有模型的负面影响,获得更新模型。利用测试集对更新模型模型测试,直至更新模型模型预测精度下降到设定阈值。进一步的技术方案,使用归纳保形技术筛选出携带新知识和复杂知识的样本,将此类样本添加到训练集参与模型的重训练,获得更新模型。使用更新模型进行测试,直至模型预测精度下降到设定阈值。进一步的技术方案,获取网络流量;对捕获的流量文件进行分流操作,分流按照五元组进行分流;将分流操作后的文件进行特征提取,提取后的特征将会以需要的格式保存;对上述格式的特征文件进行解析,相关计算和数字化,并保存到csv文件中。具体的,特征文件的处理方式用户根据实际需求设计。进一步的技术方案,对数据集使用特征选择器进行特征选择,特征选择器与模型训练器使用同一种分类器,保证选择特征与模型训练器侧重一致,选择特征数量根据需要调整;优选的,保留大于特征重要程度平均值的特征。设定不同时间窗口的训练集,进行模型训练并进行测试,确定最优时间窗口。进一步的技术方案,对模型训练器进行训练后,获得训练后的模型,使用得到的模型进行预测,实时预测或离线预测。进一步的技术方案,模型更新时,包括:数据合并:将训练集时间窗口末尾的数据与测试集数据进行合并,其中,训练集时间窗口末尾的数据同测试集时间长度一致;数据选择:对合并数据进行数据选择,使用归纳保形技术将携带新知识和复杂知识的数据进行筛选,筛选后的数据集作为训练集时间窗口头部数据,然后删除时间窗口尾部的数据,数据更新放头部,时间窗口前移;使用新的训练集,重新训练模型,当携带复杂知识的数据占据新增数据一定比例或模型精确度降低到设定阈值,重新进行特征选择和模型训练。关于训练集时间窗口末尾,用户可根据实际需要设置时间长度,本公开技术方案为一个月。第二方面,公开了一种模型增量更新的系统,包括:数据采集并处理模块,对采集的网络流量进行分流和特征提取,构成数据集,分为训练集及测试集;模型更新模块,针对上述训练集中样本通过时间窗口处理以抑制样本规模无限增长,通过样本循环筛选保留模型历史知识,减少老旧数据对现有模型的负面影响,获得更新模型,利用测试集对更新模型模型测试,直至更新模型模型预测精度下降到设定阈值。关于具体筛选方式在见详细的实例中解释。以上一个或多个技术方案存在以下有益效果:本公开实施例子提出了一种带有新知识和复杂知识的数据筛选方式,大幅度减少人工标记样本数量,减少训练数据规模,一定程度可以减少非平衡对模型性能的影响。本公开实施例子通过时间窗口和数据循环选择的方法,抵抗老旧冲突数据对模型性能的影响,限制训练数据集的无限增长,理想状态下,当模型学习到全部知识,模型将会收敛,不再新增任何数据。本公开实施例子提出的方案不仅仅适用于LightGBM,同样适用于任何带有概率预测的模型,是一种通用的解决概念漂移方案。本专利技术附加方面的优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本专利技术的实践了解到。附图说明构成本公开的一部分的说明书附图用来提供对本公开的进一步理解,本公开的示意性实施例及其说明用于解释本公开,并不构成对本公开的不当限定。图1为本公开实施例子的整体流程图;图2为本公开实施例子基于时间窗口和数据循环选择方法的训练集更新流程图。具体实施方式应该指出,以下详细说明都是示例性的,旨在对本公开提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本公开所属
的普通技术人员通常理解的相同含义。需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本公开的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。在不冲突的情况下,本公开中的实施例及实施例中的特征可以相互组合。实施例一参见附图1所示,本实施例公开了一种模型增量更新的方法,包括:步骤(1):对采集的网络流量进行分流和特征提取;步骤(2):对提取的特征进行特征选择;步骤(3):模型训练;步骤(4):模型测试;步骤(5):模型更新,重复步骤4-5,如果模型预测精度下降到设定阈值,重复步骤2-5;具体实施例子中,步骤(1)步骤为:本文档来自技高网
...

【技术保护点】
1.一种模型增量更新的方法,其特征是,包括:/n对采集的网络流量进行分流和特征提取,构成数据集,分为训练集及测试集;/n针对上述训练集中样本通过时间窗口处理以抑制样本规模无限增长,通过样本循环筛选保留模型历史知识,减少老旧数据对现有模型的负面影响,获得更新模型,利用测试集对更新模型模型测试,直至更新模型模型预测精度下降到设定阈值。/n

【技术特征摘要】
1.一种模型增量更新的方法,其特征是,包括:
对采集的网络流量进行分流和特征提取,构成数据集,分为训练集及测试集;
针对上述训练集中样本通过时间窗口处理以抑制样本规模无限增长,通过样本循环筛选保留模型历史知识,减少老旧数据对现有模型的负面影响,获得更新模型,利用测试集对更新模型模型测试,直至更新模型模型预测精度下降到设定阈值。


2.如权利要求1所述的一种模型增量更新的方法,其特征是,使用归纳保形技术筛选出携带新知识和复杂知识的样本,将此类样本添加到训练集参与模型的重训练。


3.如权利要求1所述的一种模型增量更新的方法,其特征是,
获取网络流量;
对捕获的流量文件进行分流操作,分流按照五元组进行分流;
将分流操作后的文件进行特征提取,提取后的特征将会以需要的格式保存;
对上述格式的特征文件进行解析,相关计算和数字化,并保存到csv文件中。


4.如权利要求1所述的一种模型增量更新的方法,其特征是,对数据集使用特征选择器进行特征选择,特征选择器与模型训练器使用同一种分类器,选择特征数量根据需要调整。


5.如权利要求4所述的一种模型增量更新的方法,其特征是,保留大于特征重要程度平均值的特征。


6.如权利要求1所述的一种模型增量更新的方法,其特征是,对模型训练器进行训练后,获得训练后的模型,使用得到的模型进行预测,实...

【专利技术属性】
技术研发人员:陈贞翔张刚赵川刘安然纪科杨波
申请(专利权)人:济南大学
类型:发明
国别省市:山东;37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1