数据分析方法、装置、设备和可读存储介质制造方法及图纸

技术编号:30424088 阅读:77 留言:0更新日期:2021-10-24 16:53
本发明专利技术公开了一种数据分析方法,该方法包括:采用第一分析模型对多个第一样本所属类型进行分析,得到各第一样本的预测类型,获取各第一样本的实际类型;根据预测类型与实际类型存在差异的第一样本确定异常样本集;获取至少包括异常样本集的样本,作为第一样本集;采用第一样本集作为训练样本构建第二分析模型;根据第一分析模型和第二分析模型对待测样本的所属类型进行预测。本发明专利技术还公开了一种数据分析装置、数据分析设备和可读存储介质。本发明专利技术旨在实现漏报误报数据的自动处理,从而提高基于机器学习模型进行数据预判的准确性。于机器学习模型进行数据预判的准确性。于机器学习模型进行数据预判的准确性。

【技术实现步骤摘要】
数据分析方法、装置、设备和可读存储介质


[0001]本专利技术涉及数据分析领域,尤其涉及数据分析方法、数据分析装置、数据分析设备和可读存储介质。

技术介绍

[0002]随着技术的发展,人工智能技术应用在越来越来多的检测场景中,例如计算机安全检测场景,一般通过搜集训练样本构建机器学习模型,采用机器学习模型对未知数据的类型进行预判。
[0003]然而,由于训练不充分、超参数设置不正确、训练算法本身随机性等原因,机器学习模型在实际应用过程中往往会产生漏报误报的数据。目前对于漏报误报的数据一般通过人工制作黑白名单等进行大量干预的方式处理,并且之后再次出现新的漏报误报仍需要新的人工干预人工处理的效率较低且泛化能力较低,难以保证基于机器学习模型进行数据预判的准确性。

技术实现思路

[0004]本专利技术的主要目的在于提供一种数据分析方法,旨在实现漏报误报数据的自动处理,从而提高基于机器学习模型进行数据预判的准确性。
[0005]为实现上述目的,本专利技术提供一种数据分析方法,所述数据分析方法包括以下步骤:
[0006本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据分析方法,其特征在于,所述数据分析方法包括以下步骤:采用第一分析模型对多个第一样本所属类型进行分析,得到各所述第一样本的预测类型,获取各所述第一样本的实际类型;根据预测类型与实际类型存在差异的第一样本确定异常样本集;获取至少包括所述异常样本集的样本,作为第一样本集;采用所述第一样本集作为训练样本构建第二分析模型;根据所述第一分析模型和所述第二分析模型对待测样本的所属类型进行预测。2.如权利要求1所述的数据分析方法,其特征在于,所述采用第一分析模型对多个第一样本所属类型进行分析,得到各所述第一样本的预测类型,获取各所述第一样本的实际类型的步骤之后,还包括:根据预测类型与实际类型匹配的第一样本确定正常样本集;所述获取至少包括所述异常样本集的样本,作为第一样本集的步骤包括:在所述正常样本集中选取部分样本与所述异常样本集混合,得到第一样本集。3.如权利要求2所述的数据分析方法,其特征在于,所述在所述正常样本集中选取部分样本与所述异常样本集混合,得到第一样本集的步骤包括:基于数量均衡规则,在所述正常样本集中选取部分样本与所述异常样本集混合,得到所述第一样本集;其中,所述数量均衡规则为所述第一样本集中各所述实际类型对应的样本总量的差值小于或等于预设值。4.如权利要求3所述的数据分析方法,其特征在于,所述基于数量均衡规则,在所述正常样本集中选取部分样本与所述异常样本集混合,得到第一样本集的步骤包括:基于所述数量均衡规则,在所述正常样本集中随机抽取部分样本与所述异常样本集混合,得到所述第一样本集。5.如权利要求3所述的数据分析方法,其特征在于,所述基于数量均衡规则,在所述正常样本集中选取部分样本与所述异常样本集混合,得到第一样本集的步骤包括:将所述正常样本集中的每个样本定义为第一样本,将所述异常样本集与所述第一样本的实际类型匹配的样本定义为第二样本,获取各所述实际类型对应的第一距离阈值;在各所述实际类型对应的第一样本中,将与每个对应的第二样本的欧式距离均小于或等于所述第一距离阈值的第一样本,确定为待混合样本;在各所述实际类型对应的待混合样本均满足所述数量均衡规则时,按照各所述实际类型将异常样本集中的样本与对应的待混合样本混合,得到所述第一样本集。6.如权利要求5所述的数据分析方法,其特征在于,所述在各所述实际类型对应的第一样本中,将与每个对应的第二样本的欧式距离均小于或等于所述第一距离阈值的第一样本,确定为待混合样本的步骤之后,还包括:判断各所述待混合样本是否均满足所述数量均衡规则;若是,则执行所述按照各所述实际类型将异常样本集中的样本与对应的待混合样本混合,得到所述第一样本集的步骤;若否,则确定不满足所述数量均衡规则的待混合样本对应的实际类型为目标类型;调整所述目标类型对应的第一距离阈值;返回执行所述在各所述实际类型对应的第一样本中,将与每个对应的第二样本的欧式
距离均小于或等于所述第一距离阈值的第一样本...

【专利技术属性】
技术研发人员:刘彦南郑坚秋
申请(专利权)人:深信服科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1