模型训练方法、加密数据处理方法及相关设备技术

技术编号:38627650 阅读:8 留言:0更新日期:2023-08-31 18:28
本申请公开了一种模型训练方法、加密数据处理方法及相关设备,涉及计算机安全技术领域,该方法包括:采集历史加密数据,历史加密数据为恶意加密数据或非恶意加密数据;基于发出历史加密数据的历史进程的进程信息,对历史进程的出现次数进行统计分析,以获得统计分析数据;将历史加密数据和统计分析数据作为训练数据样本,对机器学习模型进行训练,以使机器学习模型适用于预测历史进程发出历史加密数据的预测概率,并输出用于表明历史加密数据是否为恶意加密数据的评判标签。本申请解决了对恶意加密流量进行识别时,需要构建模拟环境、资源消耗大的问题。源消耗大的问题。源消耗大的问题。

【技术实现步骤摘要】
模型训练方法、加密数据处理方法及相关设备


[0001]本申请涉及到计算机安全
,具体而言,涉及一种模型训练方法、加密数据处理方法及相关设备。

技术介绍

[0002]本部分旨在为权利要求书中陈述的本专利技术实施例提供背景或上下文。不应以此处的描述包括在本部分中就承认是现有技术。
[0003]随着互联网攻防对抗的不断升级,新型网络技术不断迭代,网络结构日趋复杂。与此同时,加密技术的广泛应用使得加密流量呈现爆炸式增长。加密技术在保护用户隐私的同时也深刻改变了网络安全威胁形式,让利用加密技术的病毒、僵尸网络、木马等仍能广泛传播,而传统的检测技术路线在面对恶意加密流量时往往无能为力。
[0004]为更好地对恶意加密流量进行识别,传统方案对加密流量进行打标需要借助沙箱来实现,通过对正常/恶意的可执行文件上传,适当的选取执行的环境,模拟用户真实环境,以避免可执行文件的逃逸、对抗,最终执行上传的文件,用来获得同等真实环境下产生的加密流量数据。但该方案需要构建模拟环境,且依据可执行文件类型、版本和执行环境的不同,构建例如Windows、Windows Server、Linux、Android等各类不同操作系统的环境,选取例如Windows XP、Windows 7、Windows 10等不同版本的环境,部署例如Adobe PDF、Adobe Flash、Office Word等不同类型的软件。结果将耗费大量人力物力,且如果不能准确的预测/判断可执行文件执行/触发的条件,将可能不会触发可执行文件的通信/加密流量通信/恶意加密流量通信,从而直接影响后续的流量分析结果。

技术实现思路

[0005]本申请实施例提供了一种模型训练方法、加密数据处理方法及相关设备,以至少解决现有技术中,对恶意加密流量进行识别时,需要构建模拟环境、资源消耗大的问题。
[0006]根据本申请的一个方面,还提供了一种模型训练方法,包括:
[0007]采集历史加密数据,所述历史加密数据为恶意加密数据或非恶意加密数据;
[0008]基于发出所述历史加密数据的历史进程的进程信息,对所述历史进程的出现次数进行统计分析,以获得统计分析数据;
[0009]将所述历史加密数据和所述统计分析数据作为训练数据样本,对机器学习模型进行训练,以使所述机器学习模型适用于预测所述历史进程发出所述历史加密数据的预测概率,并输出用于表明所述历史加密数据是否为恶意加密数据的评判标签。
[0010]在其中的一些实施例中,基于发出所述历史加密数据的历史进程的进程信息,对所述历史进程的出现次数进行统计分析之前,所述方法还包括:
[0011]采集所述历史进程的所述进程信息;
[0012]则,基于发出所述历史加密数据的历史进程的进程信息,对所述历史进程的出现次数进行统计分析的步骤包括:
[0013]将来自所述历史进程的所述历史加密数据与所述进程信息进行关联,获得所述历史加密数据与所述进程信息之间的关联关系;
[0014]根据所述关联关系,对所述历史加密数据对应的所述历史进程的出现次数进行统计分析。
[0015]在其中的一些实施例中,所述进程信息包括所述历史进程的第一网络通信信息,采集历史加密数据时,所述方法还包括:
[0016]确定所述历史加密数据的第二网络通信信息;
[0017]其中,将来自所述历史进程的所述历史加密数据与所述进程信息进行关联的步骤包括:
[0018]根据所述第二网络通信信息与所述第一网络通信信息的一致性,判断所述历史加密数据是否来自所述历史进程,若是,将所述历史加密数据与所述进程信息进行关联。
[0019]在其中的一些实施例中,所述进程信息包括多种进程特征,所述进程特征包括用于描述所述历史进程的第一网络通信信息的特征,和/或,用于描述所述历史进程的主机信息的特征,获得所述统计分析数据的步骤包括:
[0020]根据所述关联关系,对所述历史加密数据对应的所述历史进程的出现次数进行统计分析,并对所述历史加密数据对应所述历史进程下的所述进程特征的出现次数进行统计分析后,获得所述统计分析数据;
[0021]则,将所述历史加密数据和所述统计分析数据作为训练数据样本,对机器学习模型进行训练,以使所述机器学习模型适用于预测所述历史进程发出所述历史加密数据的预测概率,并输出用于表明所述历史加密数据是否为恶意加密数据的评判标签时,还输出所述历史进程的所述进程特征。
[0022]在其中的一些实施例中,所述进程信息包括多种进程特征,其中,对所述历史加密数据对应的所述历史进程的出现次数进行统计分析,并对所述历史加密数据对应所述历史进程下的所述进程特征的出现次数进行统计分析的步骤包括:
[0023]确定所述历史加密数据对应的其中一种所述历史进程的出现次数,以及基于所述出现次数,确定所述历史加密数据对应的多种所述历史进程的总出现次数;
[0024]确定所述历史加密数据对应的其中一种所述历史进程下的所述进程特征的特征数,以及基于所述特征数,确定所述历史加密数据对应的多种所述历史进程下的所述进程特征的总特征数;
[0025]基于所述出现次数和所述总出现次数,确定所述历史进程的进程出现比率,以及,根据所述特征数和所述总特征数,确定所述进程特征的特征出现比率,以获得包括所述进程出现比率和所述特征出现比率的所述统计分析数据;
[0026]则,将所述历史加密数据和所述统计分析数据作为训练数据样本,对机器学习模型进行训练的步骤包括:
[0027]将所述历史加密数据、所述进程出现比率和所述特征出现比率作为所述训练数据样本,对所述机器学习模型进行训练,以使所述机器学习模型适用于预测所述历史进程发出所述历史加密数据的预测概率,并输出用于表明所述历史加密数据是否为恶意加密数据的评判标签时,还输出所述历史进程的所述进程特征。
[0028]在其中的一些实施例中,其中,将所述历史加密数据、所述进程出现比率和所述特
征出现比率作为所述训练数据样本,对机器学习模型进行训练的过程中,所述方法还包括:
[0029]基于所述预测概率,计算所述历史进程发出所述历史加密数据的第一权重,以及,计算所述历史进程下各个所述进程特征的第二权重;
[0030]基于所述第一权重、所述第二权重、所述进程出现比率以及所述特征出现比率,更新所述机器学习模型预测的所述预测概率。
[0031]根据本申请的另一个方面,还提供了一种加密数据处理方法,包括:
[0032]将加密数据输入机器学习模型,通过所述机器学习模型预测发出所述加密数据的进程,并输出用于表明所述加密数据是否为恶意加密数据的评判标签,所述机器学习模型为,根据所述的模型训练方法训练获得的模型;
[0033]基于所述评判标签,对作为恶意加密数据的所述加密数据进行统计,获得统计信息,统计时,采用预测的所述进程的进程名对所述加密数据进行标识。
[0034]在其中的一些实施例中,基于所述评判标本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种模型训练方法,其特征在于,包括:采集历史加密数据,所述历史加密数据为恶意加密数据或非恶意加密数据;基于发出所述历史加密数据的历史进程的进程信息,对所述历史进程的出现次数进行统计分析,以获得统计分析数据;将所述历史加密数据和所述统计分析数据作为训练数据样本,对机器学习模型进行训练,以使所述机器学习模型适用于预测所述历史进程发出所述历史加密数据的预测概率,并输出用于表明所述历史加密数据是否为恶意加密数据的评判标签。2.根据权利要求1所述的方法,其特征在于,基于发出所述历史加密数据的历史进程的进程信息,对所述历史进程的出现次数进行统计分析之前,所述方法还包括:采集所述历史进程的所述进程信息;则,基于发出所述历史加密数据的历史进程的进程信息,对所述历史进程的出现次数进行统计分析的步骤包括:将来自所述历史进程的所述历史加密数据与所述进程信息进行关联,获得所述历史加密数据与所述进程信息之间的关联关系;根据所述关联关系,对所述历史加密数据对应的所述历史进程的出现次数进行统计分析。3.根据权利要求2所述的方法,其特征在于,所述进程信息包括所述历史进程的第一网络通信信息,采集历史加密数据时,所述方法还包括:确定所述历史加密数据的第二网络通信信息;其中,将来自所述历史进程的所述历史加密数据与所述进程信息进行关联的步骤包括:根据所述第二网络通信信息与所述第一网络通信信息的一致性,判断所述历史加密数据是否来自所述历史进程,若是,将所述历史加密数据与所述进程信息进行关联。4.根据权利要求2所述的方法,其特征在于,所述进程信息包括多种进程特征,所述进程特征包括用于描述所述历史进程的第一网络通信信息的特征,和/或,用于描述所述历史进程的主机信息的特征,获得所述统计分析数据的步骤包括:根据所述关联关系,对所述历史加密数据对应的所述历史进程的出现次数进行统计分析,并对所述历史加密数据对应所述历史进程下的所述进程特征的出现次数进行统计分析后,获得所述统计分析数据;则,将所述历史加密数据和所述统计分析数据作为训练数据样本,对机器学习模型进行训练,以使所述机器学习模型适用于预测所述历史进程发出所述历史加密数据的预测概率,并输出用于表明所述历史加密数据是否为恶意加密数据的评判标签时,还输出所述历史进程的所述进程特征。5.根据权利要求4所述的方法,其特征在于,所述进程信息包括多种进程特征,其中,对所述历史加密数据对应的所述历史进程的出现次数进行统计分析,并对所述历史加密数据对应所述历史进程下的所述进程特征的出现次数进行统计分析的步骤包括:确定所述历史加密数据对应的其中一种所述历史进程的出现次数,以及基于所述出现次数,确定所述历...

【专利技术属性】
技术研发人员:吴年京
申请(专利权)人:阿里巴巴中国有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1