数据处理方法、模型训练方法、电子设备及存储介质技术

技术编号:33204136 阅读:25 留言:0更新日期:2022-04-24 00:46
本申请实施例公开了一种数据处理方法,包括:获取待分类数据的发送方在预设时段内的第一数据收发情况;基于第一数据收发情况指示的发送方在第一互联网协议IP地址发送的第一数据量,以及第一IP地址发送过的第二数据量,确定发送方的第一特征值;第一IP地址为发送待分类数据的IP地址;基于第一数据收发情况指示的发送方的多个数据发送时刻的分布情况,确定发送方的第二特征值;基于第一特征值、第二特征值以及目标分类模型,确定发送方的类别;其中,对不同类别的发送方的数据处理方式不同。如此,通过第一特征值表征的发送方和所在IP地址发送数据的行为特征,以及第二特征值表征的发送方发送数据的时间特征,提高发送方类别判断的准确性。的准确性。的准确性。

【技术实现步骤摘要】
数据处理方法、模型训练方法、电子设备及存储介质


[0001]本专利技术涉及深度学习领域,尤其涉及一种数据处理方法、模型训练方法、电子设备及存储介质。

技术介绍

[0002]相关技术中对于接收到的数据进行检测,例如检测接收到的邮件是否为垃圾邮件时,一般仅通过日志信息对发送邮件的主机行为和邮箱行为进行分析,根据发件行为分析结果确定邮件协议流量中的异常流量,并根据异常流量确定是否为垃圾邮件。但该分析方式所根据的特征内容维度有限,会导致检测准确率不足。

技术实现思路

[0003]有鉴于此,本专利技术实施例提供一种数据处理方法、模型训练方法、电子设备及存储介质。
[0004]本专利技术的技术方案是这样实现的:
[0005]第一方面,本专利技术实施例提供一种数据处理方法,所述方法包括:
[0006]获取待分类数据的发送方在预设时段内的第一数据收发情况;
[0007]基于所述第一数据收发情况指示的所述发送方在第一互联网协议IP地址发送的第一数据量,以及所述第一IP地址发送过的第二数据量,确定所述发送方的第一特征值;所述第一IP地址为发送所述待分类数据的IP地址;
[0008]基于所述第一数据收发情况指示的所述发送方的多个数据发送时刻的分布情况,确定所述发送方的第二特征值;
[0009]基于所述第一特征值、所述第二特征值以及目标分类模型,确定所述发送方的类别;其中,对不同类别的所述发送方的数据处理方式不同。
[0010]进一步地,所述基于所述第一数据收发情况指示的所述发送方的多个数据发送时刻的分布情况,确定所述发送方的第二特征值,包括:
[0011]基于所述第一数据收发情况指示的所述发送方的多个数据发送时刻的分布情况,确定每两个相邻的数据发送时刻之间的时间间隔;
[0012]基于所述时间间隔的分布情况确定所述发送方的第二特征值。
[0013]进一步地,所述基于所述时间间隔的分布情况确定所述发送方的第二特征值,包括:
[0014]基于所述时间间隔的分布情况,确定每一所述时间间隔之后的数据发送时刻发送的第三数据量,以及所述发送方在所述预设时段内发送的第四数据量;
[0015]计算所述第三数据量与所述第四数据量的比值;
[0016]基于所述比值及所述比值的自然对数,确定所述发送方的第二特征值。
[0017]进一步地,所述方法还包括:
[0018]基于所述第一数据收发情况指示的与所述发送方具有数据收发关系的关联方,构
建加权有向图;所述加权有向图中的一个节点表征一个所述发送方或一个所述关联方;
[0019]基于所述加权有向图中的节点信息和/或边的权重,生成第三特征值集合;所述边表征两个节点之间的数据收发关系;所述权重表征所述边连接的起始节点向所述边连接的指向节点在所述预设时段内发送的第五数据量;
[0020]所述基于所述第一特征值、所述第二特征值以及目标分类模型,确定所述发送方的类别,包括:
[0021]将所述第一特征值、所述第二特征值及所述第三特征值集合输入目标分类模型,确定所述发送方的类别。
[0022]进一步地,所述基于所述加权有向图中的节点信息和/或边的权重,生成第三特征值集合,包括:
[0023]基于表征所述发送方发送数据的边的第一数量,以及表征所述发送方接收数据的边的第二数量,计算第四特征值;
[0024]基于表征所述发送方发送数据的边的权重,计算第五特征值;
[0025]基于与所述发送方属于同一IP地址的关联方对应节点连接的边的权重,计算第六特征值;
[0026]基于所述第四特征值、第五特征值以及第六特征值,生成第三特征值集合。
[0027]进一步地,所述基于表征所述发送方发送数据的边的权重,计算第五特征值,包括:
[0028]计算所述加权有向图中所有表征所述发送方发送数据的边的权重平均值,作为第五特征值。
[0029]第二方面,本专利技术实施例提供一种模型训练方法,所述方法包括:
[0030]获取样本数据的发送方在预设时段内的第二数据收发情况;
[0031]基于所述第二数据收发情况指示的所述发送方在第二IP地址上发送的数据量,以及所述第二IP地址发送过的数据量,确定所述发送方的第七特征值;所述第二IP地址为发送所述样本数据的IP地址;
[0032]基于所述第二数据收发情况指示的所述发送方的多个数据发送时刻的分布情况,确定所述发送方的第八特征值;
[0033]基于所述第七特征值与第八特征值训练预设分类模型,得到预设分类模型的分类值;
[0034]根据所述分类值和所述样本数据的发送方的标签之间的差异,确定训练损失值;
[0035]当所述训练损失值满足预设条件时,停止训练所述预设分类模型;
[0036]当所述训练损失值不满足所述预设条件时,继续训练所述分类模型。
[0037]进一步地,所述基于所述第二数据收发情况指示的所述发送方的多个数据发送时刻的分布情况,确定所述发送方的第八特征值,包括:
[0038]基于所述第二数据收发情况指示的所述发送方的多个数据发送时刻的分布情况,确定每两个相邻的数据发送时刻之间的时间间隔;
[0039]基于所述时间间隔的分布情况确定所述发送方的第八特征值。
[0040]第三方面,本专利技术实施例提供一种电子设备,所述电子设备包括:处理器和用于存储能够在处理器上运行的计算机程序的存储器;
[0041]处理器运行所述计算机程序时,执行前述一个或多个技术方案所述方法的步骤。
[0042]第四方面,本专利技术实施例提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可执行指令;计算机可执行指令被处理器执行后,能够实现前述一个或多个技术方案所述方法。
[0043]本专利技术提供的数据处理方法,包括:获取待分类数据的发送方在预设时段内的第一数据收发情况;基于所述第一数据收发情况指示的所述发送方在第一互联网协议IP地址发送的第一数据量,以及所述第一IP地址发送过的第二数据量,确定所述发送方的第一特征值;所述第一IP地址为发送所述待分类数据的IP地址;基于所述第一数据收发情况指示的所述发送方的多个数据发送时刻的分布情况,确定所述发送方的第二特征值;基于所述第一特征值、所述第二特征值以及目标分类模型,确定所述发送方的类别;其中,对不同类别的所述发送方的数据处理方式不同。如此,通过第一特征值体现发送方相对于当前发送方所在IP地址的数据发送量占据情况,从而可以表征预设时段内发送方发送数据的行为特征,第二特征值可以表征预设时段内发送方发送数据的时间特征。在此基础上,通过分类模型处理第一特征值和第二特征值,从而可根据行为特征和时间特征准确判别发送方的类别,既满足发送方自身的数据发送特征,又丰富了特征值的维度,提高类别判断的准确性,进而提高数据处理方式选择的精准性。
附图说明
[0044]图1为本专利技术实施例提供的一种数据处理方法的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据处理方法,其特征在于,所述方法包括:获取待分类数据的发送方在预设时段内的第一数据收发情况;基于所述第一数据收发情况指示的所述发送方在第一互联网协议IP地址发送的第一数据量,以及所述第一IP地址发送过的第二数据量,确定所述发送方的第一特征值;所述第一IP地址为发送所述待分类数据的IP地址;基于所述第一数据收发情况指示的所述发送方的多个数据发送时刻的分布情况,确定所述发送方的第二特征值;基于所述第一特征值、所述第二特征值以及目标分类模型,确定所述发送方的类别;其中,对不同类别的所述发送方的数据处理方式不同。2.根据权利要求1所述的方法,其特征在于,所述基于所述第一数据收发情况指示的所述发送方的多个数据发送时刻的分布情况,确定所述发送方的第二特征值,包括:基于所述第一数据收发情况指示的所述发送方的多个数据发送时刻的分布情况,确定每两个相邻的数据发送时刻之间的时间间隔;基于所述时间间隔的分布情况确定所述发送方的第二特征值。3.根据权利要求2所述的方法,其特征在于,所述基于所述时间间隔的分布情况确定所述发送方的第二特征值,包括:基于所述时间间隔的分布情况,确定每一所述时间间隔之后的数据发送时刻发送的第三数据量,以及所述发送方在所述预设时段内发送的第四数据量;计算所述第三数据量与所述第四数据量的比值;基于所述比值及所述比值的自然对数,确定所述发送方的第二特征值。4.根据权利要求1所述的方法,其特征在于,所述方法还包括:基于所述第一数据收发情况指示的与所述发送方具有数据收发关系的关联方,构建加权有向图;所述加权有向图中的一个节点表征一个所述发送方或一个所述关联方;基于所述加权有向图中的节点信息和/或边的权重,生成第三特征值集合;所述边表征两个节点之间的数据收发关系;所述权重表征所述边连接的起始节点向所述边连接的指向节点在所述预设时段内发送的第五数据量;所述基于所述第一特征值、所述第二特征值以及目标分类模型,确定所述发送方的类别,包括:将所述第一特征值、所述第二特征值及所述第三特征值集合输入目标分类模型,确定所述发送方的类别。5.根据权利要求4所述的方法,其特征在于,所述基于所述加权有向图中的节点信息和/或边的权重,...

【专利技术属性】
技术研发人员:李涵
申请(专利权)人:卓尔智联武汉研究院有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1