一种数据处理方法、装置和存储介质制造方法及图纸

技术编号:29987294 阅读:24 留言:0更新日期:2021-09-11 04:23
本发明专利技术公开了一种数据处理方法、装置和存储介质,其中,方法包括:获取初始数据;所述初始数据至少包括初始DNS数据;对所述初始数据进行数据分析,确定至少一个域名中各域名的特征向量;所述特征向量包括域名的至少一种特征。征。征。

【技术实现步骤摘要】
一种数据处理方法、装置和存储介质


[0001]本专利技术涉及信息安全技术,尤其涉及一种数据处理方法、装置和计算机可读存储介质。

技术介绍

[0002]在域名系统(DNS,Domain Name System)安全中,大部分引擎都是从某一个已知的安全问题出发,每个引擎解决特定场景的安全问题,例如:域生成算法(DGA,Domain generation algorithms)解决黑客通过随机字符拼接产生的域名实现C2通信的问题,DNS隧道通过在域名里加入编码信息解决信息盗窃的问题。这些单点引擎基本都是基于某种特定场景进行分析检测,而提取单个特定场景下的局部特征去进行分析检测,局部特征覆盖面不全、表征能力不足,往往无法较好的表征一种恶意行为,容易造成误报。

技术实现思路

[0003]有鉴于此,本专利技术的主要目的在于提供一种数据处理方法、装置和计算机可读存储介质。
[0004]为达到上述目的,本专利技术的技术方案是这样实现的:
[0005]本专利技术实施例提供了一种数据处理方法,所述方法包括:
[0006]获取初始数据;所述初始数据至少包括初始域名系统DNS数据;
[0007]对所述初始数据进行数据分析,确定至少一个域名中各域名的特征向量;所述特征向量包括域名的至少一种特征。
[0008]上述方案中,所述初始数据,还包括:应用防火墙AF安全日志;
[0009]所述对所述初始数据进行数据分析之前,所述方法还包括:
[0010]分析所述初始DNS数据和所述AF安全日志,根据分析结果将所述初始DNS数据和AF安全日志进行数据拼接,得到目标DNS数据;
[0011]相应的,所述对所述初始数据进行数据分析,确定至少一个域名中各域名的特征向量,包括:
[0012]对所述目标DNS数据进行数据分析,确定至少一个域名中各域名的至少一种特征;
[0013]根据各域名的至少一种特征,确定各域名的特征向量。
[0014]上述方案中,所述至少一种特征,包括以下至少之一:主机侧特征、IP侧特征;
[0015]所述对所述目标DNS数据进行数据分析,确定至少一个域名中各域名的至少一种特征,包括以下至少之一:
[0016]根据所述目标DNS数据,构造第一二分图;所述第一二分图表征域名与主机的对应关系;根据所述第一二分图提取域名对应的主机侧特征;所述主机侧特征,包括以下至少之一:域名被黑主机访问的占比、域名对应的主机数量;
[0017]根据所述目标DNS数据,构造第二二分图;所述第二二分图表征域名与IP的对应关系;根据所述第二二分图提取域名对应的IP侧特征;所述IP侧特征,包括以下至少之一:域
名的解析率、不同域名解析到同一解析IP的概率。
[0018]上述方案中,所述至少一种特征,包括:域名活跃度特征;
[0019]所述对所述目标DNS数据进行数据分析,确定至少一个域名中各域名的至少一种特征,包括以下至少之一:
[0020]确定各域名在预设第一时间段内的被访问次数;
[0021]确定各域名在预设第二时间段内的连续被访问次数。
[0022]上述方案中,所述至少一种特征,包括:域名文法特征;
[0023]所述对所述目标DNS数据进行数据分析,确定至少一个域名中各域名的至少一种特征,包括:
[0024]针对域名执行以下至少之一:
[0025]确定域名中的至少一个单词和所述至少一个单词中各单词的意义,根据确定的有意义的单词确定所述有意义的单词的占比;
[0026]确定域名的长度;
[0027]确定域名的层级;
[0028]确定域名中数字的占比。
[0029]上述方案中,所述至少一种特征,包括:时间特征;
[0030]所述对所述目标DNS数据进行数据分析,确定至少一个域名中各域名的至少一种特征,包括:
[0031]根据所述目标DNS数据,提取各域名对应的被访问次数和被访问时间;
[0032]根据各域名在预设第三时间段内的被访问次数和被访问时间,确定各域名对应的第一流量序列;
[0033]运用预设的流量编码器,对所述第一流量序列进行特征增强处理,得到第二流量序列,作为域名的时间特征。
[0034]上述方案中,所述至少一种特征,包括:空间特征;
[0035]所述对所述目标DNS数据进行数据分析,确定至少一个域名中各域名的至少一种特征,包括:
[0036]从目标DNS数据中,提取每台主机的域名访问序列;所述域名访问序列包括至少一个域名;
[0037]运用预设的Skip-Gram模型识别所述域名访问序列,确定所述域名访问序列中各域名的向量,作为域名的空间特征。
[0038]本专利技术实施例提供了一种数据处理装置,所述装置包括:第一处理模块、第二处理模块;其中,
[0039]所述第一处理模块,用于获取初始数据;所述初始数据至少包括初始DNS数据;
[0040]所述第二处理模块,用于对所述初始数据进行数据分析,确定至少一个域名中各域名的特征向量;所述特征向量包括域名的至少一种特征。
[0041]上述方案中,所述初始数据,还包括:应用防火墙AF安全日志;
[0042]所述第二处理模块,还用于分析所述初始DNS数据和所述AF安全日志,根据分析结果将所述初始DNS数据和AF安全日志进行数据拼接,得到目标DNS数据;
[0043]相应的,所述第二处理模块,具体用于对所述目标DNS数据进行数据分析,确定至
少一个域名中各域名的至少一种特征;
[0044]根据各域名的至少一种特征,确定各域名的特征向量。
[0045]上述方案中,所述至少一种特征,包括以下至少之一:主机侧特征、IP侧特征;
[0046]所述第二处理模块,具体用于执行以下至少之一:
[0047]根据所述目标DNS数据,构造第一二分图;所述第一二分图表征域名与主机的对应关系;根据所述第一二分图提取域名对应的主机侧特征;所述主机侧特征,包括以下至少之一:域名被黑主机访问的占比、域名对应的主机数量;
[0048]根据所述目标DNS数据,构造第二二分图;所述第二二分图表征域名与IP的对应关系;根据所述第二二分图提取域名对应的IP侧特征;所述IP侧特征,包括以下至少之一:域名的解析率、不同域名解析到同一解析IP的概率。
[0049]上述方案中,所述至少一种特征,包括:域名活跃度特征;
[0050]所述第二处理模块,具体用于执行以下至少之一:
[0051]确定各域名在预设第一时间段内的被访问次数;
[0052]确定各域名在预设第二时间段内的连续被访问次数。
[0053]上述方案中,所述至少一种特征,包括:域名文法特征;
[0054]所述第二处理模块,具体用于针对域名执行以下至少之一:
[0055]确定域名中的至少一个单词和所述至少一个单词中各单词的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据处理方法,其特征在于,所述方法包括:获取初始数据;所述初始数据至少包括初始域名系统DNS数据;对所述初始数据进行数据分析,确定至少一个域名中各域名的特征向量;所述特征向量包括域名的至少一种特征。2.根据权利要求1所述的方法,其特征在于,所述初始数据,还包括:应用防火墙AF安全日志;所述对所述初始数据进行数据分析之前,所述方法还包括:分析所述初始DNS数据和所述AF安全日志,根据分析结果将所述初始DNS数据和AF安全日志进行数据拼接,得到目标DNS数据;相应的,所述对所述初始数据进行数据分析,确定至少一个域名中各域名的特征向量,包括:对所述目标DNS数据进行数据分析,确定至少一个域名中各域名的至少一种特征;根据各域名的至少一种特征,确定各域名的特征向量。3.根据权利要求2所述的方法,其特征在于,所述至少一种特征,包括以下至少之一:主机侧特征、IP侧特征;所述对所述目标DNS数据进行数据分析,确定至少一个域名中各域名的至少一种特征,包括以下至少之一:根据所述目标DNS数据,构造第一二分图;所述第一二分图表征域名与主机的对应关系;根据所述第一二分图提取域名对应的主机侧特征;所述主机侧特征,包括以下至少之一:域名被黑主机访问的占比、域名对应的主机数量;根据所述目标DNS数据,构造第二二分图;所述第二二分图表征域名与IP的对应关系;根据所述第二二分图提取域名对应的IP侧特征;所述IP侧特征,包括以下至少之一:域名的解析率、不同域名解析到同一解析IP的概率。4.根据权利要求2所述的方法,其特征在于,所述至少一种特征,包括:域名活跃度特征;所述对所述目标DNS数据进行数据分析,确定至少一个域名中各域名的至少一种特征,包括以下至少之一:确定各域名在预设第一时间段内的被访问次数;确定各域名在预设第二时间段内的连续被访问次数。5.根据权利要求2所述的方法,其特征在于,所述至少一种特征,包括:域名文法特征;所述对所述目...

【专利技术属性】
技术研发人员:陈扬雷昕闫凡
申请(专利权)人:深信服科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1