基于域名特征的C&C域名识别方法技术

技术编号:12345522 阅读:142 留言:0更新日期:2015-11-18 18:17
本发明专利技术公开了一种基于域名特征的C&C域名识别方法,包括:S1、基于域名的定性特征,对给定的域名生成用于判定域名类别的量化指标;S2、从给定的域名中随机抽取部分域名进入训练数据集,剩余域名进入测试数据集,并应用决策树集成算法,基于训练数据集生成域名类别判定模型;S3、应用生成的域名类别判定模型对测试数据集中的剩余域名的域名类别进行判定,并与剩余域名的实际类别进行比较,计算所述域名类别判定模型的预测性能指标;S4、对应用所述域名类别判定模型判定的域名类别进行校正;S5、基于校正后的域名类别,生成单个域名的统计结果。本发明专利技术可以准确地寻找到C&C域名,增强了模型的强落地性、可行性和可理解性。

【技术实现步骤摘要】

本专利技术涉及网络安全领域,特别是涉及一种基于域名特征的C&C域名识别方法。
技术介绍
本领域关于C&C域名(一种域名类型)识别的现有技术具体如下: 一、题目:用机器学习识别随机生成的C&C域名 内容:把由DGA算法(域名生成算法)生成的C&C域名和Alexa排名(网站的世 界排名)前10万的合法域名作为正反例,并生成可以有效识别两类域名的量化指标。生成 相应的指标后,使用支持向量机模型对域名类别进行判断。 缺点:由DGA算法生成的C&C域名包含的域名种类单一,导致训练数据集包含的 域名种类单一,因此这样训练生成的预测模型具有较低的适用性和推广性,难以实现对实 际域名的类别的准确判别。这种方法对包含汉语拼音的中国式域名的预测无相应的字段支 持,导致针对这种域名的预测的误判率较高。支持向量机对域名特征数据的要求高,低质量 的数据容易导致估计参数有偏,因此会要求投入较长的时间和较多的物力人力到前期数据 清洗上。对域名类别进行判别后,无相应的后期校正工作,这样预测的域名类别影响到推送 的报表的准确率。针对特征顶级域名(tld域名)生成700个左右的虚拟变量,这样会影响 模型的运行时间和模型最终的落地可行性。 二、题目:基于DNS(域名系统)流量的僵尸网络域名检测特征分析 内容:该论文基于僵尸网络自身的特点产生的DNS流量与合法用户DNS流量之间 存在的固有区别,提出了五条基于DNS的僵尸网络域名检测特征,如域名解析分布的突发 性。基于以上提出的五个特征对域名进行检测。 缺点:对部分特征所取的阈值具有一定的主观性和任意性,并非是通过模型计算 所得,缺乏一定的客观性。区分观测类别的特征的数量较少只有5个,导致最终域名类别的 判定缺乏充分的说服力。对域名类别进行判别时,采用的是单个标识特征,没有综合使用寻 找到的5个特征,这样容易导致这种情形:一个观测在基于特征A的条件下是类别a,在基 于特征B的条件下是类别b。 三、题目:基于DNS流量的恶意软件域名挖掘 内容:该论文通过建立域名和主机之间的图模型并运用置信传播算法进行节点声 望推断,实现了对恶意软件域名,控制服务器和受害主机的检测。 缺点:基于DNS失效的两个检测算法,DGA域名检测和失效C&C域名检测,容易受 IP(网络之间互连的协议)欺骗和DNS欺骗的影响。失效C&C检测的DNS请求序列的划分 界限是0点,这个界限容易错误划分主机域名请求序列,影响周期性判断的准确性。
技术实现思路
本专利技术要解决的技术问题是为了克服现有的C&C域名识别的相关技术的缺陷,提 供一种基于域名特征的C&C域名识别方法。 本专利技术是通过下述技术方案来解决上述技术问题的: 本专利技术提供了一种基于域名特征的C&C域名识别方法,其特点在于,包括以下步 骤: Si、基于域名的定性特征,对给定的域名生成用于判定域名类别的量化指标; S2、从给定的域名中随机抽取部分域名进入训练数据集,剩余域名进入测试数据 集,并应用决策树集成算法,基于训练数据集生成域名类别判定模型; s3、应用生成的域名类别判定模型对测试数据集中的剩余域名的域名类别进行判 定,并与剩余域名的实际类别进行比较,计算所述域名类别判定模型的预测性能指标; S4、对应用所述域名类别判定模型判定的域名类别进行校正; S5、基于校正后的域名类别,生成单个域名的统计结果。 较佳地,步骤&中对于单个域名,若访问次数大于一第一阈值,且访问的IP数量 小于一第二阈值,则将所述单个域名识别为C&C域名。 较佳地,步骤S5中还生成单个IP的统计结果。 较佳地,步骤S5中对于单个IP,若判断出访问C&C域名的数量大于一第三阈值,则 将所述单个IP识别为被网络入侵的IP。 较佳地,步骤S2中所述决策树集成算法为bagging算法。 较佳地,步骤Si中生成的量化指标包括域名中的拼音出现次数。 较佳地,步骤S4*进行校正的方式包括与黑白名单进行对照、对域名中包含的拼 音数目进行统计以及对域名中包含的字母和数字结合体的数目进行统计。 较佳地,所述预测性能指标包括正确率、精度及召回度。 本专利技术的积极进步效果在于:本专利技术可以准确地寻找到C&C域名,克服了现有模 型预测的低适用性和推广性、数据清洗需要投入较大人力和较长的时间以及对中国式域名 判断无效等缺点,增强了模型的强落地性、可行性和可理解性;本专利技术可以基于训练数据集 生成的决策树模型对日常访问的域名进行类别判别并进一步判断PC(个人计算机)客户端 是否被攻击,从而能够寻找到大量可疑域名和访问可疑域名的异常客户端,本专利技术的方法 计算量小、识别精度非常高、操作简单,能够节省人力物力资源。【附图说明】 图1为本专利技术的较佳实施例的基于域名特征的C&C域名识别方法的流程图。【具体实施方式】 下面通过实施例的方式进一步说明本专利技术,但并不因此将本专利技术限制在所述的实 施例范围之中。 如图1所示,本专利技术的基于域名特征的C&C域名识别方法包括以下步骤: 步骤101、基于可区分域名类别的定性特征,对给定的域名生成用于判定域名类别 的量化指标;生成的量化指标可以包括例如域名中的元音字母占比、域名中的拼音出现次 数等; 步骤102、从给定的域名中随机抽取部分域名进入训练数据集,剩余域名进入测试 数据集,并应用决策树集成算法bagging算法,基于训练数据集生成域名类别判定模型; 步骤103、应用生成的域名类别判定模型对测试数据集中的剩余域名的域名类别 进行判定,并与剩余域名的实际类别进行比较,计算所述域名类别判定模型的预测性能指 标;具体的预测性能指标包括正确率、精度及召回度等; 步骤104、对应用上述域名类别判定模型判定的域名类别进行校正,具体地,考虑 到中国式域名的特点,喜欢使用汉语拼音,但这类域名容易被误判为C&C域名,因此可以新 增字段detect_pinyin,用来识别域名是否包含拼音,这个字段大小是域名字符串包含的可 能拼音数目的加权平均值,还可以选择一个阈值来对误判的域名进行校正。对于一部分字 母和数字结合体的域名,容易发生域名类别误判情形,对此,可以新增字段isolate_num,用 于统计字母和数字结合体出现的次数,当其大于某阈值,认为域名为C&C域名。 步骤105、基于校正后的域名类别,生成基于单个域名和单个IP的相关统计结果。 对于单个域名,如果访问次数越多,同时访问的IP数目越少,则域名为C&C域名的可能性越 大;对于单个IP,如果访问可疑域名(C&C域名)的数量越多,则这个IP被网络入侵的可能 性越大; 因此,在本专利技术的具体实施过程中,对于单个域名,若判断出访问次数大于一第一 阈值,且访问的IP数量小于一第二阈值,则将所述单个域名识别为C&C域名;对于单个IP, 若判断出访问C&C域名的数量大于一第三阈值,则将所述单个IP识别为被网络入侵的IP; 而上述第一阈值、第二阈值和第三阈值则可以根据实际需要进行设定。 下面举一个利用本专利技术的C&C域名识别方法来预测某一天客户端访问的所有域 名的合法性并寻找相应的客户本文档来自技高网
...

【技术保护点】
一种基于域名特征的C&C域名识别方法,其特征在于,包括以下步骤:S1、基于域名的定性特征,对给定的域名生成用于判定域名类别的量化指标;S2、从给定的域名中随机抽取部分域名进入训练数据集,剩余域名进入测试数据集,并应用决策树集成算法,基于训练数据集生成域名类别判定模型;S3、应用生成的域名类别判定模型对测试数据集中的剩余域名的域名类别进行判定,并与剩余域名的实际类别进行比较,计算所述域名类别判定模型的预测性能指标;S4、对应用所述域名类别判定模型判定的域名类别进行校正;S5、基于校正后的域名类别,生成单个域名的统计结果。

【技术特征摘要】

【专利技术属性】
技术研发人员:唐力岳扶天周海燕
申请(专利权)人:携程计算机技术上海有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1