一种恶意样本的深度溯源方法技术

技术编号:20394842 阅读:33 留言:0更新日期:2019-02-20 04:55
本发明专利技术公开了一种恶意样本的深度溯源方法,所述方法包括:分别从样本中提取样本的基础元数据、静态特征数据、动态特征数据及基本研判结果数据;对上述提取的多种数据进行汇聚处理;综合汇聚的多种数据,基于运营商大数据体系对黑产溯源进行定位,基于运营商多维度互联网爬虫对域名和邮箱进行递归溯源;将获取的所有数据特征,进行大数据关联分析,找出存在于数据集合或对象集合之间的结构关联关系;基于不同的数据属性进行建模画像。本发明专利技术解决了现有技术无法对黑产线索深入挖掘不足,难以从源头上解决恶意软件的黑产问题。

【技术实现步骤摘要】
一种恶意样本的深度溯源方法
本专利技术属于网络安全及互联网大数据领域,更具体来说,涉及一种恶意样本的深度溯源方法。
技术介绍
目前已知的APP研判技术,一方面是通过研究恶意软件扫描方法提取恶意软件的SH1、敏感字、软件包名、字节码、资源名、网络字符串等APP的多维度特征,利用静态扫描引擎对手机文件格式的全量解包对每个文件进行十六进制级别的快速特征定位的静态引擎研判;另一方面是通过传统的动态沙箱技术,通过插桩Hook需要检测的关键点,在关键点调用时,通过钩子进行日志输出后返回系统原代码流程进行动态研判。现有技术主要是围绕样本的黑白研判为导向,而没有做到基于样本的深度威胁溯源,当前基于样本的黑白研判,但对其背后所隐藏的黑色产业链特点却把握不足,对黑产的定位,分类和取证溯源能力欠缺。对发现的黑产线索深入挖掘不足,难以从源头上解决恶意软件的黑产问题。
技术实现思路
本专利技术所要解决的问题就是,基于样本的深度威胁溯源,对其背后所隐藏的黑产特点进行分析,对传播使用病毒的黑产的重点人群、重点病毒的进行定位,分类和取证溯源,从恶意样本的根源解决问题。为解决上述技术问题,本专利技术所采用的技术方案如下:一种恶意样本的深度溯源方法,所述方法包括:步骤S1、分别从样本中提取样本的基础元数据、静态特征数据、动态特征数据及基本研判结果数据;步骤S2、对上述提取的多种数据进行汇聚处理;步骤S3、综合汇聚的多种数据,基于运营商大数据体系对黑产溯源进行定位,基于运营商多维度互联网爬虫对域名和邮箱进行递归溯源;步骤S4:综上步骤S3中获取的所有数据特征,进行大数据关联分析,找出存在于数据集合或对象集合之间的结构关联关系;步骤S5:基于不同的数据属性进行建模画像。进一步地,在所述步骤S1中,样本的基础元数据包含:样本下载时间戳、下载URL地址、下载域名、IP地址、下载用户的位置信息;样本的静态特征数据通过静态引擎获取,所述静态特征数据包含:样本MD5、样本的代码结构、样本类名、包名、签名证书、证书MD5、是否加壳;样本的动态特征数据通过定制版ROM的动态沙箱获取,所述动态特征数据包含:样本的远控URL,远控URL域名,远控号码,发送邮箱账户,发送邮箱密码,接收邮箱账户。进一步地,在所述步骤S1中,所述样本的基本研判结果数据通过广谱特征检测和启发式检测两种途径获取,其中,所述广谱特征检测方法包括:针对已知病毒,对APP多维度扫描,扫描内容包含签名指纹扫描、字符串特征扫描、多层子包文件特征扫描、应用安装名称特征扫描、签名证书特征扫描;所述启发式检测方法包括:针对未知恶意程序,将语音识别模型与随机森林算法相结合,综和APK文件多类特征统一建立N-gram模型,并应用随机森林算法,输出启发式规则并予以赋值。进一步地,基于运营商大数据体系对黑产溯源进行定位的方法具体包括:从汇聚的样本数据中,提取用户的远控手机号码、下载URL地址及域名、邮箱信息、上网日志多个特征,追溯恶意软件发布源头并定位该发布用户;对黑手机号码进行监控,通过移动话单和/或核心网流量分析获取其位置信息、互联网账号信息和基本行为。进一步地,基于运营商多维度互联网爬虫对域名和邮箱进行递归溯源的方法具体包括:通过whois查询来查询域名是否已经被注册,以及注册域名的详细信息的数据库,通过DNS查询实现归属地的查询;通过邮箱账户信息来溯源注册商、联系人、联系方式、新域名信息。进一步地,所述步骤S4具体包括:综上步骤S3中获取的所有数据特征,进行大数据进行关联性或相关性分析,查找存在于数据集合或对象集合之间的频繁模式、关联、相关性或因果结构;通过ID-Mapping的方法来溯源和发现待启用的恶意域名和恶意程序开发者。进一步地,在所述步骤S5中,基于不同的数据属性进行建模画像的方法具体包括:根据下面数据属性进行建模画像:样本的家族信息:同家族病毒样本情况;样本的恶意属性:高危/中危/低危情况;样本的开发环境、传播时间;样本中黑产线索信息:电话,邮件,域名;样本中黑产身份信息:姓名,地理位置,网络虚拟账号;黑产其他产业情况:公司信息,名下其他黑白域名,其他域名属性和注册时间,其他黑白域名的用户访问统计。进一步地,基于运营商大数据体系对黑产溯源进行定位的方法具体还包括:通过BOSS运营商信息系统获取使用者真实身份,通过各地省公司网联系统协助获取机主真实姓名。与现有技术相比,本专利技术所述的恶意样本的深度溯源方法,达到了如下技术效果:1、本专利技术是基于同一个程序在不同数据源中进行多维度综合关联的方法,其先对样本进行基础研判,再基于运营商多维度互联网爬虫深度挖掘分析技术和基于运营商大数据体系黑产溯源精准定位技术对样本进行深度溯源,最后将样本多种数据威胁情报信息进行精准画像,定位黑产源头,彻底打击恶意样本产业链。2、本专利技术的静态扫描增加了广谱特征检测方法,增加对APP多维度特征的扫描,包含签名指纹扫描、字符串特征扫描、多层子包文件特征扫描、应用安装名称特征扫描、签名证书特征扫描等功能,使得扫描范围更全面,提取特征更全面,检测更精确。3、动态引擎方式是采用定制动态沙箱通过对Android核心源码的修改,分别在Framework、Libraries、Runtime、Linuxkernel层加入检测代码,编译成完成的系统固件,实现了具有行为检测功能的原生系统。由于所有功能已编译在系统固件中,不需要后期注入。所以在沙箱的稳定性和效率方面有了很大的提高。并且通过对不同层级的代码修改,实现了更加广泛的检测点覆盖。附图说明图1为本专利技术实施例所述的恶意样本的深度溯源方法的流程示意图;图2为本专利技术实施例中的域名地址递归溯源示意图;图3为本专利技术实施例中的邮箱账户递归溯源示意图。具体实施方式以下结合附图对本专利技术作进一步详细说明,但不作为对本专利技术的限定。本专利技术所解决的问题是基于样本的深度威胁溯源,对其背后所隐藏的黑产特点进行分析,对传播使用病毒的黑产的重点人群、重点病毒的进行定位,分类和取证溯源,从恶意样本的根源解决问题。参照图1所示,本专利技术实施例所公开的一种恶意样本的深度溯源方法,所述方法包括:步骤S1、分别从样本中提取样本的基础元数据、静态特征数据、动态特征数据及基本研判结果数据;步骤S2、对上述提取的多种数据进行汇聚处理;步骤S3、综合汇聚的多种数据,基于运营商大数据体系对黑产溯源进行定位,基于运营商多维度互联网爬虫对域名和邮箱进行递归溯源;步骤S4:综上步骤S3中获取的所有数据特征,进行大数据关联分析,找出存在于数据集合或对象集合之间的结构关联关系;步骤S5:基于不同的数据属性进行建模画像。本专利技术是基于同一个程序在不同数据源中进行多维度综合关联画像,进而对恶意程序进行溯源的分析方法,该方法首先是对样本进行基础研判,然后再基于运营商多维度互联网爬虫深度挖掘分析技术和基于运营商大数据体系黑产溯源精准定位技术对样本进行深度溯源,最后将样本中的多种数据威胁情报信息进行画像。通过对样本的行为进行多种数据源多维度综合关联分析后,获得手机恶意软件是谁开发的、什么时间、通过什么方式、获取了什么、具体人在哪里情报信息,根据这些信息进行建模画像,定位黑产源头,彻底打击恶意样本产业链。具体来说,在步骤S1中,从样本中采用多种方式提取样本的不同的本文档来自技高网...

【技术保护点】
1.一种恶意样本的深度溯源方法,其特征在于,所述方法包括:步骤S1、分别从样本中提取样本的基础元数据、静态特征数据、动态特征数据及基本研判结果数据;步骤S2、对上述提取的多种数据进行汇聚处理;步骤S3、综合汇聚的多种数据,基于运营商大数据体系对黑产溯源进行定位,基于运营商多维度互联网爬虫对域名和邮箱进行递归溯源;步骤S4:综上步骤S3中获取的所有数据特征,进行大数据关联分析,找出存在于数据集合或对象集合之间的结构关联关系;步骤S5:基于不同的数据属性进行建模画像。

【技术特征摘要】
1.一种恶意样本的深度溯源方法,其特征在于,所述方法包括:步骤S1、分别从样本中提取样本的基础元数据、静态特征数据、动态特征数据及基本研判结果数据;步骤S2、对上述提取的多种数据进行汇聚处理;步骤S3、综合汇聚的多种数据,基于运营商大数据体系对黑产溯源进行定位,基于运营商多维度互联网爬虫对域名和邮箱进行递归溯源;步骤S4:综上步骤S3中获取的所有数据特征,进行大数据关联分析,找出存在于数据集合或对象集合之间的结构关联关系;步骤S5:基于不同的数据属性进行建模画像。2.如权利要求1所述的恶意样本的深度溯源方法,其特征在于,在所述步骤S1中,样本的基础元数据包含:样本下载时间戳、下载URL地址、下载域名、IP地址、下载用户的位置信息;样本的静态特征数据通过静态引擎获取,所述静态特征数据包含:样本MD5、样本的代码结构、样本类名、包名、签名证书、证书MD5、是否加壳;样本的动态特征数据通过定制版ROM的动态沙箱获取,所述动态特征数据包含:样本的远控URL,远控URL域名,远控号码,发送邮箱账户,发送邮箱密码,接收邮箱账户。3.如权利要求1所述的恶意样本的深度溯源方法,其特征在于,在所述步骤S1中,所述样本的基本研判结果数据通过广谱特征检测和启发式检测两种途径获取,其中,所述广谱特征检测方法包括:针对已知病毒,对APP多维度扫描,扫描内容包含签名指纹扫描、字符串特征扫描、多层子包文件特征扫描、应用安装名称特征扫描、签名证书特征扫描;所述启发式检测方法包括:针对未知恶意程序,将语音识别模型与随机森林算法相结合,综和APK文件多类特征统一建立N-gram模型,并应用随机森林算法,输出启发式规则并予以赋值。4.如权利要求1所述的恶意样本的深度溯源方法,其特征在于,基于运营商大数据...

【专利技术属性】
技术研发人员:何庆邓晓东许敬伟林满佳李冠道宋岍龙杨键涛何文杰黄晓青蒋敬超金红杨满智刘长永
申请(专利权)人:中国移动通信集团广东有限公司恒安嘉新北京科技股份公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1