基于文件字符串聚类的划分同源家族和变种的方法及系统技术方案

技术编号:14547931 阅读:90 留言:0更新日期:2017-02-04 19:26
本发明专利技术提出了一种基于文件字符串聚类的划分同源家族和变种的方法及系统,本发明专利技术通过获取目标文件的dump文件及API调用记录文件,并提取其字符串和API及参数信息,形成向量文件,计算器simhash值,与家族特征向量库中的已知家族及家族变种的中心距离相比较,如果小于预设值,则所述目标文件属于对应家族或家族变种,否则为新增的家族或家族变种。通过本发明专利技术,能够对大批量的未知目标文件进行家族归类,并能进一步对其变种进行划分,同时其形成的家族向量特征库可以用来对样本的家族及其变种进行判别。

【技术实现步骤摘要】

本专利技术涉及网络安全领域,特别涉及一种基于文件字符串聚类的二级划分同源家族方法及系统。
技术介绍
随着网络和计算技术的快速发展,恶意代码的种类、传播速度、感染数量和影响范围都在逐渐增强,同时互联网的开发性也加快了恶意代码的传播,特别是人们可以直接从网站获得恶意代码源码或通过网络交流代码。因此,随着越来越多的恶意代码软件的开源代码和生成器在网络上公开发布,所以目前网络上流行的恶意代码及其变种层次不穷,种类繁多,特点多样化。那么,如何从这些众多的恶意代码样本中,获取其共性及差异,从而进一步来划分其同源家族及其变种演化关系,并形成检测规则来对抗恶意代码,保障网络安全。目前的病毒样本的生成方式主要分为生成器生成和源码编译生成。生成器能够对恶意代码的域名、IP、文件名、服务名、启动方式、版本等配置信息进行修改设定,这样生成的就是一个新的病毒样本,但实质上是属于一个家族,甚至同一个变种类型。而对源码的修改来截取器部分功能或增加其他功能,然后编译生成新的病毒样本,有可能是生成相同家族或变种,也可能是不同的家族。
技术实现思路
基于上述情况,本专利技术提出了一种基于文件字符串聚类的划分同源家族及变种的方法及系统,能够利用样本的同源关系及共性特征进行家族归类,并发现新的病毒家族,利用同家族变种样本的演化关系及差异特征,进行增量剧烈划分变种的类型。一种基于文件字符串聚类的划分同源家族及变种的方法,包括:对目标文件进行动态分析及静态分析,获取目标文件中的dump文件及API调用记录文件;提取所述dump文件中的指定字符串,形成字符串向量文件;计算所述字符串向量文件中向量的simhash值,并比较所述simhash值与家族特征向量库中各已知恶意代码家族中心值的距离,若距离小于预设值,则所述目标文件属于距离小于预设值的对应恶意代码家族,并进行下一步;否则所述目标文件为新的恶意代码家族,并将所述目标文件及其向量信息作为新的恶意代码家族添加到家族特征向量库中;提取所述目标文件的API调用记录文件中的API及其参数信息,形成API向量文件;计算所述API向量文件中API向量的simhash值,并比较所述simhash值与目标文件所属对应恶意代码家族中各已知家族变种中心值的距离,若距离小于预设值,则所述目标文件属于距离小于预设值的家族变种,并将所述目标文件及其向量信息添加到家族特征向量库中;否则所述目标文件为当前恶意代码家族的新家族变种,并将所述目标文件及其向量信息作为新家族变种,添加到家族特征向量库中。所述的方法中,所述的将所述目标文件及其向量信息作为新的恶意代码家族添加到家族特征向量库中,还包括:将所述目标文件的字符串向量文件中向量的simhash值为所述目标文件的中心值。所述的方法中,所述将所述目标文件及其向量信息作为新家族变种,添加到家族特征向量库中,还包括:将所述目标文件的API向量文件中API向量的simhash值为所述目标文件家族变种的中心值。一种基于文件字符串聚类的划分同源家族及变种的系统,包括:动静态分析模块,用于对目标文件进行动态分析及静态分析,获取目标文件中的dump文件及API调用记录文件;字符串向量提取模块,用于提取所述dump文件中的指定字符串,形成字符串向量文件;字符串向量比较模块,用于计算所述字符串向量文件中向量的simhash值,并比较所述simhash值与家族特征向量库中各已知恶意代码家族中心值的距离,若距离小于预设值,则所述目标文件属于距离小于预设值的对应恶意代码家族,并进行下一步;否则所述目标文件为新的恶意代码家族,并将所述目标文件及其向量信息作为新的恶意代码家族添加到家族特征向量库中;API向量提取模块,用于提取所述目标文件的API调用记录文件中的API及其参数信息,形成API向量文件;API向量比较模块,用于计算所述API向量文件中API向量的simhash值,并比较所述simhash值与目标文件所属对应恶意代码家族中各已知家族变种中心值的距离,若距离小于预设值,则所述目标文件属于距离小于预设值的家族变种,并将所述目标文件及其向量信息添加到家族特征向量库中;否则所述目标文件为当前恶意代码家族的新家族变种,并将所述目标文件及其向量信息作为新家族变种,添加到家族特征向量库中。所述的系统中,所述的将所述目标文件及其向量信息作为新的恶意代码家族添加到家族特征向量库中,还包括:将所述目标文件的字符串向量文件中向量的simhash值为所述目标文件的中心值。所述的系统中,所述的将所述目标文件及其向量信息作为新家族变种,添加到家族特征向量库中,还包括:将所述目标文件的API向量文件中API向量的simhash值为所述目标文件家族变种的中心值。本专利技术的优势在于,利用了家族样本的同源关系及共性特征进行家族归类,利用同家族变种样本的演化关系及差异特征,进行增量中心点聚类划分变种类型。本专利技术提出了一种基于文件字符串聚类的划分同源家族和变种的方法及系统,本专利技术通过获取目标文件的dump文件及API调用记录文件,并提取其字符串和API及参数信息,形成向量文件,计算器simhash值,与家族特征向量库中的已知家族及家族变种的中心距离相比较,如果小于预设值,则所述目标文件属于对应家族或家族变种,否则为新增的家族或家族变种。通过本专利技术,能够对大批量的未知目标文件进行家族归类,并能进一步对其变种进行划分,同时其形成的家族向量特征库可以用来对样本的家族及其变种进行判别。附图说明为了更清楚地说明本专利技术或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术基于文件字符串聚类的划分同源家族及变种方法的实施例流程图;图2为本专利技术基于文件字符串聚类的划分同源家族及变种系统的实施例示意图。具体实施方式为了使本
的人员更好地理解本专利技术实施例中的技术方案,并使本专利技术的上述目的、特征和优点能够更加明显易懂,下面结合附图对本专利技术中技术方案作进一步详细的说明。基于上述情况,本专利技术提出了一种基于文件字符串聚类的二级划分同源家族及变种的方法及系统,能够利用样本的同源关系及共性特征进行家族归类,并发现新的病毒家族,利用同家族变种样本的演化关系及差异特征,进行增量剧烈划分变种的类型。一种基于文件字符串聚类的划分同源家族及变种的方法,如图1所示,包括:S101:对目标文件进行动态分析及静态分析,获取目标文件中的dump文件及API调用记录文件;dump文件是病毒样本运行时的内存信息文件,病毒样本大多进行了加壳等加密保护,可以通过沙箱技术运行样本,获取dump文件;S102:提取所述dump文件中的指定字符串,形成字符串向量文件;S103:计算所述字符串向量文件中向量的simha本文档来自技高网
...
基于文件字符串聚类的划分同源家族和变种的方法及系统

【技术保护点】
一种基于文件字符串聚类的划分同源家族和变种的方法,其特征在于,包括:对目标文件进行动态分析及静态分析,获取目标文件中的dump文件及API调用记录文件;提取所述dump文件中的指定字符串,形成字符串向量文件;计算所述字符串向量文件中向量的simhash值,并比较所述simhash值与家族特征向量库中各已知恶意代码家族中心值的距离,若距离小于预设值,则所述目标文件属于距离小于预设值的对应恶意代码家族,并进行下一步;否则所述目标文件为新的恶意代码家族,并将所述目标文件及其向量信息作为新的恶意代码家族添加到家族特征向量库中;提取所述目标文件的API调用记录文件中的API及其参数信息,形成API向量文件;计算所述API向量文件中API向量的simhash值,并比较所述simhash值与目标文件所属对应恶意代码家族中各已知家族变种中心值的距离,若距离小于预设值,则所述目标文件属于距离小于预设值的对应家族变种;否则所述目标文件为当前恶意代码家族的新家族变种,并将所述目标文件及其向量信息作为新家族变种,添加到家族特征向量库中。

【技术特征摘要】
1.一种基于文件字符串聚类的划分同源家族和变种的方法,其特征在于,包括:
对目标文件进行动态分析及静态分析,获取目标文件中的dump文件及API调用记录文件;
提取所述dump文件中的指定字符串,形成字符串向量文件;
计算所述字符串向量文件中向量的simhash值,并比较所述simhash值与家族特征向量库中各已知恶意代码家族中心值的距离,若距离小于预设值,则所述目标文件属于距离小于预设值的对应恶意代码家族,并进行下一步;否则所述目标文件为新的恶意代码家族,并将所述目标文件及其向量信息作为新的恶意代码家族添加到家族特征向量库中;
提取所述目标文件的API调用记录文件中的API及其参数信息,形成API向量文件;
计算所述API向量文件中API向量的simhash值,并比较所述simhash值与目标文件所属对应恶意代码家族中各已知家族变种中心值的距离,若距离小于预设值,则所述目标文件属于距离小于预设值的对应家族变种;否则所述目标文件为当前恶意代码家族的新家族变种,并将所述目标文件及其向量信息作为新家族变种,添加到家族特征向量库中。
2.如权利要求1所述的方法,其特征在于,所述的将所述目标文件及其向量信息作为新的恶意代码家族添加到家族特征向量库中,还包括:将所述目标文件的字符串向量文件中向量的simhash值作为所述目标文件的中心值。
3.如权利要求1所述的方法,其特征在于,所述的将所述目标文件及其向量信息作为新家族变种,添加到家族特征向量库中,还包括:将所述目标文件的API向量文件中API向量的simhash值作为所述目标文件家族变种的中心值。
4.一种基于文件字符串聚类的划分同源家族和变种的系统,其特征...

【专利技术属性】
技术研发人员:董建武康学斌肖新光
申请(专利权)人:哈尔滨安天科技股份有限公司
类型:发明
国别省市:黑龙江;23

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1