一种基于布谷鸟过滤器的文件信誉检测方法技术

技术编号:37365413 阅读:21 留言:0更新日期:2023-04-27 07:12
本发明专利技术属于网络安全技术领域,特别是涉及一种基于布谷鸟过滤器的文件信誉检测方法。本发明专利技术通过两个分别作为文件信誉黑名单与白名单的布谷鸟过滤器A与布谷鸟过滤器B,对已知的文件Hash样本有极高的检验效率,并且当存在未知的和已知具有恶意的文件时,可以通过文件信誉信息库,验证恶意情报与查询其恶意的具体信息。因此相较于传统直接查询文件信誉信息库的方式,本发明专利技术减少系统的全量检索次数,有更好的查询性能表现。同时本质上依然会通过文件信誉信息库查询恶意的具体信息,因此可以确保文件信誉情报的时效性与全面性。件信誉情报的时效性与全面性。件信誉情报的时效性与全面性。

【技术实现步骤摘要】
一种基于布谷鸟过滤器的文件信誉检测方法


[0001]本专利技术属于网络安全
,特别是涉及一种基于布谷鸟过滤器的文件信誉检测方法。

技术介绍

[0002]随着互联网、移动互联网的发展,网络已经以前所未有的速度与规模,深入融入了各个领域。与此同时,网络犯罪、网络病毒攻击、恶意文件传播的手段层出不穷。随着网络在各领域的深入,对网络安全和网络威胁态势感知,提出了更高的要求。而在保障网络安全的
中,其中一个重要方面,便是对网络传输的文件的进行信誉检测,识别出对计算机系统有害的恶意文件,并进行处置与可视化态势呈现。
[0003]如中国专利技术专利CN202110885076.7公开了SFAD布谷鸟过滤器及基于SFAD布谷鸟过滤器重复数据删除方法,其中,所述SFAD布谷鸟过滤器将SFA布谷鸟过滤器通过双向链表连接起来形成,所述SFAD布谷鸟过滤器包括多个单元SFACF,所述单元SFACF包括平行设置的第一个单元CF指针及第二个单元CF指针。其包括步骤:S11、SFAD布谷鸟过滤器计算元素的指纹及其所有候选bucket位置;S12、获取尾指针指向的SFA布谷鸟过滤器,如此SFA布谷鸟过滤器的容量大于预先设定的阈值,则插入算法将在双向链表上插入一个参数与所述SFA布谷鸟过滤器完全相同的SFA布谷鸟过滤器,并且将尾指针移至插入的新SFA布谷鸟过滤器的位置;S13、在尾SFA布谷鸟过滤器中进行元素插入,如插入成功,则反馈插入操作完成,如插入不成功,则执行下一步骤;S14、在双向链表上插入一个参数与所述SFA布谷鸟过滤器完全相同的SFA布谷鸟过滤器,并且将尾指针移至新插入SFA布谷鸟过滤器的位置,并且返回步骤S13。
[0004]上述专利技术专利重点是在重复数据删除方面,但传统的针对网络流量分析的产品中,其对文件信誉检测的方法主要是通过计算文件的全文Hash值,通过Hash值与文件信誉信息库的匹配来检测文件是否具有安全威胁。但若直接将文件Hash值与文件信誉信息库进行匹配,在大数据的情况下存在大量请求的重复查询的相同Hash值的情况,造成对底层数据存储系统或应用服务造成大量的访问压力,不仅影响响应效率甚至造成底层系统的不堪重负,不适合对互联网流量分析的大数据处理场景。

技术实现思路

[0005]基于此,针对传统的文件信誉检测所存在的直接检索查询效率不高的问题,本专利技术的目的在于提供一种基于布谷鸟过滤器的文件信誉检测方法,是大幅提高文件信誉信息库检索效率的文件信誉检测方法。并对输出的结果,与其他业务数据进行分析整合,形成面向客户的网络安全态势感知系统。
[0006]本专利技术的技术方案是:本专利技术是一种针对网络流量中文件传输日志的Hash值信息进行信誉检测的方法。
[0007]网络流量文件传输日志的文件Hash值主要通过部署在企业路由器、安全网关、运
营商流量出口端设备的流量采集探针所采集和转换得到。本产品的大数据处理引擎会对各终端采集到的数据,根据其来源的数据格式,相应地进行清洗、转化、丰富、数据治理等预处理,再进入安全智能分析模块进行威胁检测。
[0008]经过数据采集、预处理后的数据,将接入安全智能分析模块,在此模块中,利用大数据流处理技术(Spark、flink等)对海量文件传输流量日志中的文件Hash值样本(下文称“样本”)进行文件信誉检测与分析。而本专利技术利用布谷鸟过滤器对待检验的样本进行先验判断,结合文件信誉信息库,实现快速的文件信誉判断与文件恶意信息输出。
[0009]需要说明的是,文件信誉信息库,包含但不限于缓存、数据库、搜索引擎、云API等实现方式。
[0010]具体的,一种基于布谷鸟过滤器的文件信誉检测方法,具体实现步骤,包括以下步骤:
[0011]步骤S1.创建两个布谷鸟过滤器(以下简称“过滤器”),过滤器A与过滤器B;
[0012]步骤S2.对文件的Hash值使用过滤器A查询该样本是否在黑名单内;
[0013]步骤S3.若过滤器A查询结果为命中,则说明该样本在信誉黑名单内或有出现小概率的假阳性,此时将该样本在文件信誉信息库中检索具体的恶意情报;
[0014]步骤S4.若过滤器A查询结果为未命中,则说明该Hash值未记录在文件信誉黑名单内;此时使用布谷鸟过滤器B查询该样本是否在白名单内;
[0015]步骤S5.若过滤器B查询结果为命中,则说明该样本命中白名单,即曾经在文件信誉信息库中查询过并且查询结果为无恶意,结束当前流程;
[0016]步骤S6.若过滤器B查询结果为未命中,则说明该样本在过滤器A和B均无记录,很可能是首次出现的样本,则将该样本在文件信誉信息库中检索出具体的信誉情报;
[0017]步骤S7.若样本在文件信誉信息库中查询结果为有恶意,则将该样本插入在黑名单过滤器内,随后流程结束;
[0018]若样本在文件信誉信息库中查询结果为无恶意,则说明样本是安全的,将该样本插入在白名单过滤器内,随后流程结束。
[0019]至此,以上步骤实现对文件Hash样本的信誉检测。
[0020]在一种实施方式中,所述的步骤S1中,过滤器A:文件信誉黑名单,用于存储文件Hash检测为恶意文件的Hash值;
[0021]过滤器B:文件信誉白名单,用于存储文件Hash检测为非恶意文件的Hash值。
[0022]再进一步的,所述的步骤S4中,若过滤器A查询结果为未命中,则说明该Hash值未记录在文件信誉黑名单内,存在两种情况:第一是无恶意的文件,第二是布谷鸟过滤器未收录的文件。
[0023]具体的,所述的步骤S7中,若样本在文件信誉信息库中查询结果为有恶意,则将该样本插入在黑名单过滤器内,随后流程结束;后续将结合样本相关的五元组信息、文件信誉情报云API返回的恶意具体信息以及其他业务数据,进入下一阶段的分析处理,最终形成各种主题的安全数据。
[0024]进一步的,所述的安全数据为风险主机信息、安全事件信息、资产风险信息。
[0025]进一步的,所述的Hash值通过部署在企业路由器、安全网关、运营商流量出口端设备的流量采集探针所采集和转换得到。
[0026]进一步的,所述的文件信誉信息库包含但不限于缓存、数据库、搜索引擎、云API的实现方式。
[0027]具体的,所述的每个过滤器均采用4比特指纹位与两个Hash函数。
[0028]本专利技术的有益效果如下:
[0029]本专利技术通过两个分别作为文件信誉黑名单与白名单的布谷鸟过滤器A与布谷鸟过滤器B,对已知的文件Hash样本有极高的检验效率,并且当存在未知的和已知具有恶意的文件时,可以通过文件信誉信息库,验证恶意情报与查询其恶意的具体信息。因此相较于传统直接查询文件信誉信息库的方式,本专利技术减少系统的全量检索次数,有更好的查询性能表现。同时本质上依然会通过文件信誉信息库查询恶意的具体信息,因此可以确保文件信誉情报的时效性与全面性。
[0030]为了更好地理解和实施,下面结合附图详细说明本专利技术。
附本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于布谷鸟过滤器的文件信誉检测方法,其特征在于,包括以下步骤:步骤S1.创建两个布谷鸟过滤器,过滤器A与过滤器B;步骤S2.对文件的Hash值使用过滤器A查询该样本是否在黑名单内;步骤S3.若过滤器A查询结果为命中,则说明该样本在信誉黑名单内或有出现小概率的假阳性,此时将该样本在文件信誉信息库中检索具体的恶意情报;步骤S4.若过滤器A查询结果为未命中,则说明该Hash值未记录在文件信誉黑名单内;此时使用布谷鸟过滤器B查询该样本是否在白名单内;步骤S5.若过滤器B查询结果为命中,则说明该样本命中白名单,即曾经在文件信誉信息库中查询过并且查询结果为无恶意,结束当前流程;步骤S6.若过滤器B查询结果为未命中,则说明该样本在过滤器A和B均无记录,很可能是首次出现的样本,则将该样本在文件信誉信息库中检索出具体的信誉情报;步骤S7.若样本在文件信誉信息库中查询结果为有恶意,则将该样本插入在黑名单过滤器内,随后流程结束;若样本在文件信誉信息库中查询结果为无恶意,则说明样本是安全的,将该样本插入在白名单过滤器内,随后流程结束。2.根据权利要求1所述的一种基于布谷鸟过滤器的文件信誉检测方法,其特征在于,所述的步骤S1中,过滤器A:文件信誉黑名单,用于存储文件Hash检测为恶意文件的Hash值;过滤器B:文件信誉白名单,用于存储文件Hash检测为非恶意文件的Ha...

【专利技术属性】
技术研发人员:王模勇余松明刘鸿顺鲁业泽罗开达
申请(专利权)人:广东亿迅科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1