基于散列码集合检测有害脚本的系统和方法技术方案

技术编号:38865442 阅读:11 留言:0更新日期:2023-09-22 14:05
本发明专利技术涉及基于散列码集合检测有害脚本的系统和方法。在一个方面,示例性方法包括:识别包含脚本的文件,其中,通过分析多个文件中的每个文件中的有害脚本的存在来执行所述文件的识别;基于识别的所述文件生成脚本概要;计算生成的所述脚本概要的静态参数和动态参数;使用至少一个语言识别规则,基于为生成的所述脚本概要计算的静态参数和动态参数识别脚本编程语言;基于关于识别的所述脚本编程语言的数据处理识别的所述文件;使用用于生成散列码的规则,基于处理后的所述文件生成散列码集合;以及当生成的所述散列码集合与已知的有害散列码集合类似时检测所述有害脚本。害散列码集合类似时检测所述有害脚本。害散列码集合类似时检测所述有害脚本。

【技术实现步骤摘要】
基于散列码集合检测有害脚本的系统和方法


[0001]本专利技术涉及数据安全领域,更具体地,涉及检测有害脚本的系统和方法。

技术介绍

[0002]用户和企业的数量及其目标和活动的种类不断增加。正在创建的网站和网页数量同时增加。
[0003]网页是访问互联网上的信息的最简单工具,创建网页需要使用计算机系统的资源。这些资源通常借助在脚本编程语言(PHP、JavaScript、Python、Ruby等)来使用。
[0004]脚本(或场景)是指用各种可解释的编程语言编写的程序代码。所有脚本都借助外部解释器程序来执行。与可执行文件不同,大多数脚本以文本文件的形式存在,并且可以被人类读取。有害脚本通常分为两种类型。第一类型的有害脚本包括嵌入网页代码中的脚本。这种类型的有害代码由浏览器解释并执行恶意方插入的动作。第二类型的有害脚本包括被设计用于在用户的计算机上启动的脚本。第二类型的有害脚本由操作系统的组件执行,并且可以访问API(文件系统、进程等)。
[0005]有许多检测有害脚本的方法。一种方法是详细分析网页文件的文本。已知的方法可以实现对有害脚本的部分检测,但不能有效解决检测通过嵌入网页以外的方法传输的被删节和部分损坏的有害脚本的问题。
[0006]因此,需要一种检测有害脚本的方法和系统。

技术实现思路

[0007]本专利技术的各方面涉及基于散列码集合检测有害脚本。
[0008]在一个示例性方面,提供了一种基于散列码集合检测有害脚本的方法,所述方法包括:识别包含脚本的文件,其中,通过分析多个文件中的每个文件中的有害脚本的存在来执行所述文件的识别;基于识别的所述文件生成脚本概要;计算生成的所述脚本概要的静态参数和动态参数;使用至少一个语言识别规则,基于为生成的所述脚本概要计算的静态参数和动态参数识别脚本编程语言;基于关于识别的所述脚本编程语言的数据处理识别的所述文件;使用用于生成散列码的规则,基于处理后的所述文件生成散列码集合;以及当生成的所述散列码集合与已知的有害散列码集合类似时检测所述有害脚本。
[0009]在一个方面,使用启发式算法来执行所述多个文件中的每个文件中的有害脚本的存在的分析,该启发式算法被创建用于:搜索不可能存在有害脚本的结构化类型的文件,并从所述多个文件中排除找到的所述结构化类型的文件。
[0010]在一个方面,通过将有效字节集合和排除字节集合从识别的所述文件中分离,来生成所述脚本概要。
[0011]在一个方面,通过使用至少一个过滤算法过滤识别的所述文件,来将所述有效字节集合从识别的所述文件中分离。
[0012]在一个方面,通过从识别的所述文件中移除所述有效字节集合来获得所述排除字
节集合。
[0013]在一个方面,所述至少一个语言识别规则包括至少一个决策树的操作结果集合,其中,所述至少一个决策树的结果的存在用于指示已检测到以特定编程语言编写的脚本。
[0014]在一个方面,处理识别的所述文件包括:移除ASCII表中的除可见符号外的所有符号,移除换行符号和空格符号以及Unicode表中的符号;移除包含注释的行以及表征识别的所述编程语言的各个标记行;将文本转换为小写;以及指示表征识别的所述编程语言的行常量的开始和结束。
[0015]在一个方面,通过以下生成所述散列码集合:将处理后的所述文件划分为包含长度为4到10个符号的符号组合的结构;计算处理后的所述文件中所有检测到的结构的出现次数;使用散列码生成规则确定使用的散列码的类型;以及从指定类型的散列码生成所述散列码集合。
[0016]在一个方面,所述散列码生成规则包括条件集合,其中,当满足所述条件集合时,使用指定类型的散列码。
[0017]在一个方面,生成的所述脚本概要的静态参数包括以下中的至少一者:基于有效字节集合和注释出现次数计算的特征列表、包含符号表达式的行、以及包含已知脚本编程语言的表达式的结构。
[0018]在一个方面,生成的所述脚本概要的动态参数至少包括基于有效字节集合中每种类型的包含表征每种编程语言的符号组合的结构的出现次数计算的特征列表。
[0019]根据本专利技术的一个方面,提供了一种基于散列码集合检测有害脚本的系统,所述系统包括硬件处理器,所述硬件处理器被配置为:识别包含脚本的文件,其中,通过分析多个文件中的每个文件中的有害脚本的存在来执行所述文件的识别;基于识别的所述文件生成脚本概要;计算生成的所述脚本概要的静态参数和动态参数;使用至少一个语言识别规则,基于为生成的所述脚本概要计算的静态参数和动态参数识别脚本编程语言;基于关于识别的所述脚本编程语言的数据处理识别的所述文件;使用用于生成散列码的规则,基于处理后的所述文件生成散列码集合;以及当生成的所述散列码集合与已知的有害散列码集合类似时检测所述有害脚本。
[0020]在一个示例性方面,提供了一种非暂时性计算机可读介质,所述非暂时性计算机可读介质上存储基于散列码集合检测有害脚本的一组指令,其中,所述一组指令包括用于以下操作的指令:识别包含脚本的文件,其中,通过分析多个文件中的每个文件中的有害脚本的存在来执行所述文件的识别;基于识别的所述文件生成脚本概要;计算生成的所述脚本概要的静态参数和动态参数;使用至少一个语言识别规则,基于为生成的所述脚本概要计算的静态参数和动态参数识别脚本编程语言;基于关于识别的所述脚本编程语言的数据处理识别的所述文件;使用用于生成散列码的规则,基于处理后的所述文件生成散列码集合;以及当生成的所述散列码集合与已知的有害散列码集合类似时检测所述有害脚本。
[0021]本专利技术的方法和系统被设计用于通过以下来识别用特定编程语言编写的有害脚本或有害脚本的部分:检测包含脚本的文件;使用语言识别规则识别脚本语言;生成检测到的脚本的散列码集合;以及将脚本的所述散列码集合与有害脚本的已知散列码集合进行比较以识别有害脚本。
附图说明
[0022]并入本说明书中并构成本说明书的一部分的附图示出了本专利技术的一个或多个示例方面,以及连同具体实施方式一起用来解释这些示例方面的原理和实现方式。
[0023]图1示出了包含脚本源代码的文件的示例。
[0024]图2示出了根据本专利技术的各方面的基于散列码集合检测有害脚本的示例性系统的框图。
[0025]图3示出了根据本专利技术的各方面的基于散列码集合检测有害脚本的方法。
[0026]图4呈现了在其上可以实现本专利技术的各个方面的通用计算机系统的示例。
具体实施方式
[0027]本文在根据本专利技术的各方面的基于散列码集合检测有害脚本的系统、方法和计算机程序的上下文中描述各示例性方面。本领域普通技术人员将意识到,以下的描述仅仅是说明性的,而不意图以任何方式进行限制。了解本专利技术的优点的本领域技术人员将很容易想到其他方面。现在将详细地参考如附图中所示的示例性方面的实现方式。贯穿附图和以下描述将尽可能地使用相同的附图标记来指代相同或相似的项。
[0028]提供以下术语和概念以清楚地呈现本本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于散列码集合检测有害脚本的方法,所述方法包括:识别包含脚本的文件,其中,通过分析多个文件中的每个文件中的有害脚本的存在来执行所述文件的识别;基于识别的所述文件生成脚本概要;计算生成的所述脚本概要的静态参数和动态参数;使用至少一个语言识别规则,基于为生成的所述脚本概要计算的所述静态参数和所述动态参数识别脚本编程语言;基于关于识别的所述脚本编程语言的数据处理识别的所述文件;使用用于生成散列码的规则,基于处理后的所述文件生成散列码集合;以及当生成的所述散列码集合与已知的有害散列码集合类似时检测所述有害脚本。2.如权利要求1所述的方法,其中,使用启发式算法来执行所述多个文件中的每个文件中的有害脚本的存在的分析,所述启发式算法被创建用于:搜索不可能存在有害脚本的结构化类型的文件;以及从所述多个文件中排除找到的所述结构化类型的文件。3.如权利要求1所述的方法,其中,通过将有效字节集合和排除字节集合从识别的所述文件中分离,来生成所述脚本概要。4.如权利要求3所述的方法,其中,通过使用至少一个过滤算法过滤识别的所述文件,来将所述有效字节集合从识别的所述文件中分离。5.如权利要求4所述的方法,其中,通过从识别的所述文件中移除所述有效字节集合来获得所述排除字节集合。6.如权利要求1所述的方法,其中,所述至少一个语言识别规则包括至少一个决策树的操作结果集合,其中,所述至少一个决策树的结果的存在用于指示已检测到以特定编程语言编写的脚本。7.如权利要求1所述的方法,其中,处理识别的所述文件包括:移除ASCII表中的除可见符号外的所有符号,移除换行符号和空格符号以及Unicode表中的符号;移除包含注释的行以及表征识别的所述编程语言的各个标记行;将文本转换为小写;以及指示表征识别的所述编程语言的行常量的开始和结束。8.如权利要求1所述的方法,其中,通过以下生成所述散列码集合:将处理后的所述文件划分为包含长度为4到10个符号的符号组合的结构;计算处理后的所述文件中所有检测到的结构的出现次数;使用散列码生成规则确定使用的散列码的类型;以及从指定类型的散列码生成所述散列码集合。9.如权利要求1所述的方法,其中,所述散列码生成规则包括条件集合,其中,当满足所述条件集合时,使用指定类型的散列码。10.如权利要求1所述的方法,其中,生成的所述脚本概要的静态参数包括以下中的至少一者:基于有效字节集合和注释出现次数计算的特征列表、包含符号表达式的行、以及包含已知脚本编程语言的表达式的结构。
11.如权利要求1所述的方法,其中,生成的所述脚本概要的动态参数至少包括基于有效字节集合中每种类型的包含表征每种编程语言的符号组合的结构的出现次数计算的特征列表。12.一种基于散列码集合检测有害脚本的系统,所述系统包括:至少一个处理器,所述至少一个处理器被配置为:识别包含脚本的文件,其中,通...

【专利技术属性】
技术研发人员:A
申请(专利权)人:卡巴斯基实验室股份制公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1