一种前端界面的动态语言反混淆特征提取方法及提取系统技术方案

技术编号:37177946 阅读:11 留言:0更新日期:2023-04-20 22:45
本发明专利技术公开了一种前端界面的动态语言反混淆特征提取方法及提取系统,包括步骤1、逐个字符提取脚本信息中的二元语句,并将二元语句的字符转换为标准代码语言的编码字符;步骤2、建立一个横坐标与纵坐标均包含全部标准代码语言的二维矩阵,根据编码字符将二元语句填入二维矩阵内;步骤3、根据二元语句的坐标值将出现频次填入二维矩阵内;步骤4、对二维矩阵进行归一化处理,得到特征矩阵。本发明专利技术一种前端界面的动态语言反混淆特征提取方法及提取系统,其结合标准编码信息将无限的自然语言转换为有限的标准编码信息,并建立二维矩阵,再将二维矩阵由字符型矩阵转换为数值型矩阵,便于简化矩阵特征,最终得到一个可由智能端学习的简易的特征矩阵。易的特征矩阵。易的特征矩阵。

【技术实现步骤摘要】
一种前端界面的动态语言反混淆特征提取方法及提取系统


[0001]本专利技术实施例涉及信息处理
,具体涉及一种前端界面的动态语言反混淆特征提取方法及提取系统。

技术介绍

[0002]前端防御需要甄别请求的内容中是否有违规的SQL注入或者JS方法的调用,但是随着防御能力的提升,进攻者的方式也更加隐蔽。进攻者会在自己的进攻请求脚本中利用各种混淆技术加密自己的进攻脚本并自带解密算法。待请求被通过执行时,该请求会先利用自带的解密算法去解密自己的混淆脚本然后再利用脚本进行攻击。此种方法在一定程度上逃避了网络请求的初次过滤,类似一种病毒,只有在到一定阶段才开始自我展开并实行攻击。
[0003]从应用安全的角度考虑,最重要的一步就是要获知对方使用了脚本混淆技术,然后才可以进一步采取措施。由于市面上的脚本混淆技术和数据加解密技术数不胜数,根本无法在一套系统中穷尽所有的可能,所以考虑利用机器学习的方法去研究所有混淆脚本的特征,从而让机器积累经验代替人类去进行判断。

技术实现思路

[0004]为此,本专利技术实施例提供一种前端界面的动态语言反混淆特征提取方法及提取系统,以解决现有技术中由于脚本混淆技术和数据加解密技术数不胜数,而导致的无法在一套系统中穷尽所有脚本识别技术的问题。
[0005]为了实现上述目的,本专利技术实施例提供如下技术方案:一种前端界面的动态语言反混淆特征提取方法,包括以下步骤:步骤S01、逐个字符提取脚本信息中的二元语句,并将二元语句的字符转换为标准代码语言的编码字符,记录二元语句的出现频次。
[0006]步骤S02、建立一个横坐标与纵坐标均包含全部标准代码语言的二维矩阵,根据编码字符将二元语句填入二维矩阵内。
[0007]步骤S03、根据二元语句的坐标将二元语句的出现频次填入二维矩阵内,替换二元语句的坐标值。
[0008]步骤S04、对二维矩阵进行归一化处理,得到特征矩阵。
[0009]进一步的,所述逐个字符提取脚本信息中的二元语句包括先删除非文字字符,然后逐个字符提取脚本信息的二元语句;或者,在逐个字符提取脚本信息的过程中,若字符后遇到非文字字符,则二元语句直接跳过该非文字字符,与非文字字符后第一位的字符组成二元语句;或者,在逐个字符提取脚本信息的过程中,若字符后遇到非文字字符,则放弃该字符,跳到非文字字符后的第一个字符后开始逐个字符提取二元语句。
[0010]进一步的,所述标准代码语言为ASCII、UTF

8、UTF

16、UTF

32、ANSI、Unicode 中的任意一种。
[0011]进一步的,所述根据编码字符将二元语句填入二维矩阵内包括将二元语句的第一个字符的取值设为X轴坐标值,二元语句中第二个字符的取值设为Y轴坐标值;或者,将二元语句的第一个字符的取值设为Y轴坐标值,二元语句中第二个字符的取值设为X轴坐标值。
[0012]进一步的,所述步骤S02之后,对所述二维矩阵进行简化,简化方法包括计算每个二元语句的熵值,筛选掉熵值不满足筛选标准的二元语句,得到简化后的二维矩阵。
[0013]进一步的,所述二元语句的熵值E(x)的计算公式如下:
[0014]上式中:H(C)为系统原本的熵,具体计算如下:
[0015]C为所有文档;为文档出现的概率,n=2,为正常文档,为混淆文档;为固定特征X后的条件熵,具体计算如下:
[0016]上式中:P(x)为二元语句x出现的概率;为二元语句x没有出现的概率;为出现二元语句x的熵值,即,为中出现二元语句的频率;为没有出现二元语句x的熵值,即,为中没有出现二元语句x的频率。
[0017]进一步的,所述步骤S03中对脚本信息进行窗口滑动,逐个字符的采集二元语句,建立二元语句与出现频次的键值对,以二元语句的字符为键,出现频次为值,每次采集二元语句均会对比已建立的全部键值对;若出现相同的二元语句,则计入所述二元语句的键值对的值中,即值+1;若未出现相同的二元语句,则建立新的键值对。
[0018]进一步的,所述归一化处理包括二维矩阵中每行的坐标值求和,得到行和值,然后将本行中每个坐标值均除以行和值,得到一个小于1的坐标值,转换完成后,每一行坐标值的加和均为1;或者,二维矩阵中每列的坐标值求和,得到列和值,然后将本列中每个坐标值均除以列和值,得到一个小于1的坐标值,转换完成后,每一列坐标值的加和均为1。
[0019]一种前端界面的动态语言反混淆特征提取系统,包括以下模块:二元语句提取模块,用于逐个字符提取脚本信息中的二元语句,其连接标准编码信息数据库,从标准编码信息数据库中调取标准编码信息,将二元语句的字符转换为标准代码语言的编码字符,采集二元语句的出现频次。
[0020]频次采集模块,用于采集二元语句的出现频次,计算全部二元语句的出现频次总和,计算二元语句位于出现频次总和的占比,即计算二元语句的出现频率。
[0021]二维矩阵建立模块,其连接标准编码信息数据库,建立一个横坐标与纵坐标均包含全部标准代码语言的二维矩阵,根据编码字符将二元语句填入二维矩阵内,或者将二元语句的出现频次填入二维矩阵内,并对二维矩阵进行归一化处理,得到特征矩阵。
[0022]本专利技术实施例具有如下优点:本专利技术实施例所述的一种前端界面的动态语言反混淆特征提取方法及提取系统,其结合标准编码信息将无限的自然语言转换为有限的标准编码信息,根据标准编码信息建立二维矩阵,再根据二元语句的出现频次,将二维矩阵由字符型矩阵转换为数值型矩阵,便于简化矩阵特征,最终得到一个可由智能端学习的简易的特征矩阵。
[0023]本专利技术实施例所述的一种前端界面的动态语言反混淆特征提取方法及提取系统通过对二元语句的出现频次的分析,确定二元语句对于脚本信息的重要性的熵值,并通过信息增益过滤的方法,过滤掉不满足标准的二元语句,实现对二维矩阵的缩减化,可通过调整过滤标准,将二维矩阵缩减到任意大小,大幅度减少本专利技术技术处理的数据量,减少错误率,提高系统运行效率。
附图说明
[0024]为了更清楚地说明本专利技术的实施方式或现有技术中的技术方案,下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍。显而易见地,下面描述中的附图仅仅是示例性的,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图引伸获得其它的实施附图。
[0025]本说明书所绘示的结构、比例、大小等,均仅用以配合说明书所揭示的内容,以供熟悉此技术的人士了解与阅读,并非用以限定本专利技术可实施的限定条件,故不具技术上的实质意义,任何结构的修饰、比例关系的改变或大小的调整,在不影响本专利技术所能产生的功效及所能达成的目的下,均应仍落在本专利技术所揭示的
技术实现思路
得能涵盖的范围内。
[0026]图1为本专利技术实施例1提供的一种前端界面的动态语言反混淆特征提取方法的方法流程图;图2为本专利技术实施例2提供的一种前端界面的动态语言反混淆特征提取系统的系统结构图。
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种前端界面的动态语言反混淆特征提取方法,其特征在于,包括以下步骤:步骤S01、逐个字符提取脚本信息中的二元语句,并将二元语句的字符转换为标准代码语言的编码字符,记录二元语句的出现频次;步骤S02、建立一个横坐标与纵坐标均包含全部标准代码语言的二维矩阵,根据编码字符将二元语句填入二维矩阵内;步骤S03、根据二元语句的坐标将二元语句的出现频次填入二维矩阵内,替换二元语句的坐标值;步骤S04、对二维矩阵进行归一化处理,得到特征矩阵。2.根据权利要求1所述的一种前端界面的动态语言反混淆特征提取方法,其特征在于:所述逐个字符提取脚本信息中的二元语句包括先删除非文字字符,然后逐个字符提取脚本信息的二元语句;或者,在逐个字符提取脚本信息的过程中,若字符后遇到非文字字符,则二元语句直接跳过该非文字字符,与非文字字符后第一位的字符组成二元语句;或者,在逐个字符提取脚本信息的过程中,若字符后遇到非文字字符,则放弃该字符,跳到非文字字符后的第一个字符后开始逐个字符提取二元语句。3.根据权利要求1所述的一种前端界面的动态语言反混淆特征提取方法,其特征在于:所述标准代码语言为ASCII、UTF

8、UTF

16、UTF

32、ANSI、Unicode 中的任意一种。4.根据权利要求1所述的一种前端界面的动态语言反混淆特征提取方法,其特征在于:所述根据编码字符将二元语句填入二维矩阵内包括将二元语句的第一个字符的取值设为X轴坐标值,二元语句中第二个字符的取值设为Y轴坐标值;或者,将二元语句的第一个字符的取值设为Y轴坐标值,二元语句中第二个字符的取值设为X轴坐标值。5.根据权利要求1所述的一种前端界面的动态语言反混淆特征提取方法,其特征在于:所述步骤S02之后,对所述二维矩阵进行简化,简化方法包括计算每个二元语句的熵值,筛选掉熵值不满足筛选标准的二元语句,得到简化后的二维矩阵。6.根据权利要求5所述的一种前端界面的动态语言反混淆特征提取方法...

【专利技术属性】
技术研发人员:王洪哲关锋丁兆俊王克照秦漫叶海峰曲金凤潘昭雄胡鹏濠蔡静静易洪郭伟钧
申请(专利权)人:北京有生博大软件股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1