一种移动终端文件检测方法技术

技术编号:13138790 阅读:48 留言:0更新日期:2016-04-07 00:12
本发明专利技术提供了一种移动终端文件检测方法,该方法包括:对页面文件中的代码进行预处理,提取所述代码的特征,通过对所述特征进行分类实现代码的检测。本发明专利技术提出了一种文件检测识别方法,对不同入侵方式利用不同的分类方式进行检测,引入模糊处理防止恶意代码的伪装,提高了检测成功率。

【技术实现步骤摘要】

本专利技术涉及计算机数据安全,特别涉及。
技术介绍
随着Internet的不断发展与普及,各种网络安全事件层出不穷,整个移动互联网的环境受到了严重的威胁,给社会带来了巨大的损失。网络安全事件多是黑客入侵行为引起,而内在原因是软件或文档自身的安全漏洞。入侵者利用了该漏洞,对移动设备中的页面文件进行篡改或伪装,使普通用户无法识别,借机执行或分发非法程序。现有的页面文件检测包括静态检测和动态检测,但均涉及监控文件运行时触发的函数和事件,而没有考虑入侵者使用的模糊处理技术,因而恶意脚本代码识别率很低,并且现有的检测模型使用了仿真技术,使移动设备端的计算资源消耗过大。
技术实现思路
为解决上述现有技术所存在的问题,本专利技术提出了,包括:对页面文件中的代码进行预处理,提取所述代码的特征,通过对所述特征进行分类实现代码的检测。优选地,所述对页面文件中的代码进行预处理,进一步包括:当判断文件的入侵方式是基于脚本代码的入侵时,根据对基于脚本代码入侵方式和页面文件结构的分析,首先对页面文件中可执行脚本代码进行定位,判断脚本代码存在于哪个对象中,根据对象之间的引用关系,将对象中的脚本代码提取出来,存储在新的文本文件中;然后根据脚本代码的编码方式,对经过编码的脚本代码进行解码,还原原始的脚本代码;最后,对脚本代码进行反模糊处理,去掉脚本代码中的冗余信息,最后得到原始脚本代码;所述提取所述代码的特征,进一步包括:首先将脚本代码从页面文件中提取出来,然后以词为单位,进行特征提取,对提取到的特征向量进行特征选择处理,并增加关键特征向量的权重;在页面文件中,根据关键字定位脚本代码的入口位置;其中,下面对脚本代码的提取具体包括:1.打开页面文件;2.初始化内部数据结构; 3.进行目录字典检索,寻找活动字典入口地址;4.对含有脚本代码的候选位置进行搜索,并检测字典条目的数据类型;5.如果其数据类型为预定义关键字集合中的元素,则此字典中便含有脚本代码,对脚本代码进行提取;6.对脚本代码进行解压;对经过编码后的脚本代码流进行解码,判断流中的字符是否经过编码,即判断代码流的头部中是否含有编码方式字段,如果有,调用解码函数进行解码;最后保存结果;对脚本代码进行反模糊处理,进一步包括:针对脚本代码中的字符串分割和冗余内容,首先移除与脚本代码运行无关的注释,其次需要将被分割后的字符串进行还原,还原为原始的字符串,在脚本代码中,若变量长度超过50字节,则进行统一命名,经过前期的数据预处理,将脚本代码转换为原始的脚本代码。优选地,所述特征向量通过以下过程来提取:步骤1.将脚本代码划分为以词为单位的字符串s;步骤2.建立词频查找表m; 步骤3.遍历字符串s,查看词w是否在m中,如果在,跳转至步骤4,否则,跳转至步骤5;步骤4.查找表中词w的词频m增1 ;步骤5.查找表中词w的词频m = 1 ;步骤6.遍历m,其遍历指针为ptr;步骤7.如果m为关键词,将ptr对应的特征权值增加至最大值;步骤8.选取前五个特征向量作为最后的特征向量集。本专利技术相比现有技术,具有以下优点:本专利技术提出了一种文件检测识别方法,对不同入侵方式利用不同的分类方式进行检测,引入模糊处理防止恶意代码的伪装,提高了检测成功率。【附图说明】图1是根据本专利技术实施例的移动终端文件检测方法的流程图。【具体实施方式】下文与图示本专利技术原理的附图一起提供对本专利技术一个或者多个实施例的详细描述。结合这样的实施例描述本专利技术,但是本专利技术不限于任何实施例。本专利技术的范围仅由权利要求书限定,并且本专利技术涵盖诸多替代、修改和等同物。在下文描述中阐述诸多具体细节以便提供对本专利技术的透彻理解。出于示例的目的而提供这些细节,并且无这些具体细节中的或者所有细节也可以根据权利要求书实现本专利技术。本专利技术的一方面提供了。图1是根据本专利技术实施例的移动终端文件检测方法流程图。本专利技术针对两种不同的入侵方式针对性作出检测,采用两种不同的特征提取和分类方法建立识别模块,然后对识别模块进行并联,对页面文件中的脚本代码进行完整的反模糊预处理,保证基于脚本代码攻击的特征向量集的有效性。基于多级分类过程,对不同入侵方式利用不同的分类过程进行检测,提高了检测成功率。本专利技术的页面文件检测方法主要有三大模块:数据预处理、特征提取和页面文件识别。(1)数据预处理:针对基于脚本代码入侵方式的文本集进行预处理。根据对基于脚本代码入侵方式和页面文件结构的分析,首先对页面文件中可执行脚本代码进行定位,判断脚本代码存在于哪个对象中,根据对象之间的引用关系,将对象中的脚本代码提取出来,存储在新的文本文件中;然后根据脚本代码的编码方式,对经过编码的脚本代码进行解码,以还原原始的脚本代码;最后,对脚本代码进行反模糊处理,去掉脚本代码中的冗余信息,最后得到原始脚本代码。(2)特征提取:本专利技术提出了两种不同的特征提取方式,对于基于脚本代码入侵的页面文件,提取特征是基本单位为词,减少了提取所需时间;对于基于非脚本代码入侵方式实现的页面文件,提取特征时,将页面文件进行划分,然后依然采用与现有特征提取相同的方法,在特征提取结束之后,通过特征选择算法,有效降低特征的维度即选择辨识度较高的特征。(3)页面文件识别:根据两种不同的特征提取方式,基于Bayes分类过程和判定树分类过程,建立两个不同的分类模型,然后采用并联的方式,将两个分类过程进行组合,提高了模型的检测率。在特征向量提取前,首先需要确定脚本代码在页面文件中的位置,从页面文件中将脚本代码提取出来,如果该脚本代码是经过编码、压缩和模糊等处理,则需要还原最原始的脚本代码,最后根据特征提取算法提取特征向量集。在对未知页面文件检测时,首先需要从未知页面文件中提取可执行脚本代码,并且对脚本代码进行解码和去模糊化处理,得到原始的脚本代码。然后根据字符串匹配算法,进行特征向量匹配,判断脚本代码中存在哪些特征向量。最后根据Bayes算法及由训练样本得到的数据,判断该未知页面文件的类别。针对基于非脚本代码入侵的页面文件检测可以采用通用的检测:首先提取训练样本集的特征向量。训练样本集分为两类:基于非脚本代码入侵的恶意文件样本集和不含脚本代码的安全文件样本集。在特征提取时,需要分别提取两个不同样本集的特征向量集,根据一定的特征选择算法,将两个特征向量集进行处理,以得到学习算法需要的特征向量集。然后根据学习算法和提取的特征向量集,建立识别模型。本专利技术采用判定树分类过程建立识别模型。最后对未知页面文件进行识别。在对未知页面文件进行识别时,首先需要提取未知页面文件的特征向量集,该特征向量集可以有效的表明该未知页面文件,可以利用该特征向量集代替页面文件进行识另|J。然后将特征向量集作为识别器的输入,识别器根据己建立的识别,对特征向量集进行识别分类。最后得出未知页面文件的分类结果。本专利技术提出的特征提取模块,根据现有的页面文件入侵方式,采用两种不同的特征提取方式提取特征向量。针对基于脚本代码入侵方式的特征向量提取,首先将脚本代码从页面文件中提取出来,对该脚本代码进行反模糊等处理,得到原始的脚本代码。然后以词为单位,进行特征提取。最后对提取到的特征向量进行特征选择处理,并增加关键特征向量的权重,保证最后得到的特征向量集具有较高的有效性。针对基于非脚本代本文档来自技高网...

【技术保护点】
一种移动终端文件检测方法,其特征在于,包括:对页面文件中的代码进行预处理,提取所述代码的特征,通过对所述特征进行分类实现代码的检测。

【技术特征摘要】

【专利技术属性】
技术研发人员:陈虹宇罗阳苗宁
申请(专利权)人:四川神琥科技有限公司
类型:发明
国别省市:四川;51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1