当前位置: 首页 > 专利查询>暨南大学专利>正文

一种基于机器学习的恶意PNG图像识别方法技术

技术编号:18895177 阅读:80 留言:0更新日期:2018-09-08 11:17
本发明专利技术提出了基于机器学习的恶意PNG图像识别方法,属于网络空间安全技术领域,首先建立PNG图像特征库和数字隐写识别模型;在服务端对上传图片文件请求进行审查,依据PNG图像特征库进行特征匹配识别,初步识别PNG图片是否合法,若合法则调用数字隐写识别模型挖掘PNG图片是否存在信息隐藏,若不合法或存在信息隐藏则拒绝上传;在客户端监测网页传输过程中的PNG图片格式文件数据,依据PNG图像特征库进行特征匹配识别,若合法则调用数字隐写识别模型挖掘PNG图片是否存在信息隐藏,若不合法或存在信息隐藏则禁止访问该图片资源。本发明专利技术可以在服务端禁止不合法图片的上传,在客户端禁止对不合法图片的访问,加强了网络安全。

A malicious PNG image recognition method based on machine learning

The invention proposes a malicious PNG image recognition method based on machine learning, which belongs to the field of Cyberspace Security technology. Firstly, a PNG image feature library and a digital steganography recognition model are established; at the server side, the request for uploaded image files is examined; and the PNG image feature library is used for feature matching and recognition. If it is legitimate, the digital steganography recognition model is called to mine whether there is information hiding in PNG pictures, and if it is not legitimate or there is information hiding, the upload is refused; the client monitors the data of PNG pictures format file in the process of web page transmission, and matches and identifies the features according to the PNG image feature library; if it is legitimate, the digital steganography is called. Write recognition model mining PNG images whether there is information hiding, if not illegal or there is information hiding is prohibited to access the picture resources. The invention can prohibit the uploading of illegal pictures on the server side, prohibit the access of illegal pictures on the client side, and strengthen the network security.

【技术实现步骤摘要】
一种基于机器学习的恶意PNG图像识别方法
本专利技术属于网络空间安全
,尤其涉及一种基于机器学习的恶意PNG图像识别方法。
技术介绍
随着网络的迅速普及应用,数字化技术的快速发展,网络空间安全问题,逐渐走入人们的视野,为越来越多的人们所重视。一方面,浏览器作为人们获取互联网信息的主要媒介,其安全问题不容轻视。近年来,由于JavaScript审查不严格等原因,越来越多的网页被植入了形形色色的网页广告,它们轻则诱导用户点击访问恶意链接,重则通过将恶意软件、恶意动态链接库文件(DynamicLinkLibraries,DLL)附加到网页图片的方式,绕过计算机和网络防御系统,直接对用户个人电脑和移动设备造成感染病毒、信息泄露等恶劣影响。另一方面,网站被非法控制、大量数据泄露事件层出不穷,而作为其中利用频繁的一项攻击技术---通过文件上传功能上传恶意代码,如一句话木马,进而控制服务器,其危害不容小觑。针对上传恶意代码的检测和绕过是博弈双方从未停止的防守和攻击。近年来,攻击者开始使用上传“合法”的PNG图片来躲避入侵检测系统的检测,而恶意代码则通过编码、LSB隐写等数字隐写技术隐藏在伪造的“合法”PNG图片中,一旦成功上传,攻击者就能通过访问解析精心构造的隐藏在PNG图片中的攻击载荷的方式,远程控制网站服务器,从而进行更具有破坏性的尝试和操作行为,如窃取网站用户隐私数据、远程控制网站服务器作为傀儡机发动对其它服务器的拒绝访问攻击(DoS)等。归根结底,无论是在诸如浏览器之类的客户端,还是在部署网站服务器的服务端,一个亟待解决的问题就是对网页中的图片进行审核以防止隐藏的恶意行为。PNG格式的图片,以其体积小、无损压缩、优化的网络传输显示等特点被广泛使用在网页中,PNG图片也是良好的信息隐藏载体,应该是被重点研究的对象。如果服务端在处理用户上传图片文件请求时,能够高效且准确的识别出合法的图片上传请求,并分析图片中是否使用了数字隐写技术而包含了恶意攻击载荷;客户端能够在访问网页资源时,对网页中的图片资源进行过滤,对疑似包含恶意程序文件的图片资源禁止自行下载,那么就能从源头上遏制该类恶意行为的发生。为此,我们引入机器学习技术和数字隐写技术来解决这一问题。机器学习技术的应用遍及人工智能的各个领域,是人工智能的核心技术。目前,机器学习技术以其自主学习、高效学习、精确学习的特性,也开始在网络空间安全领域发挥着巨大的作用。机器学习的实现与三个部分有着不可分开的关系:环境、学习部分和执行部分。环境向系统的学习部分提供某些信息,学习部分利用这些信息修改知识库,以增进系统执行部分完成任务的效能,执行部分根据知识库完成任务,同时把获得的信息反馈给学习部分。下面以识别PNG图像为例,详细描述影响机器学习系统设计的三个因素:环境向系统提供的信息:知识库里存放的是指导执行部分动作的一般原则,但环境向系统提供的信息却是各种各样的。如果信息的质量比较高,与一般原则的差别比较小,则学习部分比较容易处理。如果向系统提供的是杂乱无章的指导执行具体动作的具体信息,则系统需要在获得足够数据之后,删除不必要的细节,进行总结推广,形成指导动作的一般原则,放入知识库,这样学习部分的任务就比较繁重,设计起来也较为困难。知识库:知识的表示有多种形式,比如PNG图像的头部标志、PNG图像的存储方式、PNG图像的结束标志等等。这些表示方式各有其特点,在选择表示方式时满足了以下4个方面:(1)表达能力强;(2)易于推理;(3)容易修改知识库;(4)知识表示易于扩展。执行部分:是整个系统的核心,因为执行部分的动作就是学习部分力求改进的动作。在对PNG图像识别的过程中,根据识别结果不断对学习部分的内容进行调整,以提高执行时的准确性。数字隐写技术是将秘密信息嵌入到数字媒介中而不损坏它载体质量的一种安全技术。通过数字隐写技术处理的秘密信息,第三方既觉察不到秘密信息的存在,也不知道秘密信息的内容。隐写的载体包括图像、音频、视频等。近年来,数字隐写技术凭借其多变、隐匿性强等特点,已经成为了信息安全技术关注的焦点。由于每个Web站点都依赖各种多媒体,如音频、视频和图像等资源,因此攻击者能通过对恶意软件、恶意攻击载荷运用数字隐写技术将攻击行为隐藏在多媒体当中,且能轻松绕过反恶意软件的检测,从而造成更大的潜在威胁。以多媒体资源的图像为例,经典的数字图像隐写技术包括两方面,基于空域的隐写和基于变换域的隐写。其中,基于空域的隐写主要有最不重要位(LeastSignificantBit,LSB)隐写,基于变换域的隐写主要和图像的离散余弦变换(DiscreteCosineTransform,DCT)系数有关,包括Jsteg隐写、F5隐写、Outguess隐写、基于模型(Model—Based,MB)的隐写等。
技术实现思路
为了解决现有技术所存在的问题,本专利技术提供一种基于机器学习的恶意PNG图像识别方法,采用PNG图像特征库进行特征匹配识别,并借助数字隐写识别模型判断PNG图片是否存在隐藏信息,从而在服务端禁止不合法图片的上传,在客户端禁止对不合法图片的访问,加强了网络安全。本专利技术采用如下技术方案来实现:一种基于机器学习的恶意PNG图像识别方法,包括以下步骤:步骤一、通过机器学习建立PNG图像特征库和数字隐写识别模型;步骤二、在服务端对所有上传图片文件的请求进行审查,对照步骤一所建立的PNG图像特征库,对PNG图片进行特征匹配识别,如果发现不合法的PNG图片格式,则拒绝上传请求;否则,PNG图片通过初步识别,进入步骤三;步骤三、对于通过初步识别的PNG图片格式文件,调用步骤一所建立的数字隐写识别模型,挖掘PNG图片是否存在信息隐藏,若存在,则拒绝上传请求;若不存在,则允许上传请求;步骤四、在客户端监测网页传输过程中的PNG图片格式文件数据,对照步骤一所建立的PNG图像特征库,对PNG图片进行特征匹配识别,如果发现不合法的PNG图片格式,则禁止访问该图片资源;否则,进入步骤五;步骤五、调用步骤一所建立的数字隐写识别模型,挖掘PNG图片是否存在信息隐藏,对于存在信息隐藏的图片,认为可能隐藏恶意信息,禁止访问该图片资源。优选地,步骤一所述的建立PNG图像特征库,过程如下:首先提供批量PNG图像作为训练集数据导入机器学习系统;其次建立PNG图像特征识别库,包括以下特征信息:(1).PNG头部特征;(2).PNG结束标志IEND块;(3).记录PNG图像信息的IHDR块;(4).存储实际图像数据的IDAT块;(5).存储图像冗余信息块;最后针对以上识别库,选用支持向量机模型进行特征学习,完成对目标的识别分类。优选地,步骤一所述的数字隐写识别模型,采用浅层学习和深度学习结合的方式来建立:一方面基于经典隐写算法的隐写特征建立特征库进行特征学习;另一方面,基于隐写后的图像质量势必发生细微变化的特征,对含有隐写信息的PNG图像和不含隐写信息的PNG图像分别使用高通滤波器进行滤波预处理,增强图像显示特征,将获得的残差图像作为训练集,然后选用卷积神经网络模型进行迁移学习,最终输出图像存在数字隐写的概率。优选地,所述基于经典隐写算法的隐写特征建立特征库进行特征学习,为选用RS分析算法对PNG图像进行有监督的学本文档来自技高网
...

【技术保护点】
1.一种基于机器学习的恶意PNG图像识别方法,其特征在于,包括以下步骤:步骤一、通过机器学习建立PNG图像特征库和数字隐写识别模型;步骤二、在服务端对所有上传图片文件的请求进行审查,对照步骤一所建立的PNG图像特征库,对PNG图片进行特征匹配识别,如果发现不合法的PNG图片格式,则拒绝上传请求;否则,PNG图片通过初步识别,进入步骤三;步骤三、对于通过初步识别的PNG图片格式文件,调用步骤一所建立的数字隐写识别模型,挖掘PNG图片是否存在信息隐藏,若存在,则拒绝上传请求;若不存在,则允许上传请求;步骤四、在客户端监测网页传输过程中的PNG图片格式文件数据,对照步骤一所建立的PNG图像特征库,对PNG图片进行特征匹配识别,如果发现不合法的PNG图片格式,则禁止访问该图片资源;否则,进入步骤五;步骤五、调用步骤一所建立的数字隐写识别模型,挖掘PNG图片是否存在信息隐藏,对于存在信息隐藏的图片,认为可能隐藏恶意信息,禁止访问该图片资源。

【技术特征摘要】
1.一种基于机器学习的恶意PNG图像识别方法,其特征在于,包括以下步骤:步骤一、通过机器学习建立PNG图像特征库和数字隐写识别模型;步骤二、在服务端对所有上传图片文件的请求进行审查,对照步骤一所建立的PNG图像特征库,对PNG图片进行特征匹配识别,如果发现不合法的PNG图片格式,则拒绝上传请求;否则,PNG图片通过初步识别,进入步骤三;步骤三、对于通过初步识别的PNG图片格式文件,调用步骤一所建立的数字隐写识别模型,挖掘PNG图片是否存在信息隐藏,若存在,则拒绝上传请求;若不存在,则允许上传请求;步骤四、在客户端监测网页传输过程中的PNG图片格式文件数据,对照步骤一所建立的PNG图像特征库,对PNG图片进行特征匹配识别,如果发现不合法的PNG图片格式,则禁止访问该图片资源;否则,进入步骤五;步骤五、调用步骤一所建立的数字隐写识别模型,挖掘PNG图片是否存在信息隐藏,对于存在信息隐藏的图片,认为可能隐藏恶意信息,禁止访问该图片资源。2.根据权利要求1所述的基于机器学习的恶意PNG图像识别方法,其特征在于,步骤一所述的建立PNG图像特征库,过程如下:首先提供批量PNG图像作为训练集数据导入机器学习系统;其次建立PNG图像特征识别库,包括以下特征信息:(1).PNG头部特征;(2).PNG结束标志IEND块;(3).记录PNG图像信息的IHDR块;(4).存储实际图像数据的IDAT块;(5).存储图像冗余信息块;最后针对以上识别库,选用支持向量机模型进行特征学习,完成对目标的识别分类。3.根据权利要求1所述的基于机器学习的恶意PNG图像识别方法,其特征在于,步骤一所述的数字隐写识别模型,采用浅层学习和深度学习结合的方式来建立:一方面基于经典隐写算法的隐写特征建立特征库进行特征学习;另一方面,基于隐写后的图像质量势必发生细微变化的特征,对含有隐写信息的PNG图像和不含隐写信息的PNG图像分别使用高通滤波器进行滤波预处理,增强图像显示特征,将获得的残差图像作为训练集,然后选用卷积神经网络模型进行迁移学习,最终输出图像存在数字隐写的概率。4.根据权利要求3所述的基于机器学习的恶意PNG图像识别方法,其特征在于,所述基于经典隐写算法的隐写特征建立特征库进行特征学习,为选用RS分析算法对PNG图像进行有监督的学习:首先将输入待训练模型的图像划分为多个大小相同的图像块,对各个图像块扫描排列成像素向量G={x1,x2,...,xn},并使...

【专利技术属性】
技术研发人员:杨悉瑜翁健魏林锋杨悉琪潘冰张悦李明
申请(专利权)人:暨南大学
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1