一种有限有标签样本条件的相机来源鉴别方法技术

技术编号:14799129 阅读:32 留言:0更新日期:2017-03-14 21:36
本发明专利技术涉及一种有限样本条件下的相机来源鉴别方法,属于信号与信息处理技术领域。该方法首先对有标签训练样本集进行特征提取。然后利用有标签样本特征训练分类器并对所有样本分类,根据后验概率的排序构成原型集。然后将每个样本在各原型集上的投影向量集成形成集成特征,利用有标签样本形成的集成特征训练分类器,然后对无标签样本进行分类。

【技术实现步骤摘要】

本专利技术属于信号与信息处理
,涉及一种有限有标签样本数有限条件下的相机来源鉴别方法。
技术介绍
对于数码相机、手机和扫描仪等图像采集设备来说,存在各式各样不同的设备生产商和品种繁多的型号。在确定数字图像的获取设备类型后,鉴别和取证其采集设备的型号,是数字图像来源鉴别的重要内容。数字图像最为常用的获取设备之一就是数码相机,因此对于数码照片图像的来源相机型号鉴别,也是最为人们所关注的,被人们称为基于相机模型(Model-Based)的来源鉴别技术。本专利技术的研究重点即为相机来源鉴别。对于相机拍摄的数码照片图像进行来源鉴别,最直观和最简单的方法是查验数字图像的EXIF(ExchangeableImageFileFormat)信息。EXIF是为数码相机使用的图像文件格式而制定的标准,最初由日本电子工业发展协会于1996年制定,并与2002年3月发布了最新的2.2版,其目的是为数码相机图像增加有关拍摄信息的内容或图像处理软件的版本信息。在EXIF定义的关于照片属性的重要信息中,保存着照片图像的拍摄相机型号、拍摄参数以及时间等等。然而不幸的是,这些属性在图像中是以明文方式保存的,并且诸如ACDSee这样的许多图像浏览和处理软件,都支持对这些属性的修改、删除,甚至可以用JHead这样的软件进行完全复制。因此,查验EXIF信息来鉴别图像的数码相机型号,仅能作为对相机型号来源鉴别的参考,其结果由于EXIF的易修改性而并不可靠。M.Kharrazi等人认为,由于不同的数码相机采用的硬件器件和软件算法不同,拍摄的数码照片图像在颜色、图像质量等方面会存在差异,因此其从数字图像统计特征的角度出发,提取颜色相关性、邻域分布质心、颜色能量比等特征,并借鉴小波特征和图像质量特征,对照片图像的相机来源进行分类。M.Tsai等人也提出了类似的方法。F.J.Meng等人则在M.Kharrazi方法的基础上,引入了图像的双谱特征,并对所有的特征进行了优化选择。这类方法能够在数码相机数目较少的情况下,达到平均90%左右的来源鉴别准确率。但是随着获取图像的数码相机样本增加,或者存在同品牌相机图像时,这类方法的鉴别准确率将会下降。同时,这些提取的统计特征,也容易受到图像内容和图像拍摄环境的影响。另外一些研究者认为,从数码照片图像中提取不同型号相机的硬件器件或者软件算法特征,可以用于对图像的相机型号来源进行分类鉴别。K.S.Choi等人发现,不同镜头存在不同的光线失真,检测和量化这种失真,可以作为数码照片图像的相机型号来源鉴别特征。他们提出了一种通过检测图像中的直线失真来描述镜头失真的方法,并将其应用到图像的相机型号来源鉴别中,对于三种不同型号的相机图像,达到了91.5%的平均鉴别准确率,但是这种方法需要提取图像中足够长的直线信息。另一方面,K.S.Choi还根据不同型号的数码相机往往采用不同JPEG量化表的现象,通过计算JPEG图像8×8分块中,各位置的非零量化DCT系数的百分比来鉴别图像的相机型号。这种方法对四种数码相机拍摄的图像,达到了平均92%的鉴别准确率。除了利用镜头失真和JPEG量化表作为图像来源鉴别特征之外,数码相机成像过程中的另外一个重要操作CFA(ColorFilterArray)插值,也被许多研究者作为数码相机的重要特征之一,用于数字图像的相机型号来源鉴别。H.Farid等人指出,CFA插值操作不可避免地会向数码相机拍摄的图像中引入局部像素的相关性,并在频域上反映为能量的峰值点,可以通过EM(ExpectationMaximization)算法检测这种相关性。S.Bayram等人基于这种思想,提出利用EM算法检测像素邻域周期性,并将得到的插值权重系数和二维概率图的峰值点位置作为特征,来鉴别数字图像的相机型号来源。对于三种不同品牌的数码相机拍摄的图像,其平均鉴别准确率达到了96%。Y.J.Long和A.Swaminathan等人则分别使用二次相关模型和线性插值模型,通过求解最小化问题估计邻域CFA的插值系数,并分别采用BP神经网络和SVM作为分类器,来对不同型号数码相机拍摄的图像进行来源鉴别。在数码相机的样本数目较少的情况下,Y.J.Long和A.Swaminathan的方法都能达到95%以上的平均鉴别准确率。而的方法则对9种不同品牌的19种不同型号的数码相机拍摄的图像进行了来源鉴别取证实验,达到了目前最好的分类效果,其平均鉴别准确率可达85.9%已有的相关研究,都基于一个重要的条件假设,即不同的图像获取设备,由于成像系统中的硬件/软件不同,都会向图像中引入某些统计特征,通过分类/识别这些统计特征,可以对其来源进行鉴别。但是需要注意的是,由于这些特征都是基于统计意义上的,因此已有方法都需要大量的已知标签样本进行特征的提取和训练,从而获得稳定可靠的统计特征模型。事实上,由于大多数已有方法,其特征维度都在几十维甚至几百维的量级,因此为了保证训练的分类器不产生过训练的问题,往往每种类别需要几百个已知标签样本进行训练,才可能获得较为稳定和理想的分类鉴别准确率。但是在实际的环境中,对于每一个类别都进行大量样本的获取,是一项十分困难的工作。一旦无法获得足够的已知标签样本,其统计特征就可能不具备统计意义,或者训练分类器过程中出现过训练问题,导致分类器的分类鉴别准确率迅速降低。因此,如何在有限样本的实际环境中,实现对数字图像来源的准确有效鉴别分类,同样是一个具有重要应用价值的问题,这也是本专利技术中解决的核心问题。
技术实现思路
本专利技术主要针对现有的来源鉴别方法在有限的有标签样本条件下检测准确率不高的问题,专利技术了基于原型集构建和集成映射的有限有标签条件下的样本来源鉴别。该方法对有标签训练样本集进行特征提取。然后利用有标签样本特征训练分类器并对所有样本分类,根据后验概率的排序构成原型集。然后将每个样本在各原型集上的投影向量集成形成集成特征,利用有标签样本形成的集成特征训练分类器,然后对无标签样本进行分类。本专利技术的技术方案如下:1.有限样本条件下的相机来源鉴别方法概述有限有标签样本条件下的相机来源鉴别方法,其特征在于,首先对有标签训练样本集进行354维LBP特征提取;为了获得对有限有标签样本的充分描述,利用有标签样本训练分类器并对所有样本分类,根据后验概率的排序构成原型集;然后将每个样本在各原型集上的投影向量集成形成集成向量,将该特征记为集成特征,利用有标签样本形成的集本文档来自技高网
...

【技术保护点】
一种有限有标签样本条件的相机来源鉴别方法,其特征在于以下步骤,步骤一:对无标签样本和有标签样本进行特征提取使用已有的来源鉴别特征,利用特征提取算法对无标签样本和有标签样本进行特征提取,得到无标签测试样本集Du和有标签训练样本集Dl;步骤二:构建原型集,实现对有限有标签样本的充分描述将原型集的理论引入到来源鉴别中;样本类别数记为N,从有标签训练样本集中通过k次随机的选取m维构成k个特征子集,记为接下来分别利用这k个特征子集训练SVM分类器,并对多有样本Du和Dl进行分类,获得k个分类结果;对于每个分类器的结果,根据每一类中样本的后验概率对样本进行排序,选择排序靠前的n个样本并加上标签,构成了一个N×n的包含原始训练样本集部分信息的原型集;则k个分类器共获得k个原型集;记为{P1,P2,…,Pk};在上述过程中,在进行排序之前如果样本属于每一类的概率都相同,该样本为噪声样本,应该去除该样本对分类结果的影响,根据最大熵理论等概率条件下熵值最大,其中熵的计算公式如下式所示:entropy=-Σi=1Np(ci)log2p(ci)---(1)]]>其中p(ci)表示样本属于ci类的概率,根据该式设定阈值e,小于该熵阈值的样本将被当做噪声样本舍去,再将剩余的样本根据样本后验概率对样本进行排序;步骤三:集成映射,将从各个原型集获得的分类信息进行集成;构建原型集的过程中给无标签的样本加上了标签,因此每一个原型集都被认为是一个新的有标签训练样本集;利用这k个原型集分别训练分类器,并对Dl中的每个样本进行分类,则每个样本会在一个分类器上获得属于各类的后验概率,将该后验概率记为向量vi,将k个分类器获得的向量{v1,v2,…,vk}进行集成即可构成集成特征VN×k,1;对所有Dl中样本提取集成特征,构成新的训练样本集,利用该训练样本集训练分类器SVM,并对Du中的无标签样本进行分类;通过上述过程即实现了将多个原型集的类别信息集成的目标,并实现了对无标签样本的有效分类。...

【技术特征摘要】
1.一种有限有标签样本条件的相机来源鉴别方法,其特征在于以下步骤,
步骤一:对无标签样本和有标签样本进行特征提取
使用已有的来源鉴别特征,利用特征提取算法对无标签样本和有标签样本
进行特征提取,得到无标签测试样本集Du和有标签训练样本集Dl;
步骤二:构建原型集,实现对有限有标签样本的充分描述
将原型集的理论引入到来源鉴别中;样本类别数记为N,从有标签训练样本...

【专利技术属性】
技术研发人员:谭跃王波
申请(专利权)人:大连理工大学
类型:发明
国别省市:辽宁;21

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1