基于局部评估和全局优化的注视点检测方法技术

技术编号:15502053 阅读:219 留言:0更新日期:2017-06-03 23:07
本发明专利技术属于计算机视觉领域,基于局部评估和全局优化的注视点检测方法。利用边缘密度算法提取图像中可能的候选目标;然后利用监督学习的方法对这些目标局部评估,两种评估方式:(1)用整个数据库的图像训练SVM对每个proposals的显著性打分;(2)利用半耦合字典学习算法,针对不同的图像重构出不同的SVM,为这张图像的proposals进行有针对性的打分;经过局部评估后,利用proposal子集优化算法将proposals聚类。最后进行全局优化。本发明专利技术针对不同引起人眼注意的信息特点,设计出能够捕捉这些信息的模型,能够有效的检测包含语义信息的图像、包含物体的图像、复杂或不包含物体的图像中的人眼注视区域。

Gaze detection method based on local evaluation and global optimization

The invention belongs to the field of computer vision, and is a method for detecting fixation points based on local evaluation and global optimization. The extraction of candidate target images using edge density algorithm; then using supervised learning methods for these local target assessment, two assessment methods: (1) with the image of the entire database for each training SVM proposals significant rate; (2) using a semi coupled dictionary learning algorithm for image reconstruction from different different SVM, as this image of proposals targeted scoring; after partial evaluation, using proposal subset optimization algorithm proposals clustering. Finally, global optimization is carried out. The present invention according to the different characteristics of human attention caused by information, designed to capture the information model, can effectively detect the semantic information of images, including images of the object, the complex eye contains or does not contain an image of an object in the eye area.

【技术实现步骤摘要】
基于局部评估和全局优化的注视点检测方法
本专利技术属于计算机视觉领域,涉及到图像处理相关知识,特别涉及到注视点检测方法。
技术介绍
注视点检测作为显著性检测的一个分支,在图像分割、图像压缩、目标识别等领域有广泛的应用前景。近年来,眼动点检测领域涌现出许多新颖的算法,对于部分数据库检测效果已经达到较好水平,但是仍有很多关键问题没有解决。下文对眼动点检测的经典算法进行分析,总结目前的发展现状。Itti等人在论文“Amodelofsaliency-basedvisualattentionforrapidsceneanalysis,1998”中提出了最早的注视点预测算法。他们提取图像的颜色,亮度,方向三种特征,采用中心—周围对比的方法,计算出各个像素的显著度。并通过构建高斯金字塔提取图像多尺度信息,以兼顾图像全局对比信息。最终通过对多个特征图融合得到结果。在Itti模型的基础上,研究人员提出了很多预测视觉注视点的改进。但都是基于同一模型框架的,即首先将输入图像分解为多类视觉特征通道,然后对每类视觉通道单独进行显著性度量生成特征显著图,最后结合多类特征显著图来生成最终的一个显著图。这些方法同Itti模型的不同之处在于,论文“Predictinghumangazeusinglow-levelsaliencycombinedwithfacedetection,2008”选用了不同种类的视觉特征,论文“Predictinghumangazeusinglow-levelsaliencycombinedwithfacedetection,2008”采用了不同的显著性度量方式。论文“Saliencyestimationusinganon-parametriclow-levelvisionmodel,2011”使用了不同的特征图融合方式。除了上述自底向上的注视点检测模型,还有一类自顶而下模型。自顶而下模型是任务驱动的,一般采用训练学习的方法,因此需要人工标注的真值数据,以及必要的先验信息。这类模型大多用于解决眼动点检测中的语意信息问题,早期的方法“Learningtopredictwherehumanslook,2009”中语意信息由各种目标检测器构成,包括汽车,行人,人脸等等。而后随着深度学习的发展,出现了多种利用卷积神经网络(CNN)特征或者利用CNN进行端到端检测的方法。KümmererM发表的“Boostingsaliencypredictionwithfeaturemapstrainedonimagenet,2014”中,使用深度特征与传统特征相融合以得到更好的检测效果。PanJ的“End-to-endconvolutionalnetworkforsaliencyprediction,2015”利用深度学习框架进行端到端的检测。这些方法大多取得了良好的效果,是注视点预测发展的方向。
技术实现思路
本专利技术要解决的技术问题是:在图像中含有一个或多个显著目标的情况、图像中存在人脸、文字等语义信息的情况、在图像中不存在显著物体或图像场景十分复杂等情况下对人眼注视点进行准确的预测。本专利技术的技术方案:基于局部评估和全局优化的注视点检测方法,概括如下:首先利用边缘密度算法(Edgeboxes)提取图像中可能的物体目标(proposals)。然后利用监督学习的方法对这些目标局部评估。评估方式分为两种:一种是总体评估,用整个数据库的图像训练SVM对每个proposals的显著性打分。另一种是具体评估,利用半耦合字典学习算法(SCDL),针对不同的图像重构出不同的SVM,为这张图像的proposals进行有针对性的打分。总体评估方法的检测结果更加全面,对多种语义特征都有一定的有效性。而具体评估能够更好地检测图像中最明显的一种语义信息。两种评估方式融合能够使检测结果更加准确。经过局部评估后,利用proposal子集优化算法将proposals聚类。最后,考虑每一类的全局上下文信息,对注视点检测结果进行全局优化。步骤如下:(1)提取候选目标提取待检测图像上存在物体的区域,以检测到的候选目标作为后续处理的基本单位。传统的显著性检测方法多采用滑动窗、像素、超像素作为特征提取的基本单位,这导致大量重复计算和效率底下。本专利技术采用edgeboxes算法,提取待检测图像上可能是物体(object)的区域。该算法的原理是利用候选框中的边缘密度大小选取目标区域,目标区域用四维向量[x,y,h,w]表示,[x,y]代表目标框中左上角像素的坐标,[h,w]代表目标框的高度和宽度。我们将产生的目标框作为可能的人眼注视区域,因为人眼倾向于注视于图像中的物体而不是背景。本专利技术的后续步骤都是以这里检测到的候选目标框作为处理的基本单位。相较于传统方法,本方法能在保持较高准确率的同时极大地减小计算量,提高整个注视点检测算法的效率。(2)深度特征提取本专利技术利用微调后的卷积神经网络提取候选目标的深度特征。在图像中首先引起人眼注目的往往是人所熟悉的人脸、文字、动作等区域。因此我们认为语义信息在注视点检测中占主导作用。为了更准确地捕捉语义信息,本专利技术采用卷积神经网络提取图像的深度特征。深度学习模仿大脑的神经元之间传递,处理信息的模式,以发现数据的分布式特征表示。近年来,卷积神经网络在图像处理领域取得了巨大成功。本专利技术采用vgg-16网络结构,并根据本专利技术针对的注视点检测问题对网络参数进行了微调(fine-tuning)。利用微调完成的神经网络,把每张图像的候选目标框作为输入,选取网络中第二个全连接层输出的4096维向量作为深度特征。至此,我们得到了候选目标框及其对应的深度特征。(3)局部评估总体训练这一步骤的主要目的是根据候选区域的特征评估该区域受注视的程度。本专利技术采用自顶向下的监督学习方式训练分类器,评判每一个候选区域是人眼注视区域的可能性。首先,根据注视点信息的真值,从训练集图像的候选框中挑出训练样本框。然后,利用整个数据库的样本框的深度特征训练支持向量机。在测试阶段,把测试图片的候选图像块输入SVM,就可以得到对应的评估分数。把候选图像块的中心作为注视点,可以做出人眼注视点预测初始图。(4)局部评估具体训练在上一步骤的总体训练中,整个数据库的图像都用同一个分类器评估。本步骤的目的是对候选图像区域进行更具体的评估,实现一张图像对应一个分类器。为了实现这一目的,我们采用了半耦合字典学习(SCDL)的方法。这一方法的理论基础是:对于同一场景的两种不同类型的表示,存在耦合字典,且两种表示在耦合字典上的分解系数有稳定的关系映射。给定一张图像,我们可以计算图像的深度特征向量,也可以根据这张图像训练提取正负样本训练SVM得到权值向量。两个向量是对同一张图像的不同表示,因此它们之前也存在着稳定的映射。利用SCDL算法可以学习出这种映射关系。利用映射关系,在已知图像深度特征向量的同时就可以得到对应的SVM。具体过程如下:给定一张图像I,首先通过卷积神经网络得到其深度特征xI,与图像候选区域的特征提取的方法相同。再在图像I选取100个正负样本训练SVM,得到SVM的权重向量wI。对于训练集合S,候选目标特征集合为其中每一列代表一张图像的深度特征,d为特征向量维数,N为数据库中图像个数。本文档来自技高网
...
基于局部评估和全局优化的注视点检测方法

【技术保护点】
基于局部评估和全局优化的注视点检测方法,其特征在于,步骤如下:(1)提取待检测图像上存在物体的区域,以检测到的候选目标作为后续处理的基本单位;(2)利用微调后的卷积神经网络提取候选目标的深度特征;(3)局部评估的总体训练:根据候选目标的深度特征评估该区域受注视的程度,采用自顶向下的监督学习方式训练分类器,评判每一个候选目标是人眼注视区域的可能性;首先,根据注视点信息的真值,从训练集图像的候选框中挑出训练样本框;然后,利用训练集图像的样本框的深度特征训练支持向量机SVM;在测试阶段,把测试集图像的候选目标输入支持向量机,得到对应的评估分数;(4)局部评估的具体训练:采用半耦合字典学习(SCDL)算法,实现一张图像对应一个分类器;给定一张图像I,通过卷积神经网络得到其深度特征x

【技术特征摘要】
1.基于局部评估和全局优化的注视点检测方法,其特征在于,步骤如下:(1)提取待检测图像上存在物体的区域,以检测到的候选目标作为后续处理的基本单位;(2)利用微调后的卷积神经网络提取候选目标的深度特征;(3)局部评估的总体训练:根据候选目标的深度特征评估该区域受注视的程度,采用自顶向下的监督学习方式训练分类器,评判每一个候选目标是人眼注视区域的可能性;首先,根据注视点信息的真值,从训练集图像的候选框中挑出训练样本框;然后,利用训练集图像的样本框的深度特征训练支持向量机SVM;在测试阶段,把测试集图像的候选目标输入支持向量机,得到对应的评估分数;(4)局部评估的具体训练:采用半耦合字典学习(SCDL)算法,实现一张图像对应一个分类器;给定一张图像I,通过卷积神经网络得到其深度特征xI;再从图像I中选取100个正负样本训练SVM,得到SVM的权重向量wI;对于训练集图像S,候选目标特征集合为其中每一列代表一张图像的深度特征,d为特征向量维数,N为数据库中图像个数;对应的SVM权重向量集合为分别定义为特征字典、权重字典、映射字典;k是字典大小;那么,字典的联合优化问题的公式如下:

【专利技术属性】
技术研发人员:李建华姜博卢湖川
申请(专利权)人:大连理工大学
类型:发明
国别省市:辽宁,21

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1