一种基于双学习网络的立体图像视觉显著提取方法技术

技术编号:20486451 阅读:23 留言:0更新日期:2019-03-02 19:36
本发明专利技术公开了一种基于双学习网络的立体图像视觉显著提取方法,其将人类注视图、立体图像的左视点彩色图像和左视差图像构成训练集;然后在训练集的基础上利用VGG网络模型中的特征提取技术构建深度学习模型;接着以训练集中的人类注视图为监督,以训练集中的左视点彩色图像和左视差图像为输入参数,对深度学习模型进行训练;再将待视觉显著提取的立体图像的左视点彩色图像和左视差图像作为输入参数,输入到训练得到的模型中,得到待视觉显著提取的立体图像的视觉显著图像;优点是其能够快速的运行检测,并且具有较强的鲁棒性和预测准确性。

【技术实现步骤摘要】
一种基于双学习网络的立体图像视觉显著提取方法
本专利技术涉及一种立体图像处理技术,尤其是涉及一种基于双学习网络的立体图像视觉显著提取方法。
技术介绍
在人类视觉接收与信息处理中,由于大脑资源有限以及外界环境信息重要性区别,因此在处理过程中人脑对外界环境信息并不是一视同仁的,而是表现出选择特征。人们在观看图像或者视频片段时注意力并非均匀分布到图像的每个区域,而是对某些显著区域关注度更高。如何将视频中视觉注意度高的显著区域检测并提取出来是计算机视觉以及基于内容的视频检索领域的一个重要的研究内容。而随着立体视频显示技术和高质量立体视频内容获取技术的快速发展,针对立体图像/视频的显著区域检测及建模也是一个非常重要的研究内容。然而,立体图像并不是平面图像的简单空间拓展,因此人眼感知立体图像产生立体视觉的过程也不是简单的左视点图像和右视点图像叠加的过程,因此,立体视觉特征(例如:三维视觉注意力)并不是平面视觉特性的简单拓展。然而,现有的立体图像显著图提取方法还停留在平面图像显著提取方法的简单拓展上。因此,如何从立体图像中有效地提取出立体视觉特征、如何使得提取出的立体视觉特征符合人眼三维观看行为都是在对立体图像进行视觉显著图提取过程中需要研究解决的问题。
技术实现思路
本专利技术所要解决的技术问题是提供一种基于双学习网络的立体图像视觉显著提取方法,其能够快速的运行检测,并且具有较强的鲁棒性和预测准确性。本专利技术解决上述技术问题所采用的技术方案为:一种基于双学习网络的立体图像视觉显著提取方法,其特征在于包括以下步骤:步骤一:选择一个包含有人类注视图及其对应的立体图像的数据库;然后将数据库中的每幅人类注视图缩放至80×60尺寸,将数据库中的每幅人类注视图对应的立体图像的左视点彩色图像和对应的立体图像的左视差图像均缩放至640×480尺寸;再将所有80×60尺寸的人类注视图、所有640×480尺寸的左视点彩色图像、所有640×480尺寸的左视差图像构成训练集,将训练集中的第k幅80×60尺寸的人类注视图记为将训练集中的第k幅左视点彩色图像记为将训练集中的第k幅左视差图像记为与和对应;其中,k为正整数,1≤k≤K,K表示数据库中包含的人类注视图的总幅数,也为数据库中包含的立体图像的总幅数,K≥50,表示中坐标位置为(x80,y60)的像素点的像素值,表示中坐标位置为(x640,y480)的像素点的像素值,表示中坐标位置为(x640,y480)的像素点的像素值,1≤x80≤80,1≤y60≤60,1≤x640≤640,1≤y480≤480;步骤二:利用VGG网络模型中的特征提取技术构建深度学习模型,记为MS,其中,深度学习模型的第1个网络块至第5个网络块用于提取彩色特征、第6个网络块至第8个网络块用于提取视差特征、第9个网络块用于融合彩色特征和视差特征、第10个网络块用于进行位置偏好学习、第11个网络块用于进行卷积学习、第12个网络块用于视觉显著特征融合;步骤三:以训练集中的人类注视图为监督,以训练集中的左视点彩色图像和左视差图像为输入参数,对MS进行训练,将训练得到的模型记为MT;其中,训练过程中使用的loss函数为mse函数,使用SGD方法进行MS的梯度下降训练,学习率设置为0.0005;步骤四:将待视觉显著提取的立体图像的左视点彩色图像和左视差图像对应记为{ILt(xLt,yLt)}和{IDt(xDt,yDt)};然后将{ILt(xLt,yLt)}缩放至640×480尺寸,将得到的图像记为{Ilt(x640,y480)};同样,将{IDt(xDt,yDt)}缩放至640×480尺寸,将得到的图像记为{Idt(x640,y480)};其中,ILt(xLt,yLt)表示{ILt(xLt,yLt)}中坐标位置为(xLt,yLt)的像素点的像素值,IDt(xDt,yDt)表示{IDt(xDt,yDt)}中坐标位置为(xDt,yDt)的像素点的像素值,1≤xLt≤W',1≤yLt≤H',1≤xDt≤W',1≤yDt≤H',W'表示{ILt(xLt,yLt)}或{IDt(xDt,yDt)}的宽度,H'表示{ILt(xLt,yLt)}或{IDt(xDt,yDt)}的高度,Ilt(x640,y480)表示{Ilt(x640,y480)}中坐标位置为(x640,y480)的像素点的像素值,Idt(x640,y480)表示{Idt(x640,y480)}中坐标位置为(x640,y480)的像素点的像素值;步骤五:将{Ilt(x640,y480)}和{Idt(x640,y480)}作为输入参数,输入到MT中,得到待视觉显著提取的立体图像的视觉显著图像,记为{IOt(x80,y60)};其中,IOt(x80,y60)表示{IOt(x80,y60)}中坐标位置为(x80,y60)的像素点的像素值,1≤x80≤80,1≤y60≤60。所述的步骤二的具体过程如下:步骤A:构建深度学习模型的第1个网络块至第5个网络块,第1个网络块至第5个网络块用于提取彩色特征;第1个网络块包括三层,第一层为第一卷积层、第二层为第二卷积层、第三层为最大池化层,第一卷积层的输入为将第一卷积层的输出记为第二卷积层的输入为将第二卷积层的输出记为最大池化层的输入为将最大池化层的输出记为其中,表示中坐标位置为(x640,y480)的像素点的像素值,表示中坐标位置为(x640,y480)的像素点的像素值,表示中坐标位置为(x320,y240)的像素点的像素值,1≤x320≤320,1≤y240≤240,第一卷积层和第二卷积层的卷积核的大小均为(3,3)、卷积步长均为(1,1)、卷积核的数目均为64、激活函数均为relu,最大池化层的步长为(2,2),1≤k≤K;第2个网络块包括三层,第一层为第一卷积层、第二层为第二卷积层、第三层为最大池化层,第一卷积层的输入为将第一卷积层的输出记为第二卷积层的输入为将第二卷积层的输出记为最大池化层的输入为将最大池化层的输出记为其中,表示中坐标位置为(x320,y240)的像素点的像素值,表示中坐标位置为(x320,y240)的像素点的像素值,表示中坐标位置为(x160,y120)的像素点的像素值,1≤x160≤160,1≤y120≤120,第一卷积层和第二卷积层的卷积核的大小均为(3,3)、卷积步长均为(1,1)、卷积核的数目均为128、激活函数均为relu,最大池化层的步长为(2,2),1≤k≤K;第3个网络块包括四层,第一层为第一卷积层、第二层为第二卷积层、第三层为第三卷积层、第四层为最大池化层,第一卷积层的输入为将第一卷积层的输出记为第二卷积层的输入为将第二卷积层的输出记为第三卷积层的输入为将第三卷积层的输出记为最大池化层的输入为将最大池化层的输出记为其中,表示中坐标位置为(x160,y120)的像素点的像素值,表示中坐标位置为(x160,y120)的像素点的像素值,表示中坐标位置为(x160,y120)的像素点的像素值,表示中坐标位置为(x80,y60)的像素点的像素值,1≤x80≤80,1≤y60≤60,第一卷积层、第二卷积层和第三卷积层的卷积核的大小均为(3,3)、卷积步长均为(1,1)、卷积核的数目均为256、激活函数均为relu,本文档来自技高网...

【技术保护点】
1.一种基于双学习网络的立体图像视觉显著提取方法,其特征在于包括以下步骤:步骤一:选择一个包含有人类注视图及其对应的立体图像的数据库;然后将数据库中的每幅人类注视图缩放至80×60尺寸,将数据库中的每幅人类注视图对应的立体图像的左视点彩色图像和对应的立体图像的左视差图像均缩放至640×480尺寸;再将所有80×60尺寸的人类注视图、所有640×480尺寸的左视点彩色图像、所有640×480尺寸的左视差图像构成训练集,将训练集中的第k幅80×60尺寸的人类注视图记为

【技术特征摘要】
1.一种基于双学习网络的立体图像视觉显著提取方法,其特征在于包括以下步骤:步骤一:选择一个包含有人类注视图及其对应的立体图像的数据库;然后将数据库中的每幅人类注视图缩放至80×60尺寸,将数据库中的每幅人类注视图对应的立体图像的左视点彩色图像和对应的立体图像的左视差图像均缩放至640×480尺寸;再将所有80×60尺寸的人类注视图、所有640×480尺寸的左视点彩色图像、所有640×480尺寸的左视差图像构成训练集,将训练集中的第k幅80×60尺寸的人类注视图记为将训练集中的第k幅左视点彩色图像记为将训练集中的第k幅左视差图像记为与和对应;其中,k为正整数,1≤k≤K,K表示数据库中包含的人类注视图的总幅数,也为数据库中包含的立体图像的总幅数,K≥50,表示中坐标位置为(x80,y60)的像素点的像素值,表示中坐标位置为(x640,y480)的像素点的像素值,表示中坐标位置为(x640,y480)的像素点的像素值,1≤x80≤80,1≤y60≤60,1≤x640≤640,1≤y480≤480;步骤二:利用VGG网络模型中的特征提取技术构建深度学习模型,记为MS,其中,深度学习模型的第1个网络块至第5个网络块用于提取彩色特征、第6个网络块至第8个网络块用于提取视差特征、第9个网络块用于融合彩色特征和视差特征、第10个网络块用于进行位置偏好学习、第11个网络块用于进行卷积学习、第12个网络块用于视觉显著特征融合;步骤三:以训练集中的人类注视图为监督,以训练集中的左视点彩色图像和左视差图像为输入参数,对MS进行训练,将训练得到的模型记为MT;其中,训练过程中使用的loss函数为mse函数,使用SGD方法进行MS的梯度下降训练,学习率设置为0.0005;步骤四:将待视觉显著提取的立体图像的左视点彩色图像和左视差图像对应记为{ILt(xLt,yLt)}和{IDt(xDt,yDt)};然后将{ILt(xLt,yLt)}缩放至640×480尺寸,将得到的图像记为{Ilt(x640,y480)};同样,将{IDt(xDt,yDt)}缩放至640×480尺寸,将得到的图像记为{Idt(x640,y480)};其中,ILt(xLt,yLt)表示{ILt(xLt,yLt)}中坐标位置为(xLt,yLt)的像素点的像素值,IDt(xDt,yDt)表示{IDt(xDt,yDt)}中坐标位置为(xDt,yDt)的像素点的像素值,1≤xLt≤W',1≤yLt≤H',1≤xDt≤W',1≤yDt≤H',W'表示{ILt(xLt,yLt)}或{IDt(xDt,yDt)}的宽度,H'表示{ILt(xLt,yLt)}或{IDt(xDt,yDt)}的高度,Ilt(x640,y480)表示{Ilt(x640,y480)}中坐标位置为(x640,y480)的像素点的像素值,Idt(x640,y480)表示{Idt(x640,y480)}中坐标位置为(x640,y480)的像素点的像素值;步骤五:将{Ilt(x640,y480)}和{Idt(x640,y480)}作为输入参数,输入到MT中,得到待视觉显著提取的立体图像的视觉显著图像,记为{IOt(x80,y60)};其中,IOt(x80,y60)表示{IOt(x80,y60)}中坐标位置为(x80,y60)的像素点的像素值,1≤x80≤80,1≤y60≤60。2.根据权利要求1所述的一种基于双学习网络的立体图像视觉显著提取方法,其特征在于所述的步骤二的具体过程如下:步骤A:构建深度学习模型的第1个网络块至第5个网络块,第1个网络块至第5个网络块用于提取彩色特征;第1个网络块包括三层,第一层为第一卷积层、第二层为第二卷积层、第三层为最大池化层,第一卷积层的输入为将第一卷积层的输出记为第二卷积层的输入为将第二卷积层的输出记为最大池化层的输入为将最大池化层的输出记为其中,表示中坐标位置为(x640,y480)的像素点的像素值,表示中坐标位置为(x640,y480)的像素点的像素值,表示中坐标位置为(x320,y240)的像素点的像素值,1≤x320≤320,1≤y240≤240,第一卷积层和第二卷积层的卷积核的大小均为(3,3)、卷积步长均为(1,1)、卷积核的数目均为64、激活函数均为relu,最大池化层的步长为(2,2),1≤k≤K;第2个网络块包括三层,第一层为第一卷积层、第二层为第二卷积层、第三层为最大池化层,第一卷积层的输入为将第一卷积层的输出记为第二卷积层的输入为将第二卷积层的输出记为最大池化层的输入为将最大池化层的输出记为其中,表示中坐标位置为(x320,y240)的像素点的像素值,表示中坐标位置为(x320,y240)的像素点的像素值,表示中坐标位置为(x160,y120)的像素点的像素值,1≤x160≤160,1≤y120≤120,第一卷积层和第二卷积层的卷积核的大小均为(3,3)、卷积步长均为(1,1)、卷积核的数目均为128、激活函数均为relu,最大池化层的步长为(2,2),1≤k≤K;第3个网络块包括四层,第一层为第一卷积层、第二层为第二卷积层、第三层为第三卷积层、第四层为最大池化层,第一卷积层的输入为将第一卷积层的输出记为第二卷积层的输入为将第二卷积层的输出记为第三卷积层的输入为将第三卷积层的输出记为最大池化层的输入为将最大池化层的输出记为其中,表示中坐标位置为(x160,y120)的像素点的像素值,表示中坐标位置为(x160,y120)的像素点的像素值,表示中坐标位置为(x160,y120)的像素点的像素值,表示中坐标位置为(x80,y60)的像素点的像素值,1≤x80≤80,1≤y60≤60,第一卷积层、第二卷积层和第三卷积层的卷积核的大小均为(3,3)、卷积步长均为(1,1)、卷积核的数目均为256、激活函数均为relu,最大池化层的步长为(2,2),1≤k≤K;第4个网络块包括四层,第一层为第一卷积层、第二层为第二卷积层、第三层为第三卷积层、第四层为最大池化层,第一卷积层的输入为将第一卷积层的输出记为第二卷积层的输入为将第二卷积层的输出记为第三卷积层的输入为将第三卷积层的输出记为最大池化层的输入为将最大池化层的输出记为其中,表示中坐标位置为(x80,y60)的像素点的像素值,表示中坐标位置为(x80,y60)的像素点的像素值,表示中坐标位置为(x80,y60)的像素点的像素值,表示中坐标位置为(x80,y60)的像素点的像素值,第一卷积层、第二卷积层和第三卷积层的卷积核的大小均为(3,3)、卷积步长均为(1,1)、卷积核的数目均为512、激活函数均为relu,最大池化层的步长为(1,1),1≤k≤K;第5个网络块包括三层,第一层为第一卷积层、第二层为第二卷积层、第三层为第三卷积层,第一卷积层的输入为将第一卷积层的输出记为第二卷积层的输入为将第二卷积层的输出记为第三卷积层的输入为将第三卷积层的输出记为其中,表示中坐标位置为(x80,y60)的像素点的像素值,表示中坐标位置为(x80,y60)的像素点的像素值,表示中坐标位置为(x80,y60)的像素点的像素值,第一卷积层、第二卷积层和第三卷积层的卷积...

【专利技术属性】
技术研发人员:周武杰蔡星宇周扬邱薇薇张宇来向坚
申请(专利权)人:浙江科技学院
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1