当前位置: 首页 > 专利查询>南京大学专利>正文

一种保留图片相关性信息的图片拼接方法技术

技术编号:13620106 阅读:145 留言:0更新日期:2016-08-31 11:34
本发明专利技术公开了一种保留图片相关性信息的图片拼接方法,包括以下步骤:步骤1,相关性分析:采集待拼接的图片得到图片集,并使每张图片获得一个类标签,再由t分布随机领域嵌入方法t‑SNE方法将图片的相关性信息嵌入到初始展示面板分布中,得到t‑SNE分布结果;步骤2,初始化展示面板子区域;步骤3,展示面板子区域划分:结合子区域优化及错误位置校正方法,确定每幅图片的朝向角θ、摆放位置、缩放尺度,并保证图片的相关性信息不被丢失;步骤4,无缝混合渲染:基于概率混合模型对展示面板子区域之间的边界区域进行无缝混合渲染,从而完成图片集中图片的剪切拼接。

【技术实现步骤摘要】

本专利技术属于计算机图像、多媒体信息技术等领域,尤其涉及一种保留图片相关性信息的图片拼接方法
技术介绍
随着手持照相设备的日益普及,人们拍照更加方便,获取的图片更加丰富,继而对图片集自动管理技术的需求更加突显。作为一种重要的图片集摘要和展示技术,图片拼贴近年来正受到越来越多的重视。图片拼贴的主要目的在于提供一个紧致、丰富而美观的图片集摘要图。由于手动制作这样的拼贴摘要图需要用到一些专业的图片编辑技巧同时耗时颇多,自动化的拼贴摘要图生成技术近年来成为了一个研究热点。传统的图片拼贴方法一般基于构造一个优化框架,将拼贴结果的好坏以某种客观标准加以量化,此优化方程通常具有复杂的非线性形式。由于每张图片的状态决定于若干参数,总共可能产生成百上千个参数需要优化。在如此复杂的非线性优化方程中求解如此规模的优化解通常是低效的,同时也很容易陷入局部最优解。尽管一些提升求解效率的方法已先后被提出,但此类方法仍有其固有的局限性。目前所提出的方法具有许多方面的不足。第一,每张图片的最优状态参数往往与其它若干图片的状态紧耦合,导致某张图片状态的更新全局性或局部地影响到其它图片,从而导致拼贴的可扩展性很差。第二,用于拼接的图片集中,往往包含很多语义信息,以往的方法都会忽略这一重要信息,只是随机的将图片拼接在一起。第三,不能对图片感兴趣区域进行最大化展示,若只提取每张图片的感兴趣区域,并允许该区域的形状为不规则多边形,则可以在最大化展示图片主要内容的同时,使得拼接结果更加紧凑。
技术实现思路
专利技术目的:本专利技术提供一种保留图片相关性信息的图片拼接方法,可以保留图片集中图片之间的相关性信息,突出各个图片中的主题内容,且能够更高效地利用面板空间。技术方案:本专利技术公开了一种保留图片相关性信息的图片拼接方法,其核心在于保留图片之间相关性信息的同时最大化展示图片的主要内容,包括以下步骤:步骤1,相关性分析:采集待拼接的图片得到图片集,采用扩展了的深度神经网络(Convolutional Neural Networks,简称CNN)模型提取每张图片的语义描述,并使每张图片获得一个类标签,再由t分布随机领域嵌入方法(t-Distributed Stochastic Neighbor Embedding,简称t-SNE,该方法参见Van der Maaten等发表于Journal of Machine Learning Research的论文《Visualizing data using t-SNE》)将图片的相关性信息嵌入到初始展示面板分布中,得到t-SNE(t分布随机领域嵌入方法,t-Distributed Stochastic Neighbor Embedding,简称t-SNE)分布结果。步骤2,初始化展示面板子区域:结合显著性检测和人脸检测,提取每张图片的ROI关注区域(Region of Interest,简称ROI关注区域),该区域形状可以是不规则多边形,缩放t-SNE分布结果,使其与展示面板大小相等,并作为初始展示面板,将每张图片的ROI关注区域送入到其在初始展示面板中的对应位置;步骤3,展示面板子区域划分:结合子区域优化及错误位置校正方法,确定每幅图片的朝向角θ、摆放位置、缩放尺度,并保证图片的相关性信息不被丢失;步骤4,无缝混合渲染:基于概率混合模型对展示面板子区域之间的边界区域进行无缝混合渲染,从而完成计算机图片集中图片的剪切拼接。步骤1中,利用扩展了的CNN模型得到图片的相关性信息,并由t-SNE方法将相关性信息映射到二维平面上。所述步骤1具体包括以下步骤:步骤1-1,为得到图片的相关性信息,本方法选取目前最为流行的深度学习方法,卷积神经网络(Convolutional Neural Networks,简称CNN)。首先利用VGG-16CNN模型(该模型参见Simony等发表于arXiv preprint arXiv的论文《Very deep convolutional networks for large-scale image recognition》)对每张图片提取一个4096维的特征向量;步骤1-2,对于一般主题(容易分类的普通类别,如动物、花等,具有明显区别特征)的图片集,将提取的4096维特征向量直接用主成分分析方法(Principal Component Analysis,简称PCA)进行降维处理,得到一个256维的特征向量,再通过k-means算法(k-均值算法,k取值为50)给每一张图片分配一个类标签;对于具有特定主题(难以分类的特殊类别,如旅游、聚会等特征不明显的主题,例如在一个旅游照片集中,让在相同旅游景点拍摄的照片作为一类)的图片集,额外
根据主题内容训练一个两层的全连接神经网络。将4096维的特征作为该两层网络的输入,隐含层设置为256维的双曲正切非线性激活函数,输出层获得一个关于主题内容的类标签,即将由VGG-16CNN(该模型参见Simony等发表于arXiv preprint arXiv的论文《Very deep convolutional networks for large-scale image recognition》)模型得到的4096维特征向量作为输入,然后输出其在特定域内的类别。步骤1-3,采用t-SNE方法将每张图片映射到一个2维平面上,使同类图片的位置相近,得到一个t-SNE分布结果;步骤2中,提取每张图片的ROI区域,并将这些区域送入到步骤1中获得的t-SNE分布结果中,得到一个初始展示画板分布。步骤2具体包括以下步骤:步骤2-1,结合显著性检测和人脸检测,提取每张图片的ROI关注区域,该区域的形状可以为任意多边形。显著性检测采用Jiang等提出的方法(该方法参考Jiang等发表于Proceedings of the IEEE conference on computer vision and pattern recognition的《A discriminative regional feature integration approach》的论文),为了保证人们通常更加敏感的人脸能得到充分显示,使用OpenCV中的人脸检测算法(该算法可参见PaulViola和MichaelJones发表于CVPR的《RapidObjectDetectionusingaBoostedCascadeofSimpleFeature》)检测人脸区域,将该区域内显著性置为最大;步骤2-2,将步骤1得到的t-SNE分布结果进行缩放,使其与用来图片拼接的展示面板大小相等,并作为初始展示面板,将每张图片的ROI关注区域缩小为原始大小的30%后送入到其在初始展示面板中的对应位置,得到一个初始展示面板分布结果。步骤3中,展示面板子区域划分过程中,通过计算设定每幅图片的朝向角、摆放位置和缩放尺度使得每幅图片在展示画板上最大化地呈现其主要内容,并保证图片的相关性信息不被丢失。步骤3具体包括以下步骤:步骤3-1,根据步骤2-2得到的初始展示面板分布结果,将展示面板划分为一个个包含图片ROI关注区域的子区域,采集ROI关注区域多边形的边,并利用德洛内三角方法(Delaunay Triangul本文档来自技高网
...
一种保留图片相关性信息的图片拼接方法

【技术保护点】
一种保留图片相关性信息的图片拼接方法,其特征在于,包括以下步骤:步骤1,相关性分析:采集待拼接的图片得到图片集,采用扩展了的CNN模型提取每张图片的语义描述,并使每张图片获得一个类标签,再由t分布随机领域嵌入方法将图片的相关性信息嵌入到初始展示面板分布中,得到t‑SNE分布结果;步骤2,初始化展示面板子区域:结合显著性检测和人脸检测,提取每张图片的ROI关注区域,缩放t‑SNE分布结果,使其与展示面板大小相等,并作为初始展示面板,将每张图片的ROI关注区域送入到其在初始展示面板中的对应位置;步骤3,展示面板子区域划分:结合子区域优化及错误位置校正方法,确定每幅图片的朝向角θ、摆放位置、缩放尺度,并保证图片的相关性信息不被丢失;步骤4,无缝混合渲染:基于概率混合模型对展示面板子区域之间的边界区域进行无缝混合渲染,从而完成图片集中图片的剪切拼接。

【技术特征摘要】
1.一种保留图片相关性信息的图片拼接方法,其特征在于,包括以下步骤:步骤1,相关性分析:采集待拼接的图片得到图片集,采用扩展了的CNN模型提取每张图片的语义描述,并使每张图片获得一个类标签,再由t分布随机领域嵌入方法将图片的相关性信息嵌入到初始展示面板分布中,得到t-SNE分布结果;步骤2,初始化展示面板子区域:结合显著性检测和人脸检测,提取每张图片的ROI关注区域,缩放t-SNE分布结果,使其与展示面板大小相等,并作为初始展示面板,将每张图片的ROI关注区域送入到其在初始展示面板中的对应位置;步骤3,展示面板子区域划分:结合子区域优化及错误位置校正方法,确定每幅图片的朝向角θ、摆放位置、缩放尺度,并保证图片的相关性信息不被丢失;步骤4,无缝混合渲染:基于概率混合模型对展示面板子区域之间的边界区域进行无缝混合渲染,从而完成图片集中图片的剪切拼接。2.根据权利要求1所述的一种保留图片相关性信息的图片拼接方法,其特征在于,步骤1包括以下步骤:步骤1-1,采用VGG-16CNN模型对每张图片提取一个4096维的特征向量;步骤1-2,对于一般主题的图片集,将提取的4096维特征向量直接用PCA方法进行降维处理,得到一个256维的特征向量,再通过k-means算法给每一张图片分配一个类标签;对于具有特定主题的图片集,根据主题内容额外训练一个两层的全连接神经网络,将4096维的特征作为该两层网络的输入,隐含层设置为256维的双曲正切非线性激活函数,输出层获得一个关于主题内容的类标签;步骤1-3,采用t-SNE方法将每张图片映射到一个2维平面上,使同类图片的位置相近,得到t-SNE分布结果。3.根据权利要求2所述的一种保留图片相关性信息的图片拼接方法,其特征在于,步骤2包括以下步骤:步骤2-1,结合显著性检测和人脸检测,提取每张图片的ROI关注区域;步骤2-2,将步骤1得到的t-SNE分布结果进行缩放,使其与用来图片拼接的展示面板大小相等,并作为初始展示面板,将每张图片的ROI关注区域缩小为原始大小的30%后送入到其在初始展示面板中的对应位置,得到一个初始展示面板分布结果。4.根据权利要求3所述的一种保留图片相关性信息的图片拼接方法,其特征在于,步
\t骤3包括以下步骤:步骤3-1,根据步骤2-2得到的初始展示面板分布结果,将展示面板划分为一个个包含图片ROI关注区域的子区域,采集ROI关注区域多边形的边,并利用德洛内三角方法使这些边及对应顶点形成三角形,由这些三角形形成每个ROI关注区域的CAT区域;步骤3-2,子区域优化确定坐标、缩放尺度及方向角:寻找CAT区域中的最大ROI关注区域,最大化展示面板的覆盖率,该过程采用如下公式计算:Maximize f(t,θ,s)=s,满足于: ( p k ( t , θ , s ) - e j 0 ) * e j | e j | ≥ 0 , ]]>其中t、θ、s分别表示坐标变换、方向角和缩放尺度,1≤k≤M,j∈E...

【专利技术属性】
技术研发人员:张鸿杰刘玲洁郭延文陈中贵王文平
申请(专利权)人:南京大学
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1