【技术实现步骤摘要】
图像裁剪方法和装置
[0001]本公开的实施例涉及图像裁剪
,具体涉及图像裁剪方法和装置。
技术介绍
[0002]图像裁剪旨在从给定场景中定位局部区域,其中局部区域应具有比原始场景中更美的视角。通过使用现成的图像裁剪方法作为图像预处理工具,图像可以自动呈现更高的审美分数,并且最终使得编辑后的图像可以具有与专业摄影师编辑几乎相同的质量。然而,图像裁剪是一项有挑战的任务,因为专业摄影师进行的精确编辑过程通常非常复杂,需要大量特定的培训技能。
[0003]智能图像裁剪是用于提升图像美学效果的有效途径之一,它被广泛地应用于摄影图像的后期处理中。图像裁剪的目的是将图像中冗余的部分裁去,保留符合审美的部分,合理地安排各个构图元素的分布,从而改善图像的整体构图,提升图像的美学质量。图像裁剪可以应用于多视角推荐、海报生成、图像缩略图生成等应用中。近年来,随着深度学习算法在计算机视觉方面的快速发展,越来越多的研究工作将深度学习应用到智能图像裁剪领域。但是如何裁剪出更符合人类审美的图像,是该任务的最大难点。
技术实现思路
< ...
【技术保护点】
【技术特征摘要】
1.一种图像裁剪方法,包括:获取待裁剪图像;将所述待裁剪图像分别输入美学分支模型和构图分支模型,得到多个预选框的中心点坐标和对应多个预选框的高度和宽度,其中,所述美学分支模型是预先训练的图像裁剪模型包括的分支模型,所述构图分支模型是所述预先训练的图像裁剪模型包括的分支模型;利用所得到的多个预选框的中心点坐标和对应多个预选框的高度和宽度,确定多个预选框的位置;利用极大值抑制技术从所述多个预选框的位置中筛选出与预设标准裁剪框位置之间的交并比最大的前N个预选框,作为候选框集合,其中,N是正整数;将所述待裁剪图像输入裁剪分支模型,得到裁剪特征,其中,所述裁剪分支模型是所述预先训练的图像裁剪模型包括的分支模型,所述裁剪分支模型是使用预设数据集进行预训练得到的;利用感兴趣区域对齐模块将所述候选框集合与所述裁剪特征进行对齐,以及利用全连接层根据所述裁剪特征回归裁剪坐标训练,得到最终裁剪图像。2.根据权利要求1所述的方法,其中,所述预先训练的图像裁剪模型是通过以下步骤训练得到的:获取裁剪数据集、美学数据集和构图数据集,其中,所述裁剪数据集中的每个裁剪数据包括裁剪图像,所述裁剪图像标注有裁剪框,所述美学数据集中的每个美学数据包括美学图像,所述美学图像标注美学图像质量分数分布,所述构图数据集中的每个构图数据包括构图图像,所述构图图像标注构图质量分数;将所述裁剪数据集中包括的每个裁剪图像输入所述美学分支模型,得到多个预选框的中心点坐标,其中,所述美学分支模型是使用所述美学数据集进行预训练得到的;将所述裁剪数据集中包括的每个裁剪图像输入所述构图分支模型,根据所述多个预选框的中心点坐标,得到对应多个预选框的高度和宽度,其中,所述构图分支模型是使用所述构图数据集进行预训练得到的;利用所得到的多个预选框的中心点坐标和对应多个预选框的高度和宽度,确定多个预选框的位置;利用极大值抑制技术从所述多个预选框的位置中筛选出与预设标准裁剪框位置之间的交并比最大的前N个预选框,作为候选框集合,其中,N是正整数;利用感兴趣区域对齐模块将所述候选框集合与所述裁剪分支模型生成的裁剪特征进行对齐,得到对齐后裁剪特征;利用所述对齐后裁剪特征进行回归,得到最终裁剪图像;设计用于训练所述美学分支模型和所述构图分支模型生成候选框集合的第一损失函数;设计用于训练所述裁剪分支模型回归最终裁剪结果的第二损失函数;利用所述第一损失函数和所述第二损失函数调整所述美学分支模型、所述构图分支模型和所述裁剪分支模型。3.根据权利要求2所述的方法,其中,所述预先训练的图像裁剪模型采用在预设数据集上预训练的残差网络模型,且由所述残差网络模型去除最后一个最大池化层的所有卷积块
组成,其中,所述美学分支模型的骨架网络在所述美学数据集上训练参数,所述构图分支模型的骨架网络在所述构图数据集上训练参数。4.根据权利要求3所述的方法,其中,确定多个预选框的中心点坐标和对应多个预选框的高度和宽度的过程符合条件概率分布,所述条件概率分布利用以下公式表示:P(x,y,h,w|X)=P(x,y|F
aes
)
×
P(w,h|x,y,F
comp
),其中,x表示预选框的中心点坐标中的横坐标,y表示预选框的中心点坐标中的纵坐标,w表示预选框的宽度,h表示预选框的高度,X表示输入图像,P(x,y,h,w|X)表示所述条件概率分布,P(x,y|F
aes
)表示输入美学特征后对应中心点坐标的概率分布,F
aes
表示所述美学分支模型输出特征,P(w,h|x,y,F
comp
)表示输入构图特征和中心点坐标后生成预选框高度和宽度的概率分布,F
comp
表示所述构图分支模型输出特征,其中,输入美学特征后对应中心点坐标概率分布利用以下公式表示:其中,x表示预选框的中心点坐标中的横坐标,y表示预选框的中心点坐标中的纵坐标,F
aes
表示所述美学分支模型输出特征,P(x,y|F
aes
)表示输入美学特征后对应中心点坐标的概率分布,θ表示美学特征对应概率的筛选阈值,Sigmoid()表示对概率分布...
【专利技术属性】
技术研发人员:史腾飞,谢雪光,高阳,郝爱民,
申请(专利权)人:北京航空航天大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。