一种SAM模型增强的CNN-RoI下的图像自动裁切方法及系统技术方案

技术编号：41250847 阅读：3 留言：0更新日期：2024-05-09 23:59

本发明专利技术公开了一种SAM模型增强的CNN‑RoI下的图像自动裁切方法及系统包括，通过利用SAM模型对于图像分割表达图像特征的显著优势，再应用网格候选框的裁切划分思维；在此基础上，利用深度学习的CNN网络和RoI、RoD综合对图像进行特征提取和分析，找出图像中的最佳候选裁切区域，进而实现图像的自动裁切；本发明专利技术的预训练神经网络模型不仅能够适应各种不同的纵横比，而且还能输出最具视觉吸引力的裁剪结果，使得无论从色彩的搭配，还是从构图的布局，都能够提供出最为满意的裁剪效果，在处理各种主题和风格的图像时也都有良好的表现；另外，本发明专利技术实现起来也非常简单且易于部署，具有很好的应用前景。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及计算机视觉和深度学习，尤其涉及一种sam模型增强的cnn-roi下的图像自动裁切方法及系统。

技术介绍

1、随着数字技术和社交媒体的快速发展，图像在我们日常生活中的应用已趋于普遍。每天，全球范围内的用户们都会生成和分享大量的图像数据。然而，由于各种原因，如拍摄条件、拍摄角度、拍摄设备等，这些图像的构图和美学质量可能并不理想。因此，对这些图像进行裁剪，以改进其构图和提升其美学质量，已成为一个重要且具有实际应用价值的研究课题。

2、图像自动裁剪是一种常见的图像处理任务，其目标是通过技术手段，对图像进行剪裁处理，增强构图和提升图像美学质量。一个优秀的图像自动剪裁模型还应该能够应对各种各样的图像类型，适应各种不同的裁剪需求。

3、然而，图像自动裁剪是一种具有挑战性的任务。首先，图像本身的多样性和复杂性意味着对图像的裁剪必须考虑到各种因素，如图像的内容、色彩、纹理等。其次，不同的人对于图像美学的偏好和标准可能不尽相同，这使得图像自动裁剪必须在尽可能满足多样化需求的同时，也保持一定的通用性和适应性。此外，目前大多数图像自动裁剪方法都基于特定的特征，它们采用滑窗口法来生成大量的候选裁剪窗口，然后依据这些特定特征来选择最终结果，这样做既费时，也对硬件有高昂的要求。

4、为了解决上述问题，图像自动裁剪领域的研究已经从基于注意力的方法和基于美学的方法，向深度学习和强化学习的方法转变。深度学习和强化学习的方法试图通过模拟人类的裁剪过程和决策机制，提高裁剪的效率和质量。然而，这种方法也面临着一些挑战，如

5、这些公共资源使得众多科研工作者得以构建和验证他们的裁剪算法，从而显著推进了自动图像裁剪领域的进展。然而，鉴于图像裁剪的主观性和灵活性，即便在一定的宽高比或分辨率限制下，各种可接受的裁剪结果可能依然存在显著的差异。这使得当前只包含少数标注的裁剪数据库在培养稳定可靠的裁剪模型方面面临困难。因此，如何有效利用这些数据库，如何制定更优化的学习及评价策略，仍是自动图像裁剪领域的关键研究课题。

技术实现思路

1、本部分的目的在于概述本专利技术的实施例的一些方面以及简要介绍一些较佳实施例。在本部分以及本申请的说明书摘要和专利技术名称中可能会做些简化或省略以避免使本部分、说明书摘要和专利技术名称的目的模糊，而这种简化或省略不能用于限制本专利技术的范围。

2、鉴于上述现有存在的问题，提出了本专利技术。因此，本专利技术提供了一种sam模型增强的cnn-roi下的图像自动裁切方法，用来解决
技术介绍
中的问题。

3、为解决上述技术问题，本专利技术提供如下技术方案：

4、第一方面，本专利技术提供了一种sam模型增强的cnn-roi下的图像自动裁切方法，包括：

5、将图像输入至sam模型，并通过所述sam模型对所述图像生成分割掩膜；

6、将所述生成分割掩膜与原始输入图像进行合并，并基于网格候选框生成有限个候选裁切；

7、利用多类型cnn预训练神经网络模型作为特征提取器，提取所述生成有限个候选裁切中的图像特征；

8、通过降维卷积层将所述图像特征映射至比原图像特征更低的维度，同时利用感兴趣区域roi和非感兴趣区域rod两个特征采样器，得到精确图像特征采样；

9、将roi特征和rod特征进行合并，并使用全连接层进行裁切评分预测，自动生成最终的裁切图像。

10、作为本专利技术所述的sam模型增强的cnn-roi下的图像自动裁切方法的一种优选方案，其中：将图像输入至sam模型，并通过所述sam模型对所述图像生成分割掩膜，包括：

11、根据输入的图像，使用sam模型的samautomaticmaskgenerator模块，通过所述sam模型在图像上采样单点的输入，为整个图像生成若干个候选掩膜，并产生稀疏提示，生成整个图像的分割掩膜。

12、作为本专利技术所述的sam模型增强的cnn-roi下的图像自动裁切方法的一种优选方案，其中：将所述生成分割掩膜与原始输入图像进行合并，并基于网格候选框生成有限个候选裁切，包括：

13、将单通道分割掩膜与原始输入图像合并，形成一个具有两个通道的图像，同时在合并的两通道图像中，保留原始图像的所有像素信息，并将分割掩膜的像素值作为第二通道的数据；

14、所述裁切的过程如下，对于一个分辨率为h×w的图像，构建一个m×n个网格的图像网格，并在网格中心上定义一个裁剪区域的角点(x1，y1)和(x2，y2)，将所述网格中心作为锚点，生成周围的裁剪区域，限制裁剪区域的锚点(x1，y1)和(x2，y2)在原图像左上角和右下角的m×n个网格内，将候选裁剪区域的数量从减少到m2n2。

15、作为本专利技术所述的sam模型增强的cnn-roi下的图像自动裁切方法的一种优选方案，其中：还包括：

16、裁剪区域的面积不得小于源图像整个面积的一定比例，公式表示为：

17、scrop≥λsimage

18、

19、并且可接受的候选裁剪区域的长宽比满足：

20、

21、其中，scrop和simage分别表示裁剪区域和原始图像的面积；wcrop和hcrop分别为裁剪区域的宽度和高度，α1和α2为定义的长宽比的范围。

22、作为本专利技术所述的sam模型增强的cnn-roi下的图像自动裁切方法的一种优选方案，其中：利用多类型cnn预训练神经网络模型作为特征提取器，提取所述生成有限个候选裁切中的图像特征，包括：

23、在确定特征提取模块时，对所述预训练神经网络模型的不同层进行截断，得到最优步幅和感受野；

24、根据所述特征提取模块的结果确定裁剪的位置和大小，且通过参数和平均准确性指标进行选择；

25、其中，感受野不小于图像大小的一半，且步幅不大于32。

26、作为本专利技术所述的sam模型增强的cnn-roi下的图像自动裁切方法的一种优选方案，其中：通过降维卷积层将所述图像特征映射至比原图像特征更低的维度，包括：

27、使用1×1卷积操作，将特征图的通道维度从512减少到8。

28、作为本专利技术所述的sam模型增强的cnn-roi下的图像自动裁切方法的一种优选方案，其中：利用感兴趣区域roi和非感兴趣区域rod两个特征采样器，得到精确图像特征采样，包括：

29、对特征提取模块输出的整个特征图f，利用roialign将感兴趣区域roi的特征图froi转换为具有固定空间分辨率s×s的

30、通过在f中移除froi，构造非感兴趣区域rod的特征图frod；本文档来自技高网...

【技术保护点】

1.一种SAM模型增强的CNN-RoI下的图像自动裁切方法，其特征在于，包括：

2.如权利要求1所述的SAM模型增强的CNN-RoI下的图像自动裁切方法，其特征在于，将图像输入至SAM模型，并通过所述SAM模型对所述图像生成分割掩膜，包括：

3.如权利要求2所述的SAM模型增强的CNN-RoI下的图像自动裁切方法，其特征在于，将所述生成分割掩膜与原始输入图像进行合并，并基于网格候选框生成有限个候选裁切，包括：

4.如权利要求3所述的SAM模型增强的CNN-RoI下的图像自动裁切方法，其特征在于，还包括：

5.如权利要求3或4所述的SAM模型增强的CNN-RoI下的图像自动裁切方法，其特征在于，利用多类型CNN预训练神经网络模型作为特征提取器，提取所述生成有限个候选裁切中的图像特征，包括：

6.如权利要求5所述的SAM模型增强的CNN-RoI下的图像自动裁切方法，其特征在于，通过降维卷积层将所述图像特征映射至比原图像特征更低的维度，包括：

7.如权利要求6所述的SAM模型增强的CNN-RoI下的图像自动裁切方法

8.一种SAM模型增强的CNN-RoI下的图像自动裁切系统，基于权利要求1～7任一所述的SAM模型增强的CNN-RoI下的图像自动裁切方法，其特征在于，包括：

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于：所述处理器执行所述计算机程序时实现权利要求1～7任一所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于：所述计算机程序被处理器执行时实现权利要求1～7任一所述方法的步骤。

...

【技术特征摘要】

1.一种sam模型增强的cnn-roi下的图像自动裁切方法，其特征在于，包括：

2.如权利要求1所述的sam模型增强的cnn-roi下的图像自动裁切方法，其特征在于，将图像输入至sam模型，并通过所述sam模型对所述图像生成分割掩膜，包括：

3.如权利要求2所述的sam模型增强的cnn-roi下的图像自动裁切方法，其特征在于，将所述生成分割掩膜与原始输入图像进行合并，并基于网格候选框生成有限个候选裁切，包括：

4.如权利要求3所述的sam模型增强的cnn-roi下的图像自动裁切方法，其特征在于，还包括：

5.如权利要求3或4所述的sam模型增强的cnn-roi下的图像自动裁切方法，其特征在于，利用多类型cnn预训练神经网络模型作为特征提取器，提取所述生成有限个候选裁切中的图像特征，包括：

6.如权利要求5所述的sam...

【专利技术属性】
技术研发人员：赵海涛，张凌豪，刘鹏飞，陈科齐，徐波，
申请(专利权)人：南京邮电大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人