图像拉伸识别及模型训练方法技术

技术编号：39493148 阅读：6 留言：0更新日期：2023-11-24 11:18

本说明书公开了一种图像拉伸识别及模型训练方法

全部详细技术资料下载

【技术实现步骤摘要】
图像拉伸识别及模型训练方法、装置、设备、介质及产品

[0001]本说明书涉及计算机
，尤其涉及一种图像拉伸识别及模型训练方法
、
装置
、
设备
、
介质及产品
。

技术介绍

[0002]随着短视频和直播技术的普及和兴起，相关的图像和视频内容正呈现爆炸式增长
。
这些内容中，特别需要注意的元素是图像或视频的封面
。
然而，由于各个内容提供者采用不同的封面处理方法，许多图像封面会发生形变，尤其是拉伸变形，从而可能对观众造成视觉上的不适感
。
因此，亟需一种对图像拉伸进行更准确
、
高效识别的解决方案
。

技术实现思路

[0003]本说明书实施例提供了一种图像拉伸识别及模型训练方法
、
装置
、
设备
、
介质及产品，通过结合待识别图像中多个不同类型的特征数据共同识别待识别图像是否处于拉伸状态，从而提高了图像拉伸识别的准确性和效率
。
上述技术方案如下：
[0004]第一方面，本说明书实施例提供了一种图像拉伸检测方法，包括：
[0005]获取待识别图像；
[0006]将上述待识别图像输入图像拉伸识别模型，得到多个不同类型的特征数据，并基于上述多个不同类型的特征数据输出上述待识别图像对应的图像拉伸识别结果；上述图像拉伸识别模型基于多张已知状态标签的图像训练得到，上述状态标签包括拉伸标签和非...

【技术保护点】

【技术特征摘要】
1.
一种图像拉伸识别方法，所述方法包括：获取待识别图像；将所述待识别图像输入图像拉伸识别模型，得到多个不同类型的特征数据，并基于所述多个不同类型的特征数据输出所述待识别图像对应的图像拉伸识别结果；所述图像拉伸识别模型基于多张已知状态标签的图像训练得到，所述状态标签包括拉伸标签和非拉伸标签
。2.
根据权利要求1所述的方法，所述图像拉伸识别模型包括深度双分支卷积神经网络，所述深度双分支卷积神经网络包括两个不同类型的特征提取分支网络；所述将所述待识别图像输入图像拉伸识别模型，得到多个不同类型的特征数据，并基于所述多个不同类型的特征数据输出所述待识别图像对应的图像拉伸识别结果，包括：将所述待识别图像输入所述深度双分支卷积神经网络的第一特征提取分支网络中，输出所述待识别图像对应的第一特征数据；将所述待识别图像输入所述深度双分支卷积神经网络的第二特征提取分支网络中，输出所述待识别图像对应的第二特征数据；将所述第一特征数据和所述第二特征数据进行融合，得到融合特征数据；基于所述融合特征数据输出所述待识别图像对应的图像拉伸识别结果
。3.
根据权利要求2所述的方法，所述第一特征数据和所述第二特征数据均包括长维度
、
宽维度和通道维度；所述将所述第一特征数据和所述第二特征数据进行融合，得到融合特征数据，包括：将所述第一特征数据和所述第二特征数据进行矩阵乘法，以消除所述第一特征数据和所述第二特征数据的长维度和宽维度，得到所述融合特征数据；所述融合特征数据包括通道维度
。4.
根据权利要求2所述的方法，所述深度双分支卷积神经网络的第一特征提取分支网络为
EfficientNet
网络，所述深度双分支卷积神经网络的第二特征提取分支网络为
Spatial CNN
网络
。5.
根据权利要求1所述的方法，所述将待识别图像输入图像拉伸识别模型之前，所述方法还包括：将所述待识别图像进行旋转，得到所述待识别图像对应的多张旋转后图像，所述多张旋转后图像各自对应的旋转角度不同；所述将所述待识别图像输入图像拉伸识别模型，得到多个不同类型的特征数据，并基于所述多个不同类型的特征数据输出所述待识别图像对应的图像拉伸识别结果，包括：将所述待识别图像对应的旋转后图像输入图像拉伸识别模型，得到多个不同类型的特征数据，并基于所述多个不同类型的特征数据输出所述旋转后图像对应的图像拉伸识别结果；基于所述多张旋转后图像各自对应的图像拉伸识别结果，确定所述待识别图像的图像拉伸识别结果
。6.
根据权利要求1所述的方法，所述图像拉伸识别结果包括拉伸概率；所述将所述待识别图像输入图像拉伸识别模型，得到多个不同类型的特征数据，并基于所述多个不同类型的特征数据输出所述待识别图像对应的图像拉伸识别结果之后，所述
方法还包括：判断所述拉伸概率是否大于拉伸判定阈值；若是，则确定所述待识别图像为拉伸图像；若否，则确定所述待识别图像为非拉伸图像
。7.
根据权利要求1所述的方法，所述获取待识别图像之后，所述将待识别图像输入图像拉伸识别模型之前，所述方法还包括：将所述待识别图像进行等比例缩放填充到预设尺寸模板中，若所述预设尺寸模板中存在未填充部分，在所述未填充部分中填充预设像素，以得到满足预设尺寸的所述待识别图像
。8.
一种图像拉伸识别模型训练方法，所述方法包括：获取多张已知状态标签的图像；所述状态标签包括拉伸标签和非拉伸标签；将所述已知状态标签的图像输入图像拉伸识别模型中，得到多个不同类型的特征数据，并基于...

【专利技术属性】
技术研发人员：饶展，
申请(专利权)人：支付宝杭州信息技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人