图像拉伸识别及模型训练方法技术

技术编号:39493148 阅读:6 留言:0更新日期:2023-11-24 11:18
本说明书公开了一种图像拉伸识别及模型训练方法

【技术实现步骤摘要】
图像拉伸识别及模型训练方法、装置、设备、介质及产品


[0001]本说明书涉及计算机
,尤其涉及一种图像拉伸识别及模型训练方法

装置

设备

介质及产品


技术介绍

[0002]随着短视频和直播技术的普及和兴起,相关的图像和视频内容正呈现爆炸式增长

这些内容中,特别需要注意的元素是图像或视频的封面

然而,由于各个内容提供者采用不同的封面处理方法,许多图像封面会发生形变,尤其是拉伸变形,从而可能对观众造成视觉上的不适感

因此,亟需一种对图像拉伸进行更准确

高效识别的解决方案


技术实现思路

[0003]本说明书实施例提供了一种图像拉伸识别及模型训练方法

装置

设备

介质及产品,通过结合待识别图像中多个不同类型的特征数据共同识别待识别图像是否处于拉伸状态,从而提高了图像拉伸识别的准确性和效率

上述技术方案如下:
[0004]第一方面,本说明书实施例提供了一种图像拉伸检测方法,包括:
[0005]获取待识别图像;
[0006]将上述待识别图像输入图像拉伸识别模型,得到多个不同类型的特征数据,并基于上述多个不同类型的特征数据输出上述待识别图像对应的图像拉伸识别结果;上述图像拉伸识别模型基于多张已知状态标签的图像训练得到,上述状态标签包括拉伸标签和非拉伸标签

[0007]在一种可能的实现方式中,上述图像拉伸识别模型包括深度双分支卷积神经网络,上述深度双分支卷积神经网络包括两个不同类型的特征提取分支网络;
[0008]上述将上述待识别图像输入图像拉伸识别模型,得到多个不同类型的特征数据,并基于上述多个不同类型的特征数据输出上述待识别图像对应的图像拉伸识别结果,包括:
[0009]将上述待识别图像输入上述深度双分支卷积神经网络的第一特征提取分支网络中,输出上述待识别图像对应的第一特征数据;
[0010]将上述待识别图像输入上述深度双分支卷积神经网络的第二特征提取分支网络中,输出上述待识别图像对应的第二特征数据;
[0011]将上述第一特征数据和上述第二特征数据进行融合,得到融合特征数据;
[0012]基于上述融合特征数据输出上述待识别图像对应的图像拉伸识别结果

[0013]在一种可能的实现方式中,上述第一特征数据和上述第二特征数据均包括长维度

宽维度和通道维度;
[0014]上述将上述第一特征数据和上述第二特征数据进行融合,得到融合特征数据,包括:
[0015]将上述第一特征数据和上述第二特征数据进行矩阵乘法,以消除上述第一特征数
据和上述第二特征数据的长维度和宽维度,得到上述融合特征数据;上述融合特征数据包括通道维度

[0016]在一种可能的实现方式中,上述深度双分支卷积神经网络的第一特征提取分支网络为
EfficientNet
网络,上述深度双分支卷积神经网络的第二特征提取分支网络为
Spatial CNN
网络

[0017]在一种可能的实现方式中,上述将待识别图像输入图像拉伸识别模型之前,上述方法还包括:
[0018]将上述待识别图像进行旋转,得到上述待识别图像对应的多张旋转后图像,上述多张旋转后图像各自对应的旋转角度不同;
[0019]上述将上述待识别图像输入图像拉伸识别模型,得到多个不同类型的特征数据,并基于上述多个不同类型的特征数据输出上述待识别图像对应的图像拉伸识别结果,包括:
[0020]将上述待识别图像对应的旋转后图像输入图像拉伸识别模型,得到多个不同类型的特征数据,并基于上述多个不同类型的特征数据输出上述旋转后图像对应的图像拉伸识别结果;
[0021]基于上述多张旋转后图像各自对应的图像拉伸识别结果,确定上述待识别图像的图像拉伸识别结果

[0022]在一种可能的实现方式中,上述图像拉伸识别结果包括拉伸概率;
[0023]上述将上述待识别图像输入图像拉伸识别模型,得到多个不同类型的特征数据,并基于上述多个不同类型的特征数据输出上述待识别图像对应的图像拉伸识别结果之后,上述方法还包括:
[0024]判断上述拉伸概率是否大于拉伸判定阈值;
[0025]若是,则确定上述待识别图像为拉伸图像;
[0026]若否,则确定上述待识别图像为非拉伸图像

[0027]在一种可能的实现方式中,上述获取待识别图像之后,上述将待识别图像输入图像拉伸识别模型之前,上述方法还包括:
[0028]将上述待识别图像进行等比例缩放填充到预设尺寸模板中,若上述预设尺寸模板中存在未填充部分,在上述未填充部分中填充预设像素,以得到满足预设尺寸的上述待识别图像

[0029]第二方面,本说明书实施例提供了一种图像拉伸识别模型训练方法,包括:
[0030]获取多张已知状态标签的图像,上述状态标签包括拉伸标签和非拉伸标签;
[0031]将上述已知状态标签的图像输入图像拉伸识别模型中,得到多个不同类型的特征数据,并基于上述多个不同类型的特征数据输出上述已知状态标签的图像对应的预测图像拉伸识别结果;
[0032]基于上述多张已知状态标签的图像各自对应的预测图像拉伸识别结果和状态标签更新上述图像拉伸识别模型;上述图像拉伸识别模型用于实现本说明书实施例第一方面或第一方面的任意一种可能的实现方式中的图像拉伸识别方法

[0033]在一种可能的实现方式中,上述获取多张已知状态标签的图像,包括:
[0034]获取多张基准图像;
[0035]确定上述多张基准图像各自对应的图像处理类型;上述图像处理类型包括非拉伸处理类型

高度拉伸处理类型和宽度拉伸处理类型;
[0036]将上述基准图像按照对应的图像处理类型和拉伸比例进行拉伸处理,得到处理后图像;
[0037]将上述拉伸比例大于拉伸阈值的处理后图像,设置为拉伸标签对应的图像;
[0038]将上述拉伸比例不大于上述拉伸阈值的处理后图像,设置为非拉伸标签对应的图像

[0039]在一种可能的实现方式中,上述获取多张已知状态标签的图像,包括:
[0040]获取多张已知状态标签的原始图像;
[0041]对上述原始图像进行处理,得到第一处理图像;上述第一处理图像为所述原始图像部分或全部区域的图像;
[0042]将上述第一处理图像进行等比例缩放填充到预设尺寸模板中,若上述预设尺寸模板中存在未填充部分,在上述未填充部分中填充预设像素,得到已知状态标签的图像

[0043]在一种可能的实现方式中,上述将上述第一处理图像本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种图像拉伸识别方法,所述方法包括:获取待识别图像;将所述待识别图像输入图像拉伸识别模型,得到多个不同类型的特征数据,并基于所述多个不同类型的特征数据输出所述待识别图像对应的图像拉伸识别结果;所述图像拉伸识别模型基于多张已知状态标签的图像训练得到,所述状态标签包括拉伸标签和非拉伸标签
。2.
根据权利要求1所述的方法,所述图像拉伸识别模型包括深度双分支卷积神经网络,所述深度双分支卷积神经网络包括两个不同类型的特征提取分支网络;所述将所述待识别图像输入图像拉伸识别模型,得到多个不同类型的特征数据,并基于所述多个不同类型的特征数据输出所述待识别图像对应的图像拉伸识别结果,包括:将所述待识别图像输入所述深度双分支卷积神经网络的第一特征提取分支网络中,输出所述待识别图像对应的第一特征数据;将所述待识别图像输入所述深度双分支卷积神经网络的第二特征提取分支网络中,输出所述待识别图像对应的第二特征数据;将所述第一特征数据和所述第二特征数据进行融合,得到融合特征数据;基于所述融合特征数据输出所述待识别图像对应的图像拉伸识别结果
。3.
根据权利要求2所述的方法,所述第一特征数据和所述第二特征数据均包括长维度

宽维度和通道维度;所述将所述第一特征数据和所述第二特征数据进行融合,得到融合特征数据,包括:将所述第一特征数据和所述第二特征数据进行矩阵乘法,以消除所述第一特征数据和所述第二特征数据的长维度和宽维度,得到所述融合特征数据;所述融合特征数据包括通道维度
。4.
根据权利要求2所述的方法,所述深度双分支卷积神经网络的第一特征提取分支网络为
EfficientNet
网络,所述深度双分支卷积神经网络的第二特征提取分支网络为
Spatial CNN
网络
。5.
根据权利要求1所述的方法,所述将待识别图像输入图像拉伸识别模型之前,所述方法还包括:将所述待识别图像进行旋转,得到所述待识别图像对应的多张旋转后图像,所述多张旋转后图像各自对应的旋转角度不同;所述将所述待识别图像输入图像拉伸识别模型,得到多个不同类型的特征数据,并基于所述多个不同类型的特征数据输出所述待识别图像对应的图像拉伸识别结果,包括:将所述待识别图像对应的旋转后图像输入图像拉伸识别模型,得到多个不同类型的特征数据,并基于所述多个不同类型的特征数据输出所述旋转后图像对应的图像拉伸识别结果;基于所述多张旋转后图像各自对应的图像拉伸识别结果,确定所述待识别图像的图像拉伸识别结果
。6.
根据权利要求1所述的方法,所述图像拉伸识别结果包括拉伸概率;所述将所述待识别图像输入图像拉伸识别模型,得到多个不同类型的特征数据,并基于所述多个不同类型的特征数据输出所述待识别图像对应的图像拉伸识别结果之后,所述
方法还包括:判断所述拉伸概率是否大于拉伸判定阈值;若是,则确定所述待识别图像为拉伸图像;若否,则确定所述待识别图像为非拉伸图像
。7.
根据权利要求1所述的方法,所述获取待识别图像之后,所述将待识别图像输入图像拉伸识别模型之前,所述方法还包括:将所述待识别图像进行等比例缩放填充到预设尺寸模板中,若所述预设尺寸模板中存在未填充部分,在所述未填充部分中填充预设像素,以得到满足预设尺寸的所述待识别图像
。8.
一种图像拉伸识别模型训练方法,所述方法包括:获取多张已知状态标签的图像;所述状态标签包括拉伸标签和非拉伸标签;将所述已知状态标签的图像输入图像拉伸识别模型中,得到多个不同类型的特征数据,并基于...

【专利技术属性】
技术研发人员:饶展
申请(专利权)人:支付宝杭州信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1