一种图像处理方法、装置、设备及存储介质制造方法及图纸

技术编号:39332006 阅读:15 留言:0更新日期:2023-11-12 16:07
本申请提供了一种图像处理方法、装置、设备及存储介质,应用于云技术、人工智能、智慧交通、辅助驾驶、车载和地图等各种图像处理场景;方法包括:获取待训练模型的训练数据,待训练模型为待训练的用于进行图像处理的人工神经网络模型,训练数据包括样本文本、样本图像和样本标签,样本标签包括样本图像的检测框标签;对检测框标签进行聚类,得到N个初始锚框尺寸;利用待训练模型执行以下处理:结合N个初始锚框尺寸和样本文本的文本样本特征,对样本图像进行检测,得到图像预测结果;基于图像预测结果与样本标签之间的差异,训练待训练模型,得到图像处理模型。通过本申请,能够提升模型训练效率。训练效率。训练效率。

【技术实现步骤摘要】
一种图像处理方法、装置、设备及存储介质


[0001]本申请涉及计算机视觉领域中的图像处理技术,尤其涉及一种图像处理方法、装置、设备及存储介质。

技术介绍

[0002]在训练用于执行图像处理任务的人工神经网络模型时,常常采用随机目标查询对训练数据中的样本图像进行处理,影响了人工神经网络模型的收敛速度,进而影响了模型训练效率。

技术实现思路

[0003]本申请实施例提供一种图像处理方法、装置、设备、计算机可读存储介质及计算机程序产品,能够提升模型训练效率。
[0004]本申请实施例的技术方案是这样实现的:本申请实施例提供一种图像处理方法,所述图像处理方法包括:获取待训练模型的训练数据,其中,所述待训练模型为待训练的用于进行图像处理的人工神经网络模型,所述训练数据包括样本文本、样本图像和样本标签,所述样本标签包括所述样本图像的检测框标签;对所述检测框标签进行聚类,得到N个初始锚框尺寸,其中,N为正整数;利用所述待训练模型执行以下处理:结合N个所述初始锚框尺寸和所述样本文本的文本样本特征,对所述样本图像进行检测,得到图像预测结果;基于所述图像预测结果与所述样本标签之间的差异,训练所述待训练模型,得到图像处理模型,其中,所述图像处理模型用于基于待检测图像和图像文本提示获得图像检测结果。
[0005]本申请实施例还提供一种图像处理方法,所述图像处理方法包括:响应于图像处理请求,获得待处理图像和图像文本提示;利用图像处理模型对所述待处理图像和所述图像文本提示进行检测,得到图像检测结果,其中,所述图像处理模型为采用本申请实施例提供的图像处理方法训练获得的,所述图像文本提示为以下图像处理任务中任一种的提示文本:知识问答,图像描述,目标检测与定位,图像分类。
[0006]本申请实施例提供一种第一图像处理装置,所述第一图像处理装置包括:数据采集模块,用于获取待训练模型的训练数据,其中,所述待训练模型为待训练的用于进行图像处理的人工神经网络模型,所述训练数据包括样本文本、样本图像和样本标签,所述样本标签包括所述样本图像的检测框标签;标签聚类模块,用于对所述检测框标签进行聚类,得到N个初始锚框尺寸,其中,N为正整数;图像预测模块,用于利用所述待训练模型执行以下处理:结合N个所述初始锚框尺
寸和所述样本文本的文本样本特征,对所述样本图像进行检测,得到图像预测结果;模型训练模块,用于基于所述图像预测结果与所述样本标签之间的差异,训练所述待训练模型,得到图像处理模型,其中,所述图像处理模型用于基于待检测图像和图像文本提示获得图像检测结果。
[0007]本申请实施例提供一种第二图像处理装置,所述第二图像处理装置包括:请求响应模块,用于响应于图像处理请求,获得待处理图像和图像文本提示;图像检测模块,用于利用图像处理模型对所述待处理图像和所述图像文本提示进行检测,得到图像检测结果,其中,所述图像处理模型为采用本申请实施例提供的图像处理方法训练获得的,所述图像文本提示为以下图像处理任务中任一种的提示文本:知识问答,图像描述,目标检测与定位,图像分类。
[0008]在本申请实施例中,所述标签聚类模块,还用于从尺寸维度对所述检测框标签进行聚类,得到M类聚类结果,其中,M≥N,且M为正整数;获取与M类所述聚类结果对应的M个检测框尺寸;从所述检测框标签中,统计每个所述检测框尺寸对应的检测框数量;从M个所述检测框尺寸中,选择所述检测框数量最多的N个所述检测框尺寸;将基于N个所述检测框尺寸,确定为N个所述初始锚框尺寸。
[0009]在本申请实施例中,所述第一图像处理装置还包括尺寸获取模块,用于获取与N个所述初始锚框尺寸不同的L个指定锚框尺寸,其中,L为正整数。
[0010]在本申请实施例中,所述图像预测模块,还用于结合L个所述指定锚框尺寸、N个所述初始锚框尺寸、以及所述样本文本的文本样本特征,对所述样本图像进行检测,得到所述图像预测结果。
[0011]在本申请实施例中,所述图像预测模块,还用于对所述样本图像的初始图像特征进行区域编码,获得初始区域特征;结合N个所述初始锚框尺寸和多个指定目标,确定多个目标查询框;结合所述初始区域特征、所述初始图像特征和多个所述目标查询框进行注意力处理,得到目标区域特征;结合所述目标区域特征和所述样本文本的所述文本样本特征进行图像检测,得到所述图像预测结果。
[0012]在本申请实施例中,所述图像预测模块,还用于基于所述初始区域特征和所述初始图像特征确定键特征,并基于所述初始图像特征确定值特征,以及基于多个所述目标查询框和多个所述目标查询框各自对应的指定内容特征确定查询特征;通过所述待训练模型的目标解码器对所述键特征、所述值特征和所述查询特征进行注意力处理,得到多个查询框偏移量,所述目标解码器的层数为一层;每个所述目标查询框上叠加对应的所述查询框偏移量,得到与多个所述目标查询框对应的多个目标锚框;获取多个所述目标锚框分别对应的特征,得到所述目标区域特征。
[0013]在本申请实施例中,所述图像预测模块,还用于基于所述目标区域特征进行检测框预测,得到预测检测框;对所述目标区域特征和所述样本文本的所述文本样本特征进行注意力处理,得到关联特征;结合所述目标区域特征预测出的所述预测检测框的第一目标得分和所述关联特征预测出的所述预测检测框的第二目标得分,得到第三目标得分;结合所述第三目标得分和所述关联特征得到文本预测结果;将基于所述文本预测结果,确定为所述图像预测结果。
[0014]在本申请实施例中,所述图像预测模块,还用于对所述目标区域特征进行线性转
换,得到图像线性特征;对所述样本文本的所述文本样本特征进行线性转换,得到文本线性特征;对所述图像线性特征和所述文本线性特征进行注意力处理,得到相关性权重;叠加所述相关性权重和所述图像线性特征,得到所述关联特征。
[0015]在本申请实施例中,所述图像预测模块,还用于基于所述预测检测框对所述初始图像特征进行池化,得到目标图像特征;获取所述目标图像特征和所述目标区域特征的拼接特征;对所述拼接特征和所述样本文本的所述文本样本特征进行注意力处理,得到关联特征。
[0016]在本申请实施例中,所述目标查询框包括以下信息:锚点和锚框,其中,所述锚点表示图像中所述指定目标的位置点,所述锚框表示以所述锚点为中心的区域框尺寸。
[0017]本申请实施例提供一种用于图像处理的第一电子设备,所述第一电子设备包括:第一存储器,用于存储计算机可执行指令或者计算机程序;第一处理器,用于执行所述第一存储器中存储的计算机可执行指令或者计算机程序时,实现本申请实施例提供的应用于第一电子设备的图像处理方法。
[0018]本申请实施例提供一种用于图像处理的第二电子设备,所述第二电子设备包括:第二存储器,用于存储计算机可执行指令或者计算机程序;第二处理器,用于执行所述第二存储器中存储的计算机可执行指令或者计算机程序时,实现本申请实施例提供的应用于第二电子设备的图像处理方法。
[0019]本申请实施例提供一种计算机本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种图像处理方法,其特征在于,所述方法包括:获取待训练模型的训练数据,其中,所述待训练模型为待训练的用于进行图像处理的人工神经网络模型,所述训练数据包括样本文本、样本图像和样本标签,所述样本标签包括所述样本图像的检测框标签;对所述检测框标签进行聚类,得到N个初始锚框尺寸,其中,N为正整数;利用所述待训练模型执行以下处理:结合N个所述初始锚框尺寸和所述样本文本的文本样本特征,对所述样本图像进行检测,得到图像预测结果;基于所述图像预测结果与所述样本标签之间的差异,训练所述待训练模型,得到图像处理模型,其中,所述图像处理模型用于基于待检测图像和图像文本提示获得图像检测结果。2.根据权利要求1所述的方法,其特征在于,所述对所述检测框标签进行聚类,得到N个初始锚框尺寸,包括:从尺寸维度对所述检测框标签进行聚类,得到M类聚类结果,其中,M≥N,且M为正整数;获取与M类所述聚类结果对应的M个检测框尺寸;从所述检测框标签中,统计每个所述检测框尺寸对应的检测框数量;从M个所述检测框尺寸中,选择所述检测框数量最多的N个所述检测框尺寸;基于N个所述检测框尺寸,确定N个所述初始锚框尺寸。3.根据权利要求1或2所述的方法,其特征在于,所述对所述检测框标签进行聚类,得到N个初始锚框尺寸之后,所述方法还包括:获取与N个所述初始锚框尺寸不同的L个指定锚框尺寸,其中,L为正整数;所述结合N个所述初始锚框尺寸和所述样本文本的文本样本特征,对所述样本图像进行检测,得到图像预测结果,包括:结合L个所述指定锚框尺寸、N个所述初始锚框尺寸、以及所述样本文本的所述文本样本特征,对所述样本图像进行检测,得到所述图像预测结果。4.根据权利要求1或2所述的方法,其特征在于,所述结合N个所述初始锚框尺寸和所述样本文本的文本样本特征,对所述样本图像进行检测,得到图像预测结果,包括:对所述样本图像的初始图像特征进行区域编码,获得初始区域特征;结合N个所述初始锚框尺寸和多个指定目标,确定多个目标查询框;结合所述初始区域特征、所述初始图像特征和多个所述目标查询框进行注意力处理,得到目标区域特征;结合所述目标区域特征和所述样本文本的所述文本样本特征进行图像检测,得到所述图像预测结果。5.根据权利要求4所述的方法,其特征在于,所述结合所述初始区域特征、所述初始图像特征和多个所述目标查询框进行注意力处理,得到目标区域特征,包括:基于所述初始区域特征和所述初始图像特征确定键特征,并基于所述初始图像特征确定值特征,以及基于多个所述目标查询框和多个所述目标查询框各自对应的指定内容特征确定查询特征;通过所述待训练模型的目标解码器对所述键特征、所述值特征和所述查询特征进行注意力处理,得到多个查询框偏移量,所述目标解码器的层数为一层;
在每个所述目标查询框上叠加对应的所述查询框偏移量,得到与多个所述目标查询框对应的多个目标锚框;获取多个所述目标锚框分别对应的特征,得到所述目标区域特征。6.根据权利要求4所述的方法,其特征在于,所述结合所述目标区域特征和所述样本文本的所述文本样本特征进行图像检测,得到所述图像预测结果,包括:基于所述目标区域特征进行检测框预测,得到预测检测框;对所述目标区域特征和所述样本文本的所述文本样本特征进行注意力处理,得到关联特征;结合所述目标区域特征预测出的所述预测检测框的第一目标得分和所述关联特征预测出的所述预测检测框的第二目标得分,得到第三目标得分;结合所述第三目标得分和所述关联特征得到文本预测结果;基于所述文本预测结果,确定所述图像预测结果。7.根据权利要求6所述的方法,其特征在于,所述对所...

【专利技术属性】
技术研发人员:任玉强鄢科
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1