一种图像处理方法、装置、设备及存储介质制造方法及图纸

技术编号：39332006 阅读：15 留言：0更新日期：2023-11-12 16:07

本申请提供了一种图像处理方法、装置、设备及存储介质，应用于云技术、人工智能、智慧交通、辅助驾驶、车载和地图等各种图像处理场景；方法包括：获取待训练模型的训练数据，待训练模型为待训练的用于进行图像处理的人工神经网络模型，训练数据包括样本文本、样本图像和样本标签，样本标签包括样本图像的检测框标签；对检测框标签进行聚类，得到N个初始锚框尺寸；利用待训练模型执行以下处理：结合N个初始锚框尺寸和样本文本的文本样本特征，对样本图像进行检测，得到图像预测结果；基于图像预测结果与样本标签之间的差异，训练待训练模型，得到图像处理模型。通过本申请，能够提升模型训练效率。训练效率。训练效率。

全部详细技术资料下载

【技术实现步骤摘要】
一种图像处理方法、装置、设备及存储介质

[0001]本申请涉及计算机视觉领域中的图像处理技术，尤其涉及一种图像处理方法、装置、设备及存储介质。

技术介绍

[0002]在训练用于执行图像处理任务的人工神经网络模型时，常常采用随机目标查询对训练数据中的样本图像进行处理，影响了人工神经网络模型的收敛速度，进而影响了模型训练效率。

技术实现思路

[0003]本申请实施例提供一种图像处理方法、装置、设备、计算机可读存储介质及计算机程序产品，能够提升模型训练效率。
[0004]本申请实施例的技术方案是这样实现的：本申请实施例提供一种图像处理方法，所述图像处理方法包括：获取待训练模型的训练数据，其中，所述待训练模型为待训练的用于进行图像处理的人工神经网络模型，所述训练数据包括样本文本、样本图像和样本标签，所述样本标签包括所述样本图像的检测框标签；对所述检测框标签进行聚类，得到N个初始锚框尺寸，其中，N为正整数；利用所述待训练模型执行以下处理：结合N个所述初始锚框尺寸和所述样本文本的文本样本特征，对所述样本图像进行检测，得到图像预测结果；基于所述图像预测结果与所述样本标签之间的差异，训练所述待训练模型，得到图像处理模型，其中，所述图像处理模型用于基于待检测图像和图像文本提示获得图像检测结果。
[0005]本申请实施例还提供一种图像处理方法，所述图像处理方法包括：响应于图像处理请求，获得待处理图像和图像文本提示；利用图像处理模型对所述待处理图像和所述图像文本提示进行检测，得到图像检测结果，其中，所述图像...

【技术保护点】

【技术特征摘要】
1.一种图像处理方法，其特征在于，所述方法包括：获取待训练模型的训练数据，其中，所述待训练模型为待训练的用于进行图像处理的人工神经网络模型，所述训练数据包括样本文本、样本图像和样本标签，所述样本标签包括所述样本图像的检测框标签；对所述检测框标签进行聚类，得到N个初始锚框尺寸，其中，N为正整数；利用所述待训练模型执行以下处理：结合N个所述初始锚框尺寸和所述样本文本的文本样本特征，对所述样本图像进行检测，得到图像预测结果；基于所述图像预测结果与所述样本标签之间的差异，训练所述待训练模型，得到图像处理模型，其中，所述图像处理模型用于基于待检测图像和图像文本提示获得图像检测结果。2.根据权利要求1所述的方法，其特征在于，所述对所述检测框标签进行聚类，得到N个初始锚框尺寸，包括：从尺寸维度对所述检测框标签进行聚类，得到M类聚类结果，其中，M≥N，且M为正整数；获取与M类所述聚类结果对应的M个检测框尺寸；从所述检测框标签中，统计每个所述检测框尺寸对应的检测框数量；从M个所述检测框尺寸中，选择所述检测框数量最多的N个所述检测框尺寸；基于N个所述检测框尺寸，确定N个所述初始锚框尺寸。3.根据权利要求1或2所述的方法，其特征在于，所述对所述检测框标签进行聚类，得到N个初始锚框尺寸之后，所述方法还包括：获取与N个所述初始锚框尺寸不同的L个指定锚框尺寸，其中，L为正整数；所述结合N个所述初始锚框尺寸和所述样本文本的文本样本特征，对所述样本图像进行检测，得到图像预测结果，包括：结合L个所述指定锚框尺寸、N个所述初始锚框尺寸、以及所述样本文本的所述文本样本特征，对所述样本图像进行检测，得到所述图像预测结果。4.根据权利要求1或2所述的方法，其特征在于，所述结合N个所述初始锚框尺寸和所述样本文本的文本样本特征，对所述样本图像进行检测，得到图像预测结果，包括：对所述样本图像的初始图像特征进行区域编码，获得初始区域特征；结合N个所述初始锚框尺寸和多个指定目标，确定多个目标查询框；结合所述初始区域特征、所述初始图像特征和多个所述目标查询框进行注意力处理，得到目标区域特征；结合所述目标区域特征和所述样本文本的所述文本样本特征进行图像检测，得到所述图像预测结果。5.根据权利要求4所述的方法，其特征在于，所述结合所述初始区域特征、所述初始图像特征和多个所述目标查询框进行注意力处理，得到目标区域特征，包括：基于所述初始区域特征和所述初始图像特征确定键特征，并基于所述初始图像特征确定值特征，以及基于多个所述目标查询框和多个所述目标查询框各自对应的指定内容特征确定查询特征；通过所述待训练模型的目标解码器对所述键特征、所述值特征和所述查询特征进行注意力处理，得到多个查询框偏移量，所述目标解码器的层数为一层；
在每个所述目标查询框上叠加对应的所述查询框偏移量，得到与多个所述目标查询框对应的多个目标锚框；获取多个所述目标锚框分别对应的特征，得到所述目标区域特征。6.根据权利要求4所述的方法，其特征在于，所述结合所述目标区域特征和所述样本文本的所述文本样本特征进行图像检测，得到所述图像预测结果，包括：基于所述目标区域特征进行检测框预测，得到预测检测框；对所述目标区域特征和所述样本文本的所述文本样本特征进行注意力处理，得到关联特征；结合所述目标区域特征预测出的所述预测检测框的第一目标得分和所述关联特征预测出的所述预测检测框的第二目标得分，得到第三目标得分；结合所述第三目标得分和所述关联特征得到文本预测结果；基于所述文本预测结果，确定所述图像预测结果。7.根据权利要求6所述的方法，其特征在于，所述对所...

【专利技术属性】
技术研发人员：任玉强，鄢科，
申请(专利权)人：腾讯科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人