【技术实现步骤摘要】
一种图像分类方法、装置、设备及存储介质
[0001]本专利技术涉及图像分类技术,尤其涉及一种图像分类方法、装置、设备及存储介质。
技术介绍
[0002]图像分类问题是计算机视觉领域的基本问题,它的目的是根据图像的语义信息将不同类别图像区分开来,实现最小的分类误差。具体任务要求是从给定的分类集合中给图像分配一个标签的任务。
[0003]传统的图像分类只是简单在标签上做了标定,没有理解具体的分类名称本身。因此,传统的图像分类存在泛化能力较差的问题,在标准图像集上精度差不多,若出现新的类型,传统图像分类需要使用新的图像样本进行重新训练,训练周期较长。
技术实现思路
[0004]本专利技术提供一种图像分类方法、装置、设备及存储介质,以提高模型的预测准确度和泛化能力。
[0005]第一方面,本专利技术提供了一种图像分类方法,包括:
[0006]构建待训练的图像分类模型,所述图像分类模型包括图像编码器、语义编码器和解码器;
[0007]获取数据集,所述数据集包括多个训练图像和多个用于描述所 ...
【技术保护点】
【技术特征摘要】
1.一种图像分类方法,其特征在于,包括:构建待训练的图像分类模型,所述图像分类模型包括图像编码器、语义编码器和解码器;获取数据集,所述数据集包括多个训练图像和多个用于描述所述训练图像的文本信息,所述文本信息包括提示信息和分类标签;利用所述数据集对所述图像编码器和语义编码器进行预训练;从所述数据集中确认正样本和负样本;基于所述正样本和所述负样本对所述解码器进行训练;将待分类的图像输入训练好的图像分类模型中进行处理,预测待分类的图像中的对象类别。2.根据权利要求1所述的图像分类方法,其特征在于,利用所述数据集对所述图像编码器和语义编码器进行预训练,包括:对所述文本信息进行随机掩码,得到掩码文本;将所述训练图像和所述掩码文本分别输入所述图像编码器和语义编码器中进行处理,分别得到图像特征和掩码文本特征;融合所述掩码文本特征和所述图像特征,得到融合特征;基于所述融合特征预测所述掩码文本中被掩码的部分;基于预测结果和真实结果计算损失值,并更新所述图像编码器和语义编码器的参数。3.根据权利要求2所述的图像分类方法,其特征在于,将所述训练图像和所述掩码文本分别输入所述图像编码器和语义编码器中进行处理,分别得到图像特征和掩码文本特征,包括:将所述掩码文本向量化,得到掩码文本向量;基于多头注意力机制对所述掩码文本向量进行特征编码,得到掩码文本特征;将所述训练图像向量化,得到图像向量;基于多头注意力机制对所述图像向量进行特征编码,得到图像特征。4.根据权利要求3所述的图像分类方法,其特征在于,基于多头注意力机制对所述掩码文本向量进行特征编码,得到掩码文本特征,包括:将所述掩码文本向量输入第一多头注意力模块中进行处理,得到第一特征;将所述第一特征输入第二多头注意力模块中进行处理,得到第二特征;融合所述第一特征和第二特征得到第三特征;基于交叉注意力机制对所述第三特征进行处理,得到掩码文本特征。5.根据权利要求3所述的图像分类方法,其特征在于,基于多头注意力机制对所述图像向量进行特征编码,得到图像特征,包括:将所述图像向量输...
【专利技术属性】
技术研发人员:甘兵,张茂华,廖瑞毅,
申请(专利权)人:数字广东网络建设有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。