【技术实现步骤摘要】
一种基于动态transformer的食品图像分割方法及系统
[0001]本专利技术涉及计算机视觉和食品计算领域,具体涉及一种基于动态transformer的食品图像分割方法及系统。
技术介绍
[0002]计算机视觉正在成为一种获取和分析真实场景图像的新兴技术,它帮助智能系统从图像和多维数据中感知世界。计算机视觉的核心技术一直与图像分析和处理有关,它可以对图像中的一些具体对象进行分类、检测和分割。图像语义分割对一组对象类别进行像素级预测;与预测整个图像标签的图像分类相比,分割通常是一项要求更高的任务。从最早的传统方法,如阈值、k均值聚类、区域生长,到一些已经获得了很好效果的深度学习模型,如FCN、PSPNet,以及DeepLab系列,都是通过对图像进行卷积操作获得其特征表征,依赖卷积网络特有的平移不变性和局部性特点获取图像语义细节信息。
[0003]近年来,随着自然语言处理(NLP)的巨大成功,人们逐渐对将注意机制和Transformer引入视觉任务产生了强烈的兴趣。例如双注意网络(DANet),利用自注意机制来捕获丰 ...
【技术保护点】
【技术特征摘要】
1.一种基于动态transformer的食品图像分割方法,其特征在于,包括:步骤S1:将输入的食品图像按照预设尺寸划分为不同大小的一系列图像块,构建多个不同尺寸的动态视觉的transformer编码器网络,实现对不同划分尺度的一系列所述图像块进行特征编码;并利用多头自注意力机制,对所述图像块的不同尺度特征进行加权计算;输出多层不同尺度的图像特征向量;步骤S2:提取预设层的所述图像特征向量进行融合,得到融合后的图像特征向量;步骤S3:构建多级特征聚合网络,将所述融合后的图像特征向量进行自顶向下的特征融合,构建多层特征金字塔,得到多尺度特征融合向量;步骤S4:基于所述多层特征金字塔,构建分割解码器,对所述融合特征向量进行卷积操作,以及特征融合得到多尺度特征向量,最后进行上采样操作;同时,使用交叉熵损失函数优化网络参数,最终生成具有食物类别边界分割精确的分割结果。2.根据权利要求1所述的基于动态transformer的食品图像分割方法,其特征在于,所述步骤S1:将输入的食品图像按照预设尺寸划分为不同大小的一系列图像块,构建多个不同尺寸的动态视觉的transformer编码器网络,实现对不同划分尺度的一系列所述图像块进行特征编码;并利用多头自注意力机制,对所述图像块的不同尺度特征进行加权计算;输出多层不同尺度的图像特征向量,具体包括:步骤S11:将所述食品图像按切割成不同尺寸的图像块,将所述图像块按照预设的顺序进行排序,得到长度为L
i
的序列,其中,L
i
是根据第i个尺度划分的食品图像尺寸与所述图像块尺寸的比值;步骤S12:利用绝对位置编码技术对不同划分尺度的一系列图像块添加位置信息,建立所述图像块之间的关联关系,如公式(1)所示;其中,pos表示位置,d
model
表示维度信息,PE代表每个所述图像块的位置信息;步骤S13:将对添加位置信息后的一系列图像块,利用三种权重矩阵W
Q
,W
K
,W
V
进行加权映射到不同的空间Q,K,V,利用公式(2),计算注意力机制的权重:其中,Attention表示注意力机制的输出,d
k
为空间K的维度;步骤S14:将所述编码器的每一层利用归一化和多层感知机进行残差连接,如公式(3)所示:其中,f
l
‑1为上一层所述编码器所输出的图像特征作为当前层的输入,表示f
l
‑1在第l层编码器的中间特征变量,f
l
为当前层编码器的输出特征,ln表示层归一化操作,msa表示<...
【专利技术属性】
技术研发人员:李海生,董笑笑,王薇,王晓川,李楠,
申请(专利权)人:北京工商大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。