一种基于动态transformer的食品图像分割方法及系统技术方案

技术编号:33889766 阅读:52 留言:0更新日期:2022-06-22 17:24
本发明专利技术涉及一种基于动态transformer的食品图像分割方法及系统,其方法包括S1:将输入的食品图像划分为不同大小的一系列图像块,输入到多个不同尺寸的动态视觉的transformer编码器网络;输出多层不同尺度的图像特征向量;S2:提取预设层的图像特征向量进行融合,得到融合后的图像特征向量;S3:构建多级特征聚合网络,将融合后的图像特征向量进行自顶向下的特征融合,构建特征金字塔,得到多尺度特征融合向量;S4:构建分割解码器,针对特征金字塔融合的多尺度特征进行卷积和上采样操作,最终生成具有食物类别边界分割精确的分割结果。本发明专利技术提供的方法能够自适应不同图片尺度,并提高图片语义信息提取的丰富性和整体性,使得食品分割模型更具有泛化性和鲁棒性。分割模型更具有泛化性和鲁棒性。分割模型更具有泛化性和鲁棒性。

【技术实现步骤摘要】
一种基于动态transformer的食品图像分割方法及系统


[0001]本专利技术涉及计算机视觉和食品计算领域,具体涉及一种基于动态transformer的食品图像分割方法及系统。

技术介绍

[0002]计算机视觉正在成为一种获取和分析真实场景图像的新兴技术,它帮助智能系统从图像和多维数据中感知世界。计算机视觉的核心技术一直与图像分析和处理有关,它可以对图像中的一些具体对象进行分类、检测和分割。图像语义分割对一组对象类别进行像素级预测;与预测整个图像标签的图像分类相比,分割通常是一项要求更高的任务。从最早的传统方法,如阈值、k均值聚类、区域生长,到一些已经获得了很好效果的深度学习模型,如FCN、PSPNet,以及DeepLab系列,都是通过对图像进行卷积操作获得其特征表征,依赖卷积网络特有的平移不变性和局部性特点获取图像语义细节信息。
[0003]近年来,随着自然语言处理(NLP)的巨大成功,人们逐渐对将注意机制和Transformer引入视觉任务产生了强烈的兴趣。例如双注意网络(DANet),利用自注意机制来捕获丰富的上下文依赖性。将transformer用于图像分类的开山之作ViT,根据NLP中transformer的设计,作者将图像分割成多个线性patch embedding,并添加位置信息,在ImageNet上取得了高效的性能。在语义分割方面,第一篇利用transformer用于图像语义分割的论文:SETR,证明了其在语义分割中的可行性。
[0004]随着生活水平的改善,成人肥胖率在逐渐增加,人们更加重视健康饮食和食品安全,并考虑到准确跟踪食物摄入量的意义。因此,食品计算的概念被提出,并越来越引起了公众的关注,因为它涵盖了一个全面的技术和方向总结,用于食品和健康领域的研究和运用。食物计算的一个关键目标是自动识别不同类型的食物,而食物分割是开发与健康直接相关的应用方面是必要和不可或缺的技术,如估计食物热量或营养和食物分量评估。在计算机视觉中,相关工作从食物分类、菜谱检索到食品溯源等方面。食品计算中定义了食品分类,和食品分割。与食品分类相比,食品分割更为复杂,因为其目标是对每个像素进行分类,并识别饮食图像中的每个成分类别及其像素级区域。与一般数据集上的语义分割不同,由于食物外观的巨大多样性和成分分布的不平衡,食品分割是一项更具挑战性的任务。有两个主要原因,用不同方式烹饪的同一食物在视觉上有很大不同,不同成分的外观可能看起来非常相似。另一方面,食品数据集的分布通常是不平衡的,存在长尾分布问题。因此,如何准确地识别和定位不同的食物成分成为一个亟待解决的问题。

技术实现思路

[0005]为了解决上述技术问题,本专利技术提供一种基于动态transformer的食品图像分割方法及系统。
[0006]本专利技术技术解决方案为:一种基于动态transformer的食品图像分割方法,包括:
[0007]步骤S1:将输入的食品图像按照预设尺寸划分为不同大小的一系列图像块,构建
多个不同尺寸的动态视觉的transformer编码器网络,实现对不同划分尺度的一系列所述图像块进行特征编码;并利用多头自注意力机制,对所述图像块的不同尺度特征进行加权计算;输出多层不同尺度的图像特征向量;
[0008]步骤S2:提取预设层的所述图像特征向量进行融合,得到融合后的图像特征向量;
[0009]步骤S3:构建多级特征聚合网络,将所述融合后的图像特征向量进行自顶向下的特征融合,构建多层特征金字塔,得到多尺度特征融合向量;
[0010]步骤S4:基于所述多层特征金字塔,构建分割解码器,对所述融合特征向量进行卷积操作,以及特征融合得到多尺度特征向量,最后进行上采样操作;同时,使用交叉熵损失函数优化网络参数,最终生成具有食物类别边界分割精确的分割结果。
[0011]本专利技术与现有技术相比,具有以下优点:
[0012]本专利技术公开了一种基于动态transformer的食品图像分割方法,设计利用不同图像块大小的transformer编码器进行食品图片线性划分,使得能够自适应不同图片尺度,提取多个不同分辨率的图像特征;构建特征金字塔,以此提高图片语义信息提取的丰富性和整体性,使得食品分割模型更具有泛化性和鲁棒性,极大缓解了食品分割模型不具有针对性的问题,提高了食品图像分割的精度和准确率。
附图说明
[0013]图1为本专利技术实施例中一种基于动态transformer的食品图像分割方法的流程图;
[0014]图2为本专利技术实施例中动态视觉的transformer编码器网络结构示意图;
[0015]图3为本专利技术实施例中transformer编码器的结构示意图;
[0016]图4为本专利技术实施例中一种基于动态transformer的食品图像分割系统的结构框图。
具体实施方式
[0017]本专利技术提供了一种基于动态transformer的食品图像分割方法,利用不同图像块大小的transformer编码器进行食品图片线性划分,使得能够自适应不同图片尺度,提取多个不同分辨率的图像特征;构建特征金字塔,以此提高图片语义信息提取的丰富性和整体性,使得食品分割模型更具有泛化性和鲁棒性。
[0018]为了使本专利技术的目的、技术方案及优点更加清楚,以下通过具体实施,并结合附图,对本专利技术进一步详细说明。
[0019]实施例一
[0020]如图1所示,本专利技术实施例提供的一种基于动态transformer的食品图像分割方法,包括下述步骤:
[0021]步骤S1:将输入的食品图像按照预设尺寸划分为不同大小的一系列图像块,构建多个不同尺寸的动态视觉的transformer编码器网络,实现对不同划分尺度的一系列图像块进行特征编码;并利用多头自注意力机制,对图像块的不同尺度特征进行加权计算;输出多层不同尺度的图像特征向量;
[0022]步骤S2:提取预设层的图像特征向量进行融合,得到融合后的图像特征向量;
[0023]步骤S3:构建多级特征聚合网络,将融合后的图像特征向量进行自顶向下的特征
融合,构建多层特征金字塔,得到多尺度特征融合向量;
[0024]步骤S4:基于多层特征金字塔,构建分割解码器,对每层融合特征向量进行卷积操作,以及特征融合得到多尺度特征向量,最后进行上采样操作;同时,使用交叉熵损失函数优化网络参数,最终生成具有食物类别边界分割精确的分割结果。
[0025]在一个实施例中,上述步骤S1:将输入的食品图像按照预设尺寸划分为不同大小的一系列图像块,构建多个不同尺寸的动态视觉的transformer编码器网络,实现对不同划分尺度的一系列图像块进行特征编码;并利用多头自注意力机制,对图像块的不同尺度特征进行加权计算;输出多层不同尺度的图像特征向量,具体包括:
[0026]步骤S11:将食品图像按切割成不同尺寸的图像块,将图像块按照预设的顺序进行排序,得到长度为L
i
的序列,其中,L
i...

【技术保护点】

【技术特征摘要】
1.一种基于动态transformer的食品图像分割方法,其特征在于,包括:步骤S1:将输入的食品图像按照预设尺寸划分为不同大小的一系列图像块,构建多个不同尺寸的动态视觉的transformer编码器网络,实现对不同划分尺度的一系列所述图像块进行特征编码;并利用多头自注意力机制,对所述图像块的不同尺度特征进行加权计算;输出多层不同尺度的图像特征向量;步骤S2:提取预设层的所述图像特征向量进行融合,得到融合后的图像特征向量;步骤S3:构建多级特征聚合网络,将所述融合后的图像特征向量进行自顶向下的特征融合,构建多层特征金字塔,得到多尺度特征融合向量;步骤S4:基于所述多层特征金字塔,构建分割解码器,对所述融合特征向量进行卷积操作,以及特征融合得到多尺度特征向量,最后进行上采样操作;同时,使用交叉熵损失函数优化网络参数,最终生成具有食物类别边界分割精确的分割结果。2.根据权利要求1所述的基于动态transformer的食品图像分割方法,其特征在于,所述步骤S1:将输入的食品图像按照预设尺寸划分为不同大小的一系列图像块,构建多个不同尺寸的动态视觉的transformer编码器网络,实现对不同划分尺度的一系列所述图像块进行特征编码;并利用多头自注意力机制,对所述图像块的不同尺度特征进行加权计算;输出多层不同尺度的图像特征向量,具体包括:步骤S11:将所述食品图像按切割成不同尺寸的图像块,将所述图像块按照预设的顺序进行排序,得到长度为L
i
的序列,其中,L
i
是根据第i个尺度划分的食品图像尺寸与所述图像块尺寸的比值;步骤S12:利用绝对位置编码技术对不同划分尺度的一系列图像块添加位置信息,建立所述图像块之间的关联关系,如公式(1)所示;其中,pos表示位置,d
model
表示维度信息,PE代表每个所述图像块的位置信息;步骤S13:将对添加位置信息后的一系列图像块,利用三种权重矩阵W
Q
,W
K
,W
V
进行加权映射到不同的空间Q,K,V,利用公式(2),计算注意力机制的权重:其中,Attention表示注意力机制的输出,d
k
为空间K的维度;步骤S14:将所述编码器的每一层利用归一化和多层感知机进行残差连接,如公式(3)所示:其中,f
l
‑1为上一层所述编码器所输出的图像特征作为当前层的输入,表示f
l
‑1在第l层编码器的中间特征变量,f
l
为当前层编码器的输出特征,ln表示层归一化操作,msa表示<...

【专利技术属性】
技术研发人员:李海生董笑笑王薇王晓川李楠
申请(专利权)人:北京工商大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1