【技术实现步骤摘要】
一种基于多任务学习和注意力机制的食品反演方法
本专利技术涉及图像识别
,尤其涉及一种基于多任务学习和注意力机制的食品反演方法。
技术介绍
最近几年我们见证了许多关于视觉识别任务研究的卓越成就,包括图像分类,实体识别以及图像语义分割等。但是,与一般的图像识别任务相比,食物图像理解面临着更加艰巨的挑战,因为食物及其组成食材在经过了各种切割和烹饪操作以后,在形状,形态,纹理和颜色等方面都发生了多样的变化,且菜品中的不同食材之间往往存在着相互的遮挡。因此,食品图像分析所面临的挑战已经超越了单纯的计算机视觉任务。一种早期的食材识别模型是PFD(成对局部特征分布),它利用食材预测的结果来进行食品分类。在PFD中,基于图像块的外观,像素点被标记为食材的类别。然后以标签共现它们的几何特性,例如以距离和方向为特征,将像素之间的空间关系建模为多维直方图。通过这些直方图,PFD表现出令人印象深刻的食品识别性能。但是,PFD在食材种类上几乎没有任何可扩展性,仅使用8个类别,而在食品食材多样的当下,这显然无法满足现实生活中的应用需要。基于食品图像的菜谱生成被设计为一个检索任务。通过计算食品图像在嵌入空间的相似度,系统从一个已有的数据集中检索出对应的菜谱。然而,这类系统的表现高度依赖于检索数据集的数据量和数据多样性,以及网络学习的嵌入向量的质量。此外,该系统也无法检索到数据集以外的菜谱信息。关于食物卡路里的估计,目前主流方法是根据的食物类别及其体积来预测食品产生的卡路里。基于深度相机的食物卡路里估算方法,通过深度相 ...
【技术保护点】
1.一种基于多任务学习和注意力机制的食品反演方法,其特征在于,包括如下步骤:/n步骤1、采集食品数据,构建菜谱数据集;/n步骤2、建立并训练基于注意力机制的食材文本模型,通过输入食品图片得到对应的食材文本;/n步骤3、建立并训练菜谱生成模型,通过输入食品图片和食材文本进而得到所述食品图片对应的菜谱文本;/n步骤4、将所述食材文本和所述菜谱文本分别转化为对应的食材向量和菜谱向量,建立并训练多任务卷积神经网络模型;/n在所述多任务卷积神经网络模型中通过输入待测食品图片进而得到所述待测食品图片对应的食品分类、卡路里值、食材向量和菜谱向量。/n
【技术特征摘要】
1.一种基于多任务学习和注意力机制的食品反演方法,其特征在于,包括如下步骤:
步骤1、采集食品数据,构建菜谱数据集;
步骤2、建立并训练基于注意力机制的食材文本模型,通过输入食品图片得到对应的食材文本;
步骤3、建立并训练菜谱生成模型,通过输入食品图片和食材文本进而得到所述食品图片对应的菜谱文本;
步骤4、将所述食材文本和所述菜谱文本分别转化为对应的食材向量和菜谱向量,建立并训练多任务卷积神经网络模型;
在所述多任务卷积神经网络模型中通过输入待测食品图片进而得到所述待测食品图片对应的食品分类、卡路里值、食材向量和菜谱向量。
2.如权利要求1所述的基于多任务学习和注意力机制的食品反演方法,其特征在于,在所述步骤2中,通过Transformer模型建立食材文本模型过程包括:
将食品图片特征向量作为输入,输出为生成食材的序列L=(l0,…,lk,…,lK),式中,lk代表序列中的一种食材。
3.如权利要求2所述的基于多任务学习和注意力机制的食品反演方法,其特征在于,在所述步骤2中,通过列表结构表示所述食品图片对应的生成食材,包括:
确定包含N个食材元素的字典为从字典D种选择K个元素,生成食材列表将L编码为K×N维的二进制矩阵L,当dj∈D被选中时,Li,j=1,否则Li,j=0;
所述食材文本模型的训练数据包含M张食品图像和食材列表对所述食材文本模型的优化目标为
式中,为根据图像x预测的目标矩阵,θI和θL分别是图像编码器和食材解码器的可学习参数;
将分解为K个条件句:并指定为食材分类的概率分布。
4.如权利要求3所述的基于多任务学习和注意力机制的食品反演方法,其特征在于,在所述步骤2中,通过Transformer模型建立食材文本模型通过Adam优化器进行数据优化:设置β1=0.9,β2=0.99,∈=1e-8,设置学习率0.001,其中,预训练残差网络层学习率为0.0001;训练最大训练轮次为200轮,使用早停法,设置patience为50,如果50轮训练后验证数据的iou标准没有改善,则执行早停;其中,batch_size设置为128,num_workers设置为4。
5.如权利要求1所述的基于多任务学习和注意力机制的食品反演方法,其特征在于,在所述步骤3中,通过Transformer模型建立菜谱文本模型过程包括:
将食品图片特征向量和食材文本特征向量作为输入,输出为生成菜谱的序列R=(r1,…,rt,…,rT),式中,rt为序列中的一种词。
6.如权利要求3所述的基于多任务学习和注意力机制的食品反演方法,其特征在于,在所述步骤2中,通过Transformer模型建立菜谱文本模型通过Adam优化器进行数据优化:β1=0.9,β2=0.99,∈=1e-8,设置初始学习率0.001,每十个轮次衰减一次,衰减因子为0.99;本次训练最大训练轮次为200轮,使用早停法,设置patience为50,如果50轮训练后验证数据的iou标准没有改善,则执行早停;其中,batch_size设置为128,num_workers设置为4。
7.如权利要求...
【专利技术属性】
技术研发人员:孙成林,白洪涛,蔡芷薇,何丽莉,曹英晖,
申请(专利权)人:孙成林,白洪涛,蔡芷薇,何丽莉,曹英晖,
类型:发明
国别省市:吉林;22
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。