当前位置: 首页 > 专利查询>孙成林专利>正文

一种基于多任务学习和注意力机制的食品反演方法技术

技术编号:27657725 阅读:21 留言:0更新日期:2021-03-12 14:21
本发明专利技术公开了一种基于多任务学习和注意力机制的食品反演方法,包括如下步骤:步骤1、采集食品数据,构建菜谱数据集;步骤2、建立并训练基于注意力机制的食材文本模型,通过输入食品图片得到对应的食材文本;步骤3、建立并训练菜谱生成模型,通过输入食品图片和食材文本进而得到所述食品图片对应的菜谱文本;步骤4、将所述食材文本和所述菜谱文本分别转化为对应的食材向量和菜谱向量,建立并训练多任务卷积神经网络模型;在所述多任务卷积神经网络模型中通过输入待测食品图片进而得到所述待测食品图片对应的食品分类、卡路里值、食材向量和菜谱向量。

【技术实现步骤摘要】
一种基于多任务学习和注意力机制的食品反演方法
本专利技术涉及图像识别
,尤其涉及一种基于多任务学习和注意力机制的食品反演方法。
技术介绍
最近几年我们见证了许多关于视觉识别任务研究的卓越成就,包括图像分类,实体识别以及图像语义分割等。但是,与一般的图像识别任务相比,食物图像理解面临着更加艰巨的挑战,因为食物及其组成食材在经过了各种切割和烹饪操作以后,在形状,形态,纹理和颜色等方面都发生了多样的变化,且菜品中的不同食材之间往往存在着相互的遮挡。因此,食品图像分析所面临的挑战已经超越了单纯的计算机视觉任务。一种早期的食材识别模型是PFD(成对局部特征分布),它利用食材预测的结果来进行食品分类。在PFD中,基于图像块的外观,像素点被标记为食材的类别。然后以标签共现它们的几何特性,例如以距离和方向为特征,将像素之间的空间关系建模为多维直方图。通过这些直方图,PFD表现出令人印象深刻的食品识别性能。但是,PFD在食材种类上几乎没有任何可扩展性,仅使用8个类别,而在食品食材多样的当下,这显然无法满足现实生活中的应用需要。基于食品图像的菜谱生成被设计为一个检索任务。通过计算食品图像在嵌入空间的相似度,系统从一个已有的数据集中检索出对应的菜谱。然而,这类系统的表现高度依赖于检索数据集的数据量和数据多样性,以及网络学习的嵌入向量的质量。此外,该系统也无法检索到数据集以外的菜谱信息。关于食物卡路里的估计,目前主流方法是根据的食物类别及其体积来预测食品产生的卡路里。基于深度相机的食物卡路里估算方法,通过深度相机拍摄食品图片来预测食品量从而得到食品图片的预测卡路里值。然而,深度相机作为特殊的设备,人们很难在日常生活中使用。DietCam是一个通过多张图片估算食物的卡路里的移动应用。它对食品图像进行了语义分割和图像识别,并重建了食品的3D体积,以此为依据预测食物卡路里。3D重建操作是通过基于SIFT的关键点匹配和单应性估计进行的;Pouladzadhe等提出的食物热量预测系统需要从食品的顶部和侧面两个角度拍摄照片,并以用户的拇指作为参照物。该方法通过将根据顶视图图像预测的高度与从侧视图预测的宽度相乘从而估计食品的体积。上述用多个图像估计食物体积的方法,通常需要校准摄像机或调整拍摄角度,用户操作难度大,流程复杂。食品所含卡路里值主要依赖于食品的种类,体积,食材和烹饪方法等因素。有时相同类别的食品包含的卡路里不同,这是因为它们使用的食材和烹饪方法不同。因此,仅根据识别食品类别和体积不能完全解决食品卡路里预测任务,预测准确率有待提高。
技术实现思路
本专利技术设计开发了一种基于多任务学习和注意力机制的食品反演方法,本专利技术的专利技术目的是解决检索式菜谱生成模型对数据集的依赖问题以及由于未考虑食品的食材和烹饪方法等因素,导致卡路里预测准确率低的问题。本专利技术提供的技术方案为:一种基于多任务学习和注意力机制的食品反演方法,包括如下步骤:步骤1、采集食品数据,构建菜谱数据集;步骤2、建立并训练基于注意力机制的食材文本模型,通过输入食品图片得到对应的食材文本;步骤3、建立并训练菜谱生成模型,通过输入食品图片和食材文本进而得到所述食品图片对应的菜谱文本;步骤4、将所述食材文本和所述菜谱文本分别转化为对应的食材向量和菜谱向量,建立并训练多任务卷积神经网络模型;在所述多任务卷积神经网络模型中通过输入待测食品图片进而得到所述待测食品图片对应的食品分类、卡路里值、食材向量和菜谱向量。优选的是,在所述步骤2中,通过Transformer模型建立食材文本模型过程包括:将食品图片特征向量作为输入,输出为生成食材的序列L=(l0,…,lk,…,lK),式中,lk代表序列中的一种食材。优选的是,在所述步骤2中,通过列表结构表示所述食品图片对应的生成食材,包括:确定包含N个食材元素的字典为从字典D种选择K个元素,生成食材列表将L编码为K×N维的二进制矩阵L,当dj∈D被选中时,Li,j=1,否则Li,j=0;所述食材文本模型的训练数据包含M张食品图像和食材列表对所述食材文本模型的优化目标为式中,为根据图像x预测的目标矩阵,θI和θL分别是图像编码器和食材解码器的可学习参数;将分解为K个条件句:并指定为食材分类的概率分布。优选的是,在所述步骤2中,通过Transformer模型建立食材文本模型通过Adam优化器进行数据优化:设置β1=0.9,β2=0.99,∈=1e-8,设置学习率0.001,其中,预训练残差网络层学习率为0.0001;训练最大训练轮次为200轮,使用早停法,设置patience为50,如果50轮训练后验证数据的iou标准没有改善,则执行早停;其中,batch_size设置为128,num_workers设置为4。优选的是,在所述步骤3中,通过Transformer模型建立菜谱文本模型过程包括:将食品图片特征向量和食材文本特征向量作为输入,输出为生成菜谱的序列R=(r1,…,rt,…,rT),式中,rt为序列中的一种词。优选的是,在所述步骤2中,通过Transformer模型建立菜谱文本模型通过Adam优化器进行数据优化:β1=0.9,β2=0.99,∈=1e-8,设置初始学习率0.001,每十个轮次衰减一次,衰减因子为0.99;本次训练最大训练轮次为200轮,使用早停法,设置patience为50,如果50轮训练后验证数据的iou标准没有改善,则执行早停;其中,batch_size设置为128,num_workers设置为4。优选的是,在所述步骤4中,建立并训练多任务卷积神经网络模型包括如下步骤:步骤4.1、采集样本数据并构建训练样本集和验证测试样本集;步骤4.2、搭建多任务卷积神经网络模型,步骤4.3、获取训练多任务卷积神经网络模型的损失函数:式中,Lcal,Lcat,Ling,Ldir分别为卡路里预测,食品分类,食材预测和菜谱预测四个任务的损失函数,λcat,λing和λdir分别为食品分类、食材预测和菜谱预测的损失函数的权重值,N为学习数据的总数;步骤4.4、对多任务卷积神经网络模型进行训练:设定初次训练时,各权重值初始化为1;将所述训练样本集中的图片特征向量输入到所述多任务卷积神经网络模型中,得到多任务卷积神经网络模型的输出为食品分类,卡路里值,食材文本向量和菜谱文本向量并计算食品分类,卡路里值,食材文本向量和菜谱文本向量与对应的真实值之间的损失函数,使所述损失降到最低停止训练得到训练后的多任务卷积神经网络模型;其中,多任务卷积神经网络模型训练过程中,保存每次迭代的损失值,最终所有迭代的平均损失值的倒数被作为各个任务损失函数的权重;步骤4.5、对所述训练后的多任务卷积神经网络模型在测试数据集上测试其预测准确率。优选的是,在所述步骤4.2中,将VGG16模型作为搭建所述多任务卷积神经网络模型的基本文档来自技高网
...

【技术保护点】
1.一种基于多任务学习和注意力机制的食品反演方法,其特征在于,包括如下步骤:/n步骤1、采集食品数据,构建菜谱数据集;/n步骤2、建立并训练基于注意力机制的食材文本模型,通过输入食品图片得到对应的食材文本;/n步骤3、建立并训练菜谱生成模型,通过输入食品图片和食材文本进而得到所述食品图片对应的菜谱文本;/n步骤4、将所述食材文本和所述菜谱文本分别转化为对应的食材向量和菜谱向量,建立并训练多任务卷积神经网络模型;/n在所述多任务卷积神经网络模型中通过输入待测食品图片进而得到所述待测食品图片对应的食品分类、卡路里值、食材向量和菜谱向量。/n

【技术特征摘要】
1.一种基于多任务学习和注意力机制的食品反演方法,其特征在于,包括如下步骤:
步骤1、采集食品数据,构建菜谱数据集;
步骤2、建立并训练基于注意力机制的食材文本模型,通过输入食品图片得到对应的食材文本;
步骤3、建立并训练菜谱生成模型,通过输入食品图片和食材文本进而得到所述食品图片对应的菜谱文本;
步骤4、将所述食材文本和所述菜谱文本分别转化为对应的食材向量和菜谱向量,建立并训练多任务卷积神经网络模型;
在所述多任务卷积神经网络模型中通过输入待测食品图片进而得到所述待测食品图片对应的食品分类、卡路里值、食材向量和菜谱向量。


2.如权利要求1所述的基于多任务学习和注意力机制的食品反演方法,其特征在于,在所述步骤2中,通过Transformer模型建立食材文本模型过程包括:
将食品图片特征向量作为输入,输出为生成食材的序列L=(l0,…,lk,…,lK),式中,lk代表序列中的一种食材。


3.如权利要求2所述的基于多任务学习和注意力机制的食品反演方法,其特征在于,在所述步骤2中,通过列表结构表示所述食品图片对应的生成食材,包括:
确定包含N个食材元素的字典为从字典D种选择K个元素,生成食材列表将L编码为K×N维的二进制矩阵L,当dj∈D被选中时,Li,j=1,否则Li,j=0;
所述食材文本模型的训练数据包含M张食品图像和食材列表对所述食材文本模型的优化目标为



式中,为根据图像x预测的目标矩阵,θI和θL分别是图像编码器和食材解码器的可学习参数;
将分解为K个条件句:并指定为食材分类的概率分布。


4.如权利要求3所述的基于多任务学习和注意力机制的食品反演方法,其特征在于,在所述步骤2中,通过Transformer模型建立食材文本模型通过Adam优化器进行数据优化:设置β1=0.9,β2=0.99,∈=1e-8,设置学习率0.001,其中,预训练残差网络层学习率为0.0001;训练最大训练轮次为200轮,使用早停法,设置patience为50,如果50轮训练后验证数据的iou标准没有改善,则执行早停;其中,batch_size设置为128,num_workers设置为4。


5.如权利要求1所述的基于多任务学习和注意力机制的食品反演方法,其特征在于,在所述步骤3中,通过Transformer模型建立菜谱文本模型过程包括:
将食品图片特征向量和食材文本特征向量作为输入,输出为生成菜谱的序列R=(r1,…,rt,…,rT),式中,rt为序列中的一种词。


6.如权利要求3所述的基于多任务学习和注意力机制的食品反演方法,其特征在于,在所述步骤2中,通过Transformer模型建立菜谱文本模型通过Adam优化器进行数据优化:β1=0.9,β2=0.99,∈=1e-8,设置初始学习率0.001,每十个轮次衰减一次,衰减因子为0.99;本次训练最大训练轮次为200轮,使用早停法,设置patience为50,如果50轮训练后验证数据的iou标准没有改善,则执行早停;其中,batch_size设置为128,num_workers设置为4。


7.如权利要求...

【专利技术属性】
技术研发人员:孙成林白洪涛蔡芷薇何丽莉曹英晖
申请(专利权)人:孙成林白洪涛蔡芷薇何丽莉曹英晖
类型:发明
国别省市:吉林;22

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1