System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于预训练图文匹配模型的食谱到食物可控生成方法和装置制造方法及图纸_技高网

一种基于预训练图文匹配模型的食谱到食物可控生成方法和装置制造方法及图纸

技术编号:41407819 阅读:3 留言:0更新日期:2024-05-20 19:34
本发明专利技术公开了图像生成技术领域的一种基于预训练图文匹配模型的食谱到食物可控生成方法和装置,方法包括:获取经过筛选的菜谱数据集;通过预训练图文匹配模型CLIP对所述菜谱数据集进行编码,通过融合模块将所述菜谱数据集编码后的菜名特征、食材特征及烹饪步骤特征的文本信息融合,获得融合特征;将所述菜谱数据集中的食材特征通过线性映射方法初始化为提示标签;将从所述经过筛选的菜谱数据集中随机采样的高斯噪声、提示标签、融合特征输入生成对抗网络模型,生成和所述融合特征内容相符的食物图像;将所述食物图像输入所述生成对抗网络模型中的图像判别器以区分真实图像和合成图像,基于所述真实图像和合成图像保证食物图像真实性和语义一致性。本发明专利技术能够解决由于烹饪指令之间顺序关系的影响以至于最终食谱和生成的食物图像之间语义不一致的技术问题。

【技术实现步骤摘要】

本专利技术涉及图像生成,尤其涉及一种基于预训练图文匹配模型的食谱到食物可控生成方法和装置


技术介绍

1、近年来,食品相关工作的应用促进了食品分析的发展,如食品识别、食品分类、菜谱生成食物、菜谱检索食品、食物成分分析等。其中,由菜谱生成食物的任务是一个典型的文本到图像生成问题,其目的是从菜谱中生成真实和语义一致的食品图像,为食品质量评价提供新的视角。

2、现有技术中大多数方法都通过引入一个食谱嵌入模块来提取食谱中的食材和烹饪步骤的特征表示,并直接连接起来生成食物图像,这将导致烹饪指令中包含的序列信息容易被忽略,从而使得食谱和生成的食物图像之间的语义不一致,例如,当我们做“炸鸡腿”的食物时,交换“用一层面包屑包裹鸡腿”和“用大火炸至金黄色”的顺序,会对食物图像的味道和外观产生巨大的影响;因此,亟需一种基于预训练图文匹配模型的食谱到食物可控生成方法以解决上述技术问题。


技术实现思路

1、本专利技术的目的在于克服现有技术中的不足,提供一种基于预训练图文匹配模型的食谱到食物可控生成方法和装置,能够解决由于烹饪指令之间顺序关系的影响以至于最终食谱和生成的食物图像之间语义不一致的技术问题。

2、为达到上述目的,本专利技术是采用下述技术方案实现的:

3、第一方面,本专利技术提供了一种基于预训练图文匹配模型的食谱到食物可控生成方法,包括:

4、获取经过筛选的菜谱数据集;

5、通过预训练图文匹配模型clip对所述菜谱数据集进行编码,通过融合模块将所述菜谱数据集编码后的菜名特征、食材特征及烹饪步骤特征的文本信息融合,获得融合特征;

6、将所述菜谱数据集中的食材特征通过线性映射方法初始化为提示标签;

7、将从所述经过筛选的菜谱数据集中随机采样的高斯噪声、提示标签、融合特征输入生成对抗网络模型,生成和所述融合特征内容相符的食物图像;

8、将所述食物图像输入所述生成对抗网络模型中的图像判别器以区分真实图像和合成图像,基于所述真实图像和合成图像保证食物图像真实性和语义一致性。

9、进一步地,获取经过筛选的菜谱数据集包括:

10、从包含多张食物图片的菜谱中随机挑选出一张食物图片和菜谱一一对应,筛去所述菜谱中多余的食物图片,保留其中烹饪步骤数和食材数均小于20的菜谱数据以获取经过筛选的菜谱数据集。

11、进一步地,通过融合模块将所述菜谱数据集编码后的菜名特征、食材特征及烹饪步骤特征的文本信息融合,获得融合特征包括:

12、所述融合模块为rfm模块,所述rfm模块将每个烹饪步骤的特征进行拼接,通过线性变换逐步输出特征,然后在rfm模块中通过注意力机制将菜名特征、食材特征、烹饪步骤特征合并为融合特征。

13、进一步地,将所述菜谱数据集中的食材特征通过线性映射方法初始化为提示标签包括:

14、为每个所述食材特征所在的位置m添加顺序嵌入向量,所述顺序嵌入向量与对应位置的所述食材特征连接,所述顺序嵌入向量按如下方式映射到提示标签中:

15、;

16、其中,f(·)是线性映射层,而是由f(·)映射的提示标签,为所述食材特征;

17、所述顺序嵌入向量可以通过正弦和余弦函数计算:

18、;

19、;

20、i为顺序嵌入向量的索引值;d为所述预训练图文匹配模型clip的通道维数。

21、进一步地,还包括通过所述提示标签和引入的可优化的权重控制矩阵自适应地调节每个所述提示标签的重要性:

22、;

23、其中,为控制矩阵w的初始系数,w的维数为k×k;p表示提示集。

24、进一步地,将从所述经过筛选的菜谱数据集中随机采样的高斯噪声、提示标签、融合特征输入生成对抗网络模型,生成和所述融合特征内容相符的食物图像包括:

25、所述生成对抗网络模型为galip模型,所述galip模型包括第一冻结clip-vit和图像生成器,所述第一冻结clip-vit为所述clip模型用于对齐全局特征的视觉编码器;

26、将从所述经过筛选的菜谱数据集中随机采样的高斯噪声、提示标签、融合特征输入图像生成器,结合从所述第一冻结clip-vit中提取与食物图像相关的视觉特征,经过上采样生成图像特征,再通过卷积层将所述图像特征转换成食物图像。

27、进一步地,还包括:通过全连接层将所述融合特征转换至高维空间中,用于丰富所述食物图像的细节。

28、进一步地,将所述食物图像输入所述生成对抗网络模型中的图像判别器以区分真实图像和合成图像,基于所述真实图像和合成图像保证食物图像真实性和语义一致性包括:

29、所述生成对抗网络模型还包括第二冻结clip-vit和图像判别器,所述第二冻结clip-vit为所述clip模型用于对齐全局特征的视觉编码器;

30、通过下采样将所述食物图像转换为图像特征以输入所述图像判别器,结合从所述第二冻结clip-vit中提取与食物图像相关的视觉特征,区分真实图像和合成图像,基于所述真实图像和合成图像计算对抗损失和图文一致性损失,实现保证食物图像真实性和语义一致性。

31、进一步地,所述图像生成器的训练损失函数如下:

32、;

33、所述图像判别器的训练损失函数包括:

34、;

35、其中,d为图像判别器,g为图像生成器,c为图像判别器中冻结的clip视觉编码器,s为余弦相似度,z代表高斯噪声,为合成图像的数据分布,为图像生成器的特征分布,为梯度符号,λ是文本图像相似度的系数,是菜谱特征,x是真实的图像特征,k和p为梯度惩罚的超参数,表示真实的数据分布,表示不匹配的数据分布。

36、第二方面,本专利技术提供了一种基于预训练图文匹配模型的食谱到食物可控生成装置,包括:

37、数据集获取模块:用于获取经过筛选的菜谱数据集;

38、特征融合模块:用于通过预训练图文匹配模型clip对所述菜谱数据集进行编码,通过融合模块将所述菜谱数据集编码后的菜名特征、食材特征及烹饪步骤特征的文本信息融合,获得融合特征;

39、提示标签获取模块:用于将所述菜谱数据集中的食材特征通过线性映射方法初始化为提示标签;

40、食物图像生成模块:将从所述经过筛选的菜谱数据集中随机采样的高斯噪声、提示标签、融合特征输入生成对抗网络模型,生成和所述融合特征内容相符的食物图像;

41、食物图像判别模块,用于将所述食物图像输入所述生成对抗网络模型中的图像判别器以区分真实图像和合成图像,基于所述真实图像和合成图像保证食物图像真实性和语义一致性。

42、与现有技术相比,本专利技术所达到的有益效果:

43、为了建立烹饪指令之间的顺序关系,引入预训练图文匹配模型进行菜谱特征编码,并通过提示标签指导图像生成器优化由菜谱到食物的图像生成,最终通过融本文档来自技高网...

【技术保护点】

1.一种基于预训练图文匹配模型的食谱到食物可控生成方法,其特征在于,包括:

2.根据权利要求1所述的基于预训练图文匹配模型的食谱到食物可控生成方法,其特征在于,获取经过筛选的菜谱数据集包括:

3.根据权利要求1所述的基于预训练图文匹配模型的食谱到食物可控生成方法,其特征在于,通过融合模块将所述菜谱数据集编码后的菜名特征、食材特征及烹饪步骤特征的文本信息融合,获得融合特征包括:

4.根据权利要求1所述的基于预训练图文匹配模型的食谱到食物可控生成方法,其特征在于,将所述菜谱数据集中的食材特征通过线性映射方法初始化为提示标签包括:

5.根据权利要求4所述的基于预训练图文匹配模型的食谱到食物可控生成方法,其特征在于,还包括通过所述提示标签和引入的可优化的权重控制矩阵自适应地调节每个所述提示标签的重要性:

6.根据权利要求1所述的基于预训练图文匹配模型的食谱到食物可控生成方法,其特征在于,将从所述经过筛选的菜谱数据集中随机采样的高斯噪声、提示标签、融合特征输入生成对抗网络模型,生成和所述融合特征内容相符的食物图像包括:

>7.根据权利要求6所述的基于预训练图文匹配模型的食谱到食物可控生成方法,其特征在于,还包括:

8.根据权利要求1所述的基于预训练图文匹配模型的食谱到食物可控生成方法,其特征在于,将所述食物图像输入所述生成对抗网络模型中的图像判别器以区分真实图像和合成图像,基于所述真实图像和合成图像保证食物图像真实性和语义一致性包括:

9.根据权利要求8所述的基于预训练图文匹配模型的食谱到食物可控生成方法,其特征在于,

10.一种基于预训练图文匹配模型的食谱到食物可控生成装置,其特征在于,包括:

...

【技术特征摘要】

1.一种基于预训练图文匹配模型的食谱到食物可控生成方法,其特征在于,包括:

2.根据权利要求1所述的基于预训练图文匹配模型的食谱到食物可控生成方法,其特征在于,获取经过筛选的菜谱数据集包括:

3.根据权利要求1所述的基于预训练图文匹配模型的食谱到食物可控生成方法,其特征在于,通过融合模块将所述菜谱数据集编码后的菜名特征、食材特征及烹饪步骤特征的文本信息融合,获得融合特征包括:

4.根据权利要求1所述的基于预训练图文匹配模型的食谱到食物可控生成方法,其特征在于,将所述菜谱数据集中的食材特征通过线性映射方法初始化为提示标签包括:

5.根据权利要求4所述的基于预训练图文匹配模型的食谱到食物可控生成方法,其特征在于,还包括通过所述提示标签和引入的可优化的权重控制矩阵自适应地调节每个所述提示标签的重要性:

【专利技术属性】
技术研发人员:鲍秉坤王婕徐梦玲
申请(专利权)人:南京邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1