一种基于跨模态图像生成的多视角植株生成方法和装置制造方法及图纸

技术编号：40002331 阅读：10 留言：0更新日期：2024-01-09 03:59

本发明专利技术公开了一种基于跨模态图像生成的多视角植株生成方法和装置，属于农业方面的图像处理领域，包括：采集植株图像并标注文本信息；基于图像和文本对文本图像映射模型进行训练微调并冻结，得到图像和文本的内嵌向量；基于图像和文本的内嵌向量，构建基于扩散模型的包含文本图像先验模块和图像编码器模块的图像生成模型并训练；实际推理阶段根据基因型‑表型预测模型得到的目标植株表型数据，引导图像生成模型生成多视角小图，并输入图像超分辨模块得到高分辨率的目标植株图像。本发明专利技术采用扩散模型构建图像生成模型和图像超分辨模块，能够实现生成效率高、可扩展性强且生成图像质量高的植株表型数据可视化图像预测，为可视育种提供支撑。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于农业方面的图像处理领域，具体涉及一种基于跨模态图像生成的多视角植株生成方法和装置。

技术介绍

1、随着先进育种设备和计算机技术的快速发展，围绕表型驱动的计算育种系统、基因型驱动的计算育种系统和人工智能驱动的多模块计算育种系统目前得到了越来越多的关注。然而在实际使用时，还是以传统的表型驱动和基因型驱动的计算育种系统为主，通过种植相应基因型的植株，进行观察和采集得到表型数据，然后决定该表型数据是否满足要求，从而为育种决策提供支撑。

2、公开号为cn116779029a的专利文献公开了一种基于表型表现的育种筛选系统及方法，包括：第一信息采集模块，包含采集植株图像的第一检测单元；基于所述第一信息采集模块采集的包含植株的表型数据，远程服务器将采集到的n个表型数据基于其数据特征进行分类，并生成对应的表型数据集合，其中，每个集合设置有其对应的类别标签；所述远程服务器包含基因数据库，其中，基于集合的类别标签，所述远程服务器关联所述基因数据库中存储的与植株表型相关的基因数据和集合的类别标签，并将具有关联性的至少一个基因作为第一优先级基因集合，以获得所述植株可能发生突变的基因。但是该专利技术建立基因型-表型筛选系统对植株突变基因进行筛选，采集到的表型数据较为单一，且无法为育种人员提供可视化的直观信息。

3、公开号为cn116740650a的专利文献公开了一种基于深度学习的作物育种监测方法及系统，包括采集育种区内作物病害部位图像及对应标签，标签为作物病害类别，将育种区内作物病害部位图像作为原始图像；光照感知色彩增

4、因此，需要一种适用于植株图像的生成方法，将预测的表型数据以可视化的方式直观地呈现出来。然而直接从简单的表型数据去生成可视化的逼真植株图像是一项具有很大挑战难度的事情，得益于近年来文本图像生成大模型的不断发展，让植株图像生成成为可能。

技术实现思路

1、本专利技术的目的是提供一种基于跨模态图像生成的多视角植株生成方法和装置，通过构建基于扩散模型的图像生成模型和图像超分辨模块，实际推理时，采用基因型-表型预测模型输出的目标植株的表型数据引导图像生成模型和图像超分辨模块得到高分辨率的目标植株图像，能够实现生成效率高、可扩展性强且生成图像质量高的植株表型数据可视化图像预测，为可视育种提供支撑。

2、为实现上述专利技术目的，本专利技术提供的技术方案如下：

3、第一方面，本专利技术实施例提供的一种基于跨模态图像生成的多视角植株生成方法，包括以下步骤：

4、步骤1：采集不同视角的植株图像，并进行标注得到文本信息；

5、步骤2：利用植株图像和文本信息对文本图像映射模型进行训练微调并冻结，用于得到图像内嵌向量和文本内嵌向量；

6、步骤3：构建基于扩散模型的图像生成模型，采用图像内嵌向量和文本内嵌向量对图像生成模型进行训练，所述训练包括对文本图像先验模块和图像解码器模块的训练；

7、步骤4：提取推理时目标植株的文本信息构建目标文本内嵌向量，将所述目标文本内嵌向量、噪声向量和时间步输入训练好的文本图像先验模块中，得到目标图像内嵌向量；将所述目标图像内嵌向量、噪声向量和时间步输入训练好的图像解码器模块，得到多视角小图；

8、步骤5：将多视角小图输入到基于扩散模型的图像超分辨模块中，得到高分辨率的目标植株图像，并通过图像质量评价模块对目标植株图像进行评价。

9、本专利技术利用扩散模型构建图像生成模型，包含文本图像先验模块和图像解码器模块两个部分。在图像生成模型的训练阶段，图像内嵌向量和文本内嵌向量分别输入文本图像先验模块的前向扩散过程和逆向扩散过程，其中，文本内嵌向量引导逆向扩散过程生成第二图像内嵌向量并作为图像解码器模块的引导向量，引导图像解码器模块的逆向扩散过程得到训练植株的生成图像。在实际推理阶段，采用基因型-表型预测模型输出的目标植株的表型数据和植株生命周期、生长环境等信息引导图像生成模型生成目标植株的多视角小图。

10、为了提升生成的多视角小图的分辨率，本专利技术还提出基于扩散模型的图像超分辨模块，所述基于扩散模型的图像超分辨模块由两个超分辨扩散模型串联组成，每一个超分辨扩散模型包括一个预训练的残差卷积上采样模块和基于unet去噪网络的超分辨扩散模型。将低分辨率的多视角小图输入预训练的残差卷积上采样模块，得到目标分辨率特征图和注意力图；所述目标分辨率特征图通过频率分解卷积模块，得到损失严重的高频特征和保真较好的低频特征；将损失严重的高频特征输入基于unet去噪网络的超分辨扩散模型中，基于注意力图构建注意力引导向量，引导损失严重的高频特征降噪得到新生成的高频特征；将新生成的高频特征和所述保真较好的低频特征进行融合，得到高分辨率的目标植株图像。

11、进一步的，步骤1中，所述文本信息包括植株的生命周期、生长环境、品种以及外在表型数据，所述外在表型数据是对植株进行实际测量得到的株高、株围以及分支数。

12、进一步的，步骤2中，所述文本图像映射模型包含图像编码器和文本编码器，所述图像编码器和文本编码器采用对比语言-图像预训练模型clip。

13、进一步的，步骤2中，利用植株图像和文本信息对文本图像映射模型进行训练微调，包括：

14、针对植株图像和文本信息，分别采用图像编码器、文本编码器得到图像内嵌向量和文本内嵌向量；

15、利用空间映射将图像内嵌向量和文本内嵌向量映射为相同维度，并进行l2归一化；

16、计算l2归一化之后的图像内嵌向量和文本内嵌向量之间的余弦相似度；

17、基于余弦相似度，采用对比学习方法实现图像内嵌向量和文本内嵌向量的对齐，完成训练微调。

18、进一步的，步骤3中，对文本图像先验模块的训练，包括：

19、将冻结后的文本图像映射模型处理后的第一图像内嵌向量输入到文本图像先验模块中，前向扩散过程将第一图像内嵌向量进行加噪处理得到第一噪声图像内嵌向量；

20、冻结后的文本图像映射模型处理后的文本内嵌向量、时间步和所述第一噪声图像内嵌向量经过逆向扩散过程降噪得到第二图像内嵌向量；

21、通过第一图像内嵌向量加躁处理时所加噪声和文本图像先验模块的逆向扩散过程降噪时的估计噪声之间的第一损本文档来自技高网...

【技术保护点】

1.一种基于跨模态图像生成的多视角植株生成方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于跨模态图像生成的多视角植株生成方法，其特征在于，步骤1中，所述文本信息包括植株的生命周期、生长环境、品种以及外在表型数据，所述外在表型数据是对植株进行实际测量得到的株高、株围以及分支数。

3.根据权利要求1所述的基于跨模态图像生成的多视角植株生成方法，其特征在于，步骤2中，所述文本图像映射模型包含图像编码器和文本编码器，所述图像编码器和文本编码器采用对比语言-图像预训练模型CLIP。

4.根据权利要求3所述的基于跨模态图像生成的多视角植株生成方法，其特征在于，步骤2中，利用植株图像和文本信息对文本图像映射模型进行训练微调，包括：

5.根据权利要求1所述的基于跨模态图像生成的多视角植株生成方法，其特征在于，步骤3中，对文本图像先验模块的训练，包括：

6.根据权利要求1或5所述的基于跨模态图像生成的多视角植株生成方法，其特征在于，步骤3中，对图像解码器模块的训练，包括：

7.根据权利要求1所述的基于跨模态图像生

8.根据权利要求1或3所述的基于跨模态图像生成的多视角植株生成方法，其特征在于，步骤5中，所述基于扩散模型的图像超分辨模块由两个超分辨扩散模型串联组成，每一个超分辨扩散模型包括一个预训练的残差卷积上采样模块和基于Unet去噪网络的超分辨扩散模型，得到高分辨率的目标植株图像的过程，包括：

9.根据权利要求1所述的基于跨模态图像生成的多视角植株生成方法，其特征在于，步骤5中，所述图像质量评价模块包括高维语义特征提取器和低维失真特征提取器，所述高维语义特征提取器包括目标检测网络，所述低维失真特征提取器包括预训练的VGG19网络。

10.一种基于跨模态图像生成的多视角植株生成装置，其特征在于，包括文本图像采集单元、内嵌向量构建单元、模型训练单元、模型推理单元、质量评估单元；

...

【技术特征摘要】

1.一种基于跨模态图像生成的多视角植株生成方法，其特征在于，包括以下步骤：

3.根据权利要求1所述的基于跨模态图像生成的多视角植株生成方法，其特征在于，步骤2中，所述文本图像映射模型包含图像编码器和文本编码器，所述图像编码器和文本编码器采用对比语言-图像预训练模型clip。

5.根据权利要求1所述的基于跨模态图像生成的多视角植株生成方法，其特征在于，步骤3中，对文本图像先验模块的训练，包括：

6.根据权利要求1或5所述的基于跨模态图像生成的多视角植株生成方法，其特征在于，步骤3中，对图像解码器模块的训练，包...

【专利技术属性】
技术研发人员：孙立剑，徐晓刚，冯献忠，王军，虞舒敏，高金珊，曹卫强，
申请(专利权)人：之江实验室，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人