当前位置: 首页 > 专利查询>中国农业科学院深圳农业基因组研究所岭南现代农业科学与技术广东省实验室深圳分中心专利>正文

GAN模型的构建方法和基于GAN模型的数据拟合、表型预测、样本扩充以及育种的方法技术

技术编号：40289844 阅读：9 留言：0更新日期：2024-02-07 20:41

本申请提供了一种GAN模型的构建方法和基于GAN模型的数据拟合、表型预测、样本扩充以及育种的方法。所述GAN模型的构建首先根据输入的真实多组学数据，进入到真实多组学数据生成器G1，提取特征，然后进入到真实表型判别器D1，实现G1和D1的训练；然后，随机生成一组噪音，输入到拟合多组学数据生成器G2，以及真实数据输入到G1，两个的输出进入到拟合多组学数据判别器D2，进行G2和D2的训练。本发明专利技术的方法能够实现至少用于弥补数据量不足的同时，充分发挥深度学习算法的优势，全面提升基因组选择的准确性。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及生物，尤其涉及一种gan模型的构建方法和基于gan模型的数据拟合、表型预测、样本扩充以及育种的方法。gan(generative adversarial network)为生成对抗式网络，是一种基于对抗学习的深度生成模型。

技术介绍

1、基因组选择实现了数据驱动的科学育种方案，根据个体基因组全部可获得的遗传信息，通过参考群体的基因型和表型的关系，构建育种模型估算单核苷酸多态性的效应值，进而估算候选群体的育种值，通过筛选育种价值较高的个体，进行实际的育种，实现快速改良育种群体的目的。当前广泛应用的育种模型，根据数据的使用可分为两类：基于基因组数据的模型和基于多组学数据的模型；根据算法模型的使用同样可分为两类：基于统计学方法的模型和基于机器学习方法的模型。这四种不同类型的育种模型，对基因组选择的发展，尤其是智慧育种体系的发展意义重大，切实推进了当代生物育种的进程。然而，随着研究的不断深入，仍然存在诸多问题，主要表现在以下几个方面：

2、首先，在基因组选择研究发展早期，利用统计学方法针对基因组数据建模，在实际应用中取得了很好的效果，尤其是针对遗传力比较高，主效效应显著的表型预测性能很好。但是，重要经济性状多属于数量性状，除了受主效位点调控外，还受到大量微效位点的协同调控，并且与环境存在密切的互作关系。此外，个体外在表型的内在互作模式，除了加性效应之外，还存在显性效应，上位效应等。也就意味着，基因型和表型间的关联，并不是简单的线性关系，还存在复杂的非线性关联。而这种复杂的非线性关联并不能被统计学模型很好地捕捉到。</p>

3、其次，虽然针对上述不足，逐渐延伸出多组学数据的应用：不仅仅在基因组层面尽可能多地包含潜在的因果分子标记位点，还通过多组学数据的引入，给予snp更多的功能信息；以及深度学习算法的应用：自主学习育种关键数据和表型的关联，不仅仅包括线性关联，还包括复杂的非线性关联。这两种应用，在一定程度上弥补了基因组数据和统计学算法的不足，已经被证实切实提升基因组选择的准确性和算法运行效率，满足大数据时代下智慧育种体系的需求。但是，获取完备的多组学数据成本很高，在实际实施中对每一个候选个体进行多组学数据的测定有一定的难度，那么如何通过训练群体的多组学数据，间接获取候选个体的多组学数据还需要系统深入地探究。此外，深度学习模型需要大量的数据来训练以达到最优状态。但是当前基因组选择所面临的困境是，往往数万甚至上千万个snp的效应值需要在数百个或者数千个个体内估计，这就导致了深度学习模型的优势不能被最大化出来。具体的表现形式有，虽然有很多的工作都表明深度学习算法的引入，尤其是整合多组学数据，可以提升表型预测精度，但是提升幅度并没有期望的那么高。

4、因此，我们需要一个更加完备的以深度学习算法来构建的智慧育种体系，在弥补数据量不足的同时，充分发挥深度学习算法的优势，全面提升基因组选择的准确性。

技术实现思路

1、本申请的一个目的是提供一种gan模型的构建方法和基于gan模型的数据拟合、表型预测、样本扩充以及育种的方法，至少用以解决现有用于育种的数据量不足、基因组选择的准确性不够高的问题。

2、为实现上述目的，本申请的一些实施例提供了以下几个方面：

3、第一方面，本申请的一些实施例提供了一种gan模型的构建方法：所述gan模型包括第一生成器g1、第二生成器g2、第一判别器d1、第二判别器d2；

4、所述构建方法包括：获取真实多组学数据和获取拟合基因型数据，所述真实多组学数据包括基因型数据，选择性地包括目标物种的表观组数据、转录组数据、蛋白组数据、代谢组数据、功能组数据中的至少一种以及真实表型数据yreal；所述拟合基因型数据为与所述基因型数据维度相同的一组随机数值；所述真实多组学数据的标签值为true真，所述拟合基因型数据的标签值为false假；

5、将所述真实多组学数据输入到所述第一生成器g1，通过所述第一生成器g1聚合的数据特征输入到所述第一判别器d1，得到预测表型数据ypre，基于所述预测表型数据ypre和所述真实表型数据yreal的差值构建损失函数训练，得到训练好的第一生成器g1和第一判别器d1；

6、初始构建所述第二生成器g2的网络结构和基本参数与所述训练好的第一生成器g1保持一致；将所述真实多组学数据通过所述第一生成器g1聚合特征输入到所述第二判别器d2，得到第一判定结果，将所述拟合基因型数据通过所述第二生成器g2聚合特征输入到所述第二判别器d2，得到第二判定结果，基于所述第一判定结果为true真和所述第二判定结果为false假的损失函数值更新所述第二判别器d2参数，基于所述第二判定结果为true真的损失函数值更新所述第二生成器g2参数，经过对抗训练直到所述第二判别器d2无法正确区分输入的真或假，得到训练好的第二生成器g2和第二判别器d2。

7、在优选实施例中，所述基于所述预测表型数据和所述真实表型数据的差值构建损失函数训练，损失函数通过平均绝对误差定义，损失函数l(x)＝|d1(x|g1)-yreal|。

8、在优选实施例中，所述对抗训练采用的损失函数通过交叉损失熵来定义，交叉损失熵定义为：h(p,q)＝-∑ipilogqi；

9、当接收第一生成器g1的输入，并判定为真，损失函数

10、接收第二生成器g2的输入，并判定为false假，损失函数

11、接收第二生成器g2的输入，并判定为true真，损失函数

12、所述判别器d2的损失函数为极小化极大估值函数v(g2,d2)：

13、

14、所述生成器g2的损失函数定义为极小化估值函数v(g2)：

15、

16、其中，g1(x|real)为所述g1处理所述真实多组学数据的输出，g2(x|fake)为所述g2处理所述拟合基因型数据的输出。

17、在优选实施例中，所述对抗训练步骤为：

18、步骤a、从指定的数据分布中随机选择与真实基因型数据相同维度的一组随机变量；

19、步骤b、利用g2接收步骤a生成的随机变量，拟合数据特征，标签为false；

20、步骤c、从真实数据中选取一定数目的样本，利用g1得到真实数据特征，标签为true；

21、步骤d、利用b和c按照所述交叉损失熵损失函数v(g2,d2)训练d2；

22、步骤e、重新按照a生成一组随机变量，标签定义为true，按照所述交叉损失熵损失函数v(g2)训练g2；

23、步骤f、按照指定步数重复上述a-e步骤，直到满足设定条件停止训练。

24、第二方面，本申请的一些实施例还提供了一种数据拟合的方法，采用如上所述的构建方法构建的gan模型进行多组学数据拟合，包括以下步骤：候选群体基因型数据输入所述g2，得到所述g2中各层参数的估计值，提取所述g2中各层参数的估计值，对应于g1模型中多组学数据输入的位置，实现多组学数本文档来自技高网...

【技术保护点】

1.一种GAN模型的构建方法，其特征在于，所述GAN模型包括第一生成器G1、第二生成器G2、第一判别器D1、第二判别器D2；

2.根据权利要求1所述的方法，其特征在于，所述基于所述预测表型数据和所述真实表型数据的差值构建损失函数训练，损失函数通过平均绝对误差定义，损失函数L(x)＝|D1(x|G1)-yreal|。

3.根据权利要求1所述的方法，其特征在于，所述对抗训练采用的损失函数通过交叉损失熵来定义，交叉损失熵定义为：H(p,q)＝-∑ipilogqi；

4.根据权利要求3所述的方法，其特征在于，所述对抗训练步骤为：

5.一种数据拟合的方法，其特征在于，采用如权利要求1-4任一项所述的构建方法构建的GAN模型进行多组学数据拟合，包括以下步骤：

6.一种表型预测的方法，其特征在于，采用如权利要求1-4任一项所述的构建方法构建的GAN模型进行表型预测，包括以下步骤：

7.一种样本扩充的方法，其特征在于，采用如权利要求1-4任一项所述的方法构建的GAN模型进行样本扩充，包括以下步骤：

8.一种育种方

9.一种计算机设备，其特征在于，所述设备包括：

10.一种计算机可读介质，其上存储有计算机程序指令，所述计算机程序指令可被处理器执行以实现如权利要求1-7任一项所述的方法。

...

【技术特征摘要】

1.一种gan模型的构建方法，其特征在于，所述gan模型包括第一生成器g1、第二生成器g2、第一判别器d1、第二判别器d2；

2.根据权利要求1所述的方法，其特征在于，所述基于所述预测表型数据和所述真实表型数据的差值构建损失函数训练，损失函数通过平均绝对误差定义，损失函数l(x)＝|d1(x|g1)-yreal|。

3.根据权利要求1所述的方法，其特征在于，所述对抗训练采用的损失函数通过交叉损失熵来定义，交叉损失熵定义为：h(p,q)＝-∑ipilogqi；

4.根据权利要求3所述的方法，其特征在于，所述对抗训练步骤为：

5.一种数据拟合的方法，其特征在于，采用如权利要求1-4任一项所述的构建方法构建的gan模型进行多组...

【专利技术属性】
技术研发人员：刘毓文，马文龙，郑伟刚，牛士奇，
申请(专利权)人：中国农业科学院深圳农业基因组研究所岭南现代农业科学与技术广东省实验室深圳分中心，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人