基于集成学习的育种跨代表型预测方法与系统、电子设备技术方案

技术编号：38482910 阅读：10 留言：0更新日期：2023-08-15 16:59

本发明专利技术公开了一种基于集成学习的育种跨代表型预测方法与系统、电子设备，包括：获取高世代作物及对应后世代作物的基因型数据，采集高世代作物的目标表型数据；基于遗传算法计算评价函数，根据评价函数从基因型数据中筛选出高世代作物中与对应的后世代作物具有遗传相关的基因型数据子集；通过子集训练若干不同的机器学习模型；计算各机器学习模型的评价指标，并排序，选取前K个机器学习模型作为基础学习器；将K个基础学习器基于集成学习方法进行堆叠，训练得到元学习器；将后世代作物的基因型数据输入至基础学习器中得到元数据，再将元数据输入至元学习器中，得到后世代作物的预测目标表型数据。目标表型数据。目标表型数据。

全部详细技术资料下载

【技术实现步骤摘要】
基于集成学习的育种跨代表型预测方法与系统、电子设备

[0001]本专利技术主要涉及作物计算育种领域，具体涉及一种育种跨代表型预测方法与系统、电子设备、存储介质。

技术介绍

[0002]作物育种是对作物发育过程的人工优化，而发育过程由复杂的基因控制。在早期作物育种中，育种家依赖对作物表型变异的肉眼观察和长期积累的经验，选择优质表型的作物作为优势种保存下来，再通过杂交等方式有目的地获得后代，以达到获得和培育优良品种的目的。随后，得益于现代分子生物学的发展，育种家借助分子标记或基因组测序技术，分析表型变异与分子标记或基因型之间的关系，能够更高效、更精确地进行作物育种。近年来，作物育种和遗传数据迅速增长并海量积累，为新兴育种方式的出现提供了基础。计算育种是作物育种与计算机科学的交叉，是指借助大数据分析、人工智能等计算方法研究并指导作物品种选育。
[0003]研究作物基因型与表型之间的生物关联关系是作物育种的重要目标。岭回归最佳线性无偏预测是作物育种基因型表型关联预测中最常用的模型之一，是一种根据预测随机效应来获得个体育种值的线性混合模型。此外已有多种机器学习或深度学习模型被用于建立作物基因型和表型的关联关系并通过基因型或标记预测相对应的表型。但是，这些方法或模型在不同的数据集下有较大差异的预测准确率表现，尚未存在一种最优方法或最优模型能够应用于不同环境、不同种群、不同物种的作物群体。此外，目前已公开的方法都仅适用于训练集和测试集属于同一世代种群的情况，缺少实际应用意义；而不同世代作物种群的基因型和表型存在较大差异，一...

【技术保护点】

【技术特征摘要】
1.一种基于集成学习的育种跨代表型预测方法，其特征在于，所述方法包括：获取高世代作物及对应后世代作物的基因型数据，采集高世代作物的目标表型数据；基于遗传算法计算评价函数，根据评价函数从基因型数据中筛选出高世代作物中与对应的后世代作物具有遗传相关的基因型数据子集；通过子集训练若干不同的机器学习模型；根据高世代作物的目标表型数据的数据类型计算各机器学习模型的评价指标，并排序，选取前K个机器学习模型作为基础学习器；将K个基础学习器基于集成学习方法进行堆叠，训练得到元学习器；将后世代作物的基因型数据输入至基础学习器中得到元数据，再将元数据输入至元学习器中，得到后世代作物的预测目标表型数据。2.根据权利要求1所述的基于集成学习的育种跨代表型预测方法，其特征在于，高世代作物及对应后世代作物包括大豆、水稻、小麦、玉米在内的粮食作物；其中，后世代作物为高世代作物通过杂交或自交后产生的后一代或隔代后代。3.根据权利要求1所述的基于集成学习的育种跨代表型预测方法，其特征在于，基因型数据为作物的基因型标记或单核苷酸多态性的数据集；目标表型数据包括产量、株高、百粒重、蛋白质含量、含油量在内的连续型数值变量，主茎节数、豆荚数、穗粒数、成熟期在内的离散型数值变量和颜色、抗病性、耐寒性在内的分类变量。4.根据权利要求1所述的基于集成学习的育种跨代表型预测方法，其特征在于，基于遗传算法计算评价函数，根据评价函数从基因型数据中筛选出高世代作物中与对应的后世代作物具有遗传相关的基因型数据子集包括：基于遗传算法，对于给定一个样本大小为N
TRN
的高世代作物基因型数据集和一个样本大小为N
TST
的后世代作物基因型数据集；设定遗传算法的迭代次数为N，子集的样本大小为N
OPT
，其中，N
OPT
＜N
TRN
；随机初始选取样本大小为N
OPT
的训练子集，根据基因型数据计算评价函数；所述评价函数选自平均遗传距离、欧氏距离、汉明距离、余弦相似度；判断评价函数的值是否满足评价条件；当评价函数的值不满足评价条件时，对子集进行选择、交叉、变异运算后再基于遗传算法进行迭代优化；当评价函数的值满足评价条件时，或评价函数的值趋于稳定时，或当迭代次数为N时，停止迭代，得到最终优化的子集。5.根据权利要求4所述的基于集成学习的育种跨代表型预测方法，其特征在于，所述评价函数为平均遗传距离，高世代作物基因型数据样本与后世代作物基因型数据样本之间的平均遗传距离由遗传关系矩阵决定，表达式如下：平均遗传距离由遗传关系矩阵决定，表达式如下：其中，为第...

【专利技术属性】
技术研发人员：董成航，陈红阳，冯献忠，
申请(专利权)人：之江实验室，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人