当前位置: 首页 > 专利查询>之江实验室专利>正文

基于集成学习的育种跨代表型预测方法与系统、电子设备技术方案

技术编号:38482910 阅读:10 留言:0更新日期:2023-08-15 16:59
本发明专利技术公开了一种基于集成学习的育种跨代表型预测方法与系统、电子设备,包括:获取高世代作物及对应后世代作物的基因型数据,采集高世代作物的目标表型数据;基于遗传算法计算评价函数,根据评价函数从基因型数据中筛选出高世代作物中与对应的后世代作物具有遗传相关的基因型数据子集;通过子集训练若干不同的机器学习模型;计算各机器学习模型的评价指标,并排序,选取前K个机器学习模型作为基础学习器;将K个基础学习器基于集成学习方法进行堆叠,训练得到元学习器;将后世代作物的基因型数据输入至基础学习器中得到元数据,再将元数据输入至元学习器中,得到后世代作物的预测目标表型数据。目标表型数据。目标表型数据。

【技术实现步骤摘要】
基于集成学习的育种跨代表型预测方法与系统、电子设备


[0001]本专利技术主要涉及作物计算育种领域,具体涉及一种育种跨代表型预测方法与系统、电子设备、存储介质。

技术介绍

[0002]作物育种是对作物发育过程的人工优化,而发育过程由复杂的基因控制。在早期作物育种中,育种家依赖对作物表型变异的肉眼观察和长期积累的经验,选择优质表型的作物作为优势种保存下来,再通过杂交等方式有目的地获得后代,以达到获得和培育优良品种的目的。随后,得益于现代分子生物学的发展,育种家借助分子标记或基因组测序技术,分析表型变异与分子标记或基因型之间的关系,能够更高效、更精确地进行作物育种。近年来,作物育种和遗传数据迅速增长并海量积累,为新兴育种方式的出现提供了基础。计算育种是作物育种与计算机科学的交叉,是指借助大数据分析、人工智能等计算方法研究并指导作物品种选育。
[0003]研究作物基因型与表型之间的生物关联关系是作物育种的重要目标。岭回归最佳线性无偏预测是作物育种基因型表型关联预测中最常用的模型之一,是一种根据预测随机效应来获得个体育种值的线性混合模型。此外已有多种机器学习或深度学习模型被用于建立作物基因型和表型的关联关系并通过基因型或标记预测相对应的表型。但是,这些方法或模型在不同的数据集下有较大差异的预测准确率表现,尚未存在一种最优方法或最优模型能够应用于不同环境、不同种群、不同物种的作物群体。此外,目前已公开的方法都仅适用于训练集和测试集属于同一世代种群的情况,缺少实际应用意义;而不同世代作物种群的基因型和表型存在较大差异,一般的人工智能方法难以建立基因型与表型之间的相互关系。

技术实现思路

[0004]本专利技术的目的在于针对现有技术的不足,提出了一种育种跨代表型预测方法与系统、电子设备、存储介质。
[0005]为实现上述目的,本专利技术提供如下具体技术方案:
[0006]根据本专利技术实施例的第一方面,提供了一种基于集成学习的育种跨代表型预测方法,所述方法包括:
[0007]获取高世代作物及对应后世代作物的基因型数据,采集高世代作物的目标表型数据;
[0008]基于遗传算法计算评价函数,根据评价函数从基因型数据中筛选出高世代作物中与对应的后世代作物具有遗传相关的基因型数据子集;
[0009]通过子集训练若干不同的机器学习模型;
[0010]根据高世代作物的目标表型数据的数据类型计算各机器学习模型的评价指标,并排序,
[0011]选取前K个机器学习模型作为基础学习器;
[0012]将K个基础学习器基于集成学习方法进行堆叠,训练得到元学习器;
[0013]将后世代作物的基因型数据输入至基础学习器中得到元数据,再将元数据输入至元学习器中,得到后世代作物的预测目标表型数据。
[0014]根据本专利技术实施例的第二方面,提供了一种基于集成学习的育种跨代表型预测系统,所述系统包括:
[0015]数据采集模块,用于获取高世代作物及对应后世代作物的基因型数据,采集高世代作物的目标表型数据;
[0016]基因型数据子集筛选模块,用于基于遗传算法计算评价函数,根据评价函数从基因型数据中筛选出高世代作物中与对应的后世代作物具有遗传相关的基因型数据子集;
[0017]机器学习模型训练模块,通过子集训练若干不同的机器学习模型;
[0018]基础学习器选择模块,根据高世代作物的目标表型数据的数据类型计算各机器学习模型的评价指标,并排序,选取前K个机器学习模型作为基础学习器;
[0019]元学习器训练模块,将K个基础学习器基于集成学习方法进行堆叠,训练得到元学习器;
[0020]目标表型数据预测模块,将后世代作物的基因型数据输入至基础学习器中得到元数据,再将元数据输入至元学习器中,得到后世代作物的预测目标表型数据。
[0021]根据本专利技术实施例的第三方面,提供了一种电子设备,包括存储器和处理器,所述存储器与所述处理器耦接;其中,所述存储器用于存储程序数据,所述处理器用于执行所述程序数据以实现上述的基于集成学习的育种跨代表型预测方法。
[0022]根据本专利技术实施例的第四方面,提供了一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现上述的基于集成学习的育种跨代表型预测方法。
[0023]与现有技术相比,本专利技术的有益效果是:
[0024](1)本专利技术基于遗传算法计算评价函数,根据评价函数从基因型数据中筛选出高世代作物中与对应的后世代作物具有遗传相关的基因型数据子集,通过衡量高世代作物与对应的后世代作物的基因型数据之间的关系,将将原始高世代作物中与对应的后世代作物的在遗传上不相关的样本除去,能够解决机器学习在处理育种表型预测问题时数据质量不高的问题。
[0025](2)本专利技术通过子集训练若干不同的机器学习模型,并根据评价指标对机器学习模型筛选得到基础学习器,并基于集成学习方法进行堆叠,训练得到元学习器;本专利技术结合多个机器学习模型的优点,学习不同类型的隐特征,集成至元学习器中,能够解决单一机器学习模型的预测准确率低和适用范围窄的问题。
[0026](3)本专利技术以实际应用为出发点,利用高世代作物的基因型数据作为训练集建立集成学习模型,其后代作物作为测试集,能够在仅有后代作物的基因型数据的条件下,在其还未成熟的阶段对目标表型进行预测,从而提前筛选掉一些目标表型较差的后代作物,减少育种成本,优化作物的选种和培育,提高育种效率。
附图说明
[0027]为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例描述中所需要使
用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0028]图1为本专利技术提供的一种育种跨代表型预测方法的流程图;
[0029]图2为本专利技术提供的训练集优化过程的示意图;
[0030]图3为本专利技术提供的集成学习过程的示意图;
[0031]图4为本专利技术提供的一种育种跨代表型预测系统的结构框图;
[0032]图5为本专利技术提供的一种电子设备的示意图。
具体实施方式
[0033]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0034]需要说明的是,在不冲突的情况下,下述的实施例及实施方式中的特征可以相互组合。
[0035]如图1所示,本专利技术提供了一种育种跨代表型预测方法,所述方法包括以下步骤:
[0036]步骤S1,获取高世代作物及对应后世代作物的基因型数据,采集高世代作物的目标表型数据。
[0037]需要说明的是,所述高世代作物及对应后世代作物包括大豆、水稻本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于集成学习的育种跨代表型预测方法,其特征在于,所述方法包括:获取高世代作物及对应后世代作物的基因型数据,采集高世代作物的目标表型数据;基于遗传算法计算评价函数,根据评价函数从基因型数据中筛选出高世代作物中与对应的后世代作物具有遗传相关的基因型数据子集;通过子集训练若干不同的机器学习模型;根据高世代作物的目标表型数据的数据类型计算各机器学习模型的评价指标,并排序,选取前K个机器学习模型作为基础学习器;将K个基础学习器基于集成学习方法进行堆叠,训练得到元学习器;将后世代作物的基因型数据输入至基础学习器中得到元数据,再将元数据输入至元学习器中,得到后世代作物的预测目标表型数据。2.根据权利要求1所述的基于集成学习的育种跨代表型预测方法,其特征在于,高世代作物及对应后世代作物包括大豆、水稻、小麦、玉米在内的粮食作物;其中,后世代作物为高世代作物通过杂交或自交后产生的后一代或隔代后代。3.根据权利要求1所述的基于集成学习的育种跨代表型预测方法,其特征在于,基因型数据为作物的基因型标记或单核苷酸多态性的数据集;目标表型数据包括产量、株高、百粒重、蛋白质含量、含油量在内的连续型数值变量,主茎节数、豆荚数、穗粒数、成熟期在内的离散型数值变量和颜色、抗病性、耐寒性在内的分类变量。4.根据权利要求1所述的基于集成学习的育种跨代表型预测方法,其特征在于,基于遗传算法计算评价函数,根据评价函数从基因型数据中筛选出高世代作物中与对应的后世代作物具有遗传相关的基因型数据子集包括:基于遗传算法,对于给定一个样本大小为N
TRN
的高世代作物基因型数据集和一个样本大小为N
TST
的后世代作物基因型数据集;设定遗传算法的迭代次数为N,子集的样本大小为N
OPT
,其中,N
OPT
<N
TRN
;随机初始选取样本大小为N
OPT
的训练子集,根据基因型数据计算评价函数;所述评价函数选自平均遗传距离、欧氏距离、汉明距离、余弦相似度;判断评价函数的值是否满足评价条件;当评价函数的值不满足评价条件时,对子集进行选择、交叉、变异运算后再基于遗传算法进行迭代优化;当评价函数的值满足评价条件时,或评价函数的值趋于稳定时,或当迭代次数为N时,停止迭代,得到最终优化的子集。5.根据权利要求4所述的基于集成学习的育种跨代表型预测方法,其特征在于,所述评价函数为平均遗传距离,高世代作物基因型数据样本与后世代作物基因型数据样本之间的平均遗传距离由遗传关系矩阵决定,表达式如下:平均遗传距离由遗传关系矩阵决定,表达式如下:其中,为第...

【专利技术属性】
技术研发人员:董成航陈红阳冯献忠
申请(专利权)人:之江实验室
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1