System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及植物育种,尤其涉及一种利用融合模型实施基因组选择的方法、装置、设备及介质。
技术介绍
1、基因组选择(genomic selection,gs)是育种计划中的一项重要技术,它利用训练数据集来解析基因型-表型关系,随后仅利用基因型数据来预测测试数据集中的基因组估计值。通过结合gs技术预测大规模材料的表型,选择潜在优异个体,极大地促进了育种过程。
2、目前有许多gs算法,但它们往往都是单任务建立模型,忽略了育种中表型之间的关联性,在预测准确率上的表现尚不能满足育种选择的需求。
技术实现思路
1、针对现有技术存在的问题,本专利技术提供一种利用融合模型实施基因组选择的方法、装置、设备及介质。
2、第一方面,本专利技术提供一种利用融合模型实施基因组选择的方法,包括:
3、获取多个生物材料的基因型数据;
4、将所述多个生物材料的基因型数据进行数据预处理后输入目标性状预测模型,得到每个所述生物材料的目标性状育种值;
5、基于所述目标性状育种值,对所述多个生物材料进行育种选择;
6、其中,所述目标性状预测模型是在除目标性状以外的多个其他性状的训练数据集上训练得到多个预训练模型后,融合至少两个所述预训练模型,然后在所述目标性状的训练数据集上对融合后的模型进行训练得到的。
7、在一些实施例中,所述目标性状预测模型的训练过程包括:
8、获取样本生物材料的基因型数据和表型数据;所述表型数据包括所述
9、对所述样本生物材料的基因型数据以及所述样本生物材料的表型数据进行数据预处理;
10、基于数据预处理后每个所述其他性状的训练数据集分别训练一个深度学习网络模型,训练完成后得到多个预训练模型;
11、所述多个预训练模型中任意k个作为一组,针对每一组预训练模型,都通过部分参数冻结和模型融合处理,得到一个融合模型;其中,所述融合模型包括k个并行的分支结构,每个所述分支结构均为一个预训练模型冻结了参数的结构部分;所述k为大于或等于2的整数;
12、基于数据预处理后所述目标性状的训练数据集训练每个所述融合模型,得到所述目标性状的候选预测模型;
13、选择预测准确率最高的候选预测模型作为所述目标性状预测模型。
14、在一些实施例中,所述对所述样本生物材料的基因型数据以及所述样本生物材料的表型数据进行数据预处理,包括:
15、对所述样本生物材料的基因型数据进行异常值、缺失值的处理,以及基因型数据的数值化处理;
16、对所述样本生物材料的表型数据进行异常值、缺失值的处理,以及表型数据的标准化处理。
17、在一些实施例中,所述多个生物材料与所述样本生物材料属于同一物种。
18、在一些实施例中,所述基因型数据为分子标记的数据。
19、在一些实施例中,所述深度学习网络模型为卷积神经网络或者多层感知机。
20、第二方面,本专利技术还提供一种利用融合模型实施基因组选择的装置,包括:
21、获取模块,用于获取多个生物材料的基因型数据;
22、预测模块,用于将所述多个生物材料的基因型数据进行数据预处理后输入目标性状预测模型,得到每个所述生物材料的目标性状育种值;
23、选择模块,用于基于所述目标性状育种值,对所述多个生物材料进行育种选择;
24、其中,所述目标性状预测模型是在除目标性状以外的多个其他性状的训练数据集上训练得到多个预训练模型后,融合至少两个所述预训练模型,然后在所述目标性状的训练数据集上对融合后的模型进行训练得到的。
25、在一些实施例中,所述目标性状预测模型的训练过程包括:
26、获取样本生物材料的基因型数据和表型数据;所述表型数据包括所述目标性状的数据和所述多个其他性状的数据;
27、对所述样本生物材料的基因型数据以及所述样本生物材料的表型数据进行数据预处理;
28、基于数据预处理后每个所述其他性状的训练数据集分别训练一个深度学习网络模型,训练完成后得到多个预训练模型;
29、所述多个预训练模型中任意k个作为一组,针对每一组预训练模型,都通过部分参数冻结和模型融合处理,得到一个融合模型;其中,所述融合模型包括k个并行的分支结构,每个所述分支结构均为一个预训练模型冻结了参数的结构部分;所述k为大于或等于2的整数;
30、基于数据预处理后所述目标性状的训练数据集训练每个所述融合模型,得到所述目标性状的候选预测模型;
31、选择预测准确率最高的候选预测模型作为所述目标性状预测模型。
32、在一些实施例中,所述对所述样本生物材料的基因型数据以及所述样本生物材料的表型数据进行数据预处理,包括:
33、对所述样本生物材料的基因型数据进行异常值、缺失值的处理,以及基因型数据的数值化处理;
34、对所述样本生物材料的表型数据进行异常值、缺失值的处理,以及表型数据的标准化处理。
35、在一些实施例中,所述多个生物材料与所述样本生物材料属于同一物种。
36、在一些实施例中,所述基因型数据为分子标记的数据。
37、在一些实施例中,所述深度学习网络模型为卷积神经网络或者多层感知机。
38、第三方面,本专利技术还提供一种电子设备,包括存储器、处理器及存储在存储器上并在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上所述第一方面所述的利用融合模型实施基因组选择的方法。
39、第四方面,本专利技术还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上所述第一方面所述的利用融合模型实施基因组选择的方法。
40、第五方面,本专利技术还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上所述第一方面所述的利用融合模型实施基因组选择的方法。
41、本专利技术提供的利用融合模型实施基因组选择的方法、装置、设备及介质,通过在其他性状上训练预训练模型后进行模型融合,再在目标性状上对融合后的模型进行训练,得到最终的目标性状预测模型,利用该目标性状预测模型进行目标性状育种值的预测,大大提高了预测准确率,从而可实现智能化育种,提高了育种效率。
本文档来自技高网...【技术保护点】
1.一种利用融合模型实施基因组选择的方法,其特征在于,包括:
2.根据权利要求1所述的利用融合模型实施基因组选择的方法,其特征在于,所述目标性状预测模型的训练过程包括:
3.根据权利要求2所述的利用融合模型实施基因组选择的方法,其特征在于,所述对所述样本生物材料的基因型数据以及所述样本生物材料的表型数据进行数据预处理,包括:
4.根据权利要求2或3所述的利用融合模型实施基因组选择的方法,其特征在于,所述多个生物材料与所述样本生物材料属于同一物种。
5.根据权利要求1至3任一项所述的利用融合模型实施基因组选择的方法,其特征在于,所述基因型数据为分子标记的数据。
6.根据权利要求2所述的利用融合模型实施基因组选择的方法,其特征在于,所述深度学习网络模型为卷积神经网络或者多层感知机。
7.一种利用融合模型实施基因组选择的装置,其特征在于,包括:
8.根据权利要求7所述的利用融合模型实施基因组选择的装置,其特征在于,所述目标性状预测模型的训练过程包括:
9.一种电子设备,包括存储器、处理器及存
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述利用融合模型实施基因组选择的方法。
...【技术特征摘要】
1.一种利用融合模型实施基因组选择的方法,其特征在于,包括:
2.根据权利要求1所述的利用融合模型实施基因组选择的方法,其特征在于,所述目标性状预测模型的训练过程包括:
3.根据权利要求2所述的利用融合模型实施基因组选择的方法,其特征在于,所述对所述样本生物材料的基因型数据以及所述样本生物材料的表型数据进行数据预处理,包括:
4.根据权利要求2或3所述的利用融合模型实施基因组选择的方法,其特征在于,所述多个生物材料与所述样本生物材料属于同一物种。
5.根据权利要求1至3任一项所述的利用融合模型实施基因组选择的方法,其特征在于,所述基因型数据为分子标记的数据。
6.根据权利要求2所述的利用融合模...
【专利技术属性】
技术研发人员:李金龙,王开义,张东峰,杨锋,张秋思,刘忠强,
申请(专利权)人:北京市农林科学院信息技术研究中心,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。