用于估算或预测基因型和表型的方法和组成技术

技术编号:30404671 阅读:23 留言:0更新日期:2021-10-20 11:04
提供了用于估算或预测基因型、单倍型、分子表型、农艺表型和/或共祖率的方法和组成。所提供的方法和组成包括使用潜在空间来生成独立于基础的基因型或表型数据的潜在空间表示或潜在向量。所述方法可以包括通过借助基于机器学习的编码器框架将源自基因型或表型数据的离散或连续变量编码成潜在向量来生成通用的潜在空间表示。本文提供了将获得自一个或多个群体或样品集的基因型或表型数据进行参数化表示以估算或预测目的基因型或表型的通用方法。方法。方法。

【技术实现步骤摘要】
【国外来华专利技术】用于估算或预测基因型和表型的方法和组成
[0001]相关申请的交叉引用本申请要求于2020年1月13日提交的美国临时申请号62/960363、于2019年4月12日提交的美国临时申请号62/833497和于2019年3月11日提交的美国临时申请号62/816719的权益和优先权,这些中的每一个通过引用以其全文并入本文。


[0002]本公开总体上涉及估算(imputation)和预测领域。

技术介绍

[0003]在过去的60到70年里,植物育种对农业生产力的贡献是惊人的(Smith (1998) 53rd Annual corn and sorghum research conference [第53届玉米和高粱年度研究会议], American Seed Trade Association [美国种子贸易协会], Washington, D.C. [华盛顿特区]; Duvick (1992) Maydica [Maydica期刊] 37: 69)。这种情况的发生在很大程度上是因为植物育种家善于吸收和整合来自对源自多个优良自交系杂交的分离子代的广泛评估的信息。进行这样的育种计划需要大量的资源。例如,一名商业玉蜀黍育种家可以在跨广阔的地理区域的重复田间试验中对源自100至200个杂交的1,000至10,000个F3顶交子代进行评估。

技术实现思路

[0004]在一个实施例中,本文提供了一种将来自获得自群体或样品集的训练数据集的基因型或表型关联数据进行参数化表示以在获得自测试群体或测试样品数据的测试数据中估算或预测基因型和/或表型的通用方法。在一些方面,所述方法包括通过借助基于机器学习的全局编码器框架将源自全基因组基因型或全表型组表型关联训练数据的离散或连续变量编码成潜在向量来生成通用的连续全局潜在空间表示。在一些实例中,所述编码器是自编码器。在一些实例中,所述自编码器是变分自编码器。在一些方面,所述基于机器学习的编码器框架是生成式对抗网络(GAN)。在一些方面,所述基于机器学习的编码器框架是神经网络。
[0005]在一些方面,全局潜在空间或全局潜在空间表示独立于用于表示基因或表型信息的基础的基因型或表型关联。例如,所生成的潜在表示对特定基因型或表型关联特征的选择是不变的。在一些方面,所述方法包括通过借助基于机器学习的局部编码器框架将源自基因型或表型关联训练数据集的离散或连续变量子集编码成潜在向量来生成局部潜在表示,其中所述局部潜在空间或局部潜在空间表示用来自所述局部编码器和所述全局编码器的输入生成。在一些实例中,所述局部编码器是自编码器。在一些实例中,所述自编码器是变分自编码器。在一些方面,所述基于机器学习的编码器框架是生成式对抗网络(GAN)。在一些方面,所述基于机器学习的编码器框架是神经网络。
[0006]在一些方面,所述方法包括通过局部解码器对所述全局潜在表示和所述局部潜在
表示进行解码,从而通过所解码的全局潜在表示和所述局部潜在表示的组合对所述测试数据的所述基因型或表型进行估算或预测。
[0007]在一些方面,所述基因型关联数据包括来自多个基因上趋异的群体的基因型标记或单核苷酸多态性(SNP)的集合。所述离散变量的子集可以是定位于染色体区段的多个SNP。在一些方面,所述编码器基于神经网络算法。在一些方面,所估算或预测的表型是预测的增产量。在一些方面,所估算或预测的表型是根倒伏、茎倒伏、脆断、穗高、籽粒水分、株高、抗病性、耐旱性、或其组合。在一些方面,所估算或预测的基因型是多个单倍型。在一些方面,所述局部解码器估算或预测局部高密度(HD)SNP。
[0008]在一些方面,所述基因型关联数据获得自源自两个或更多个育种计划的植物群体,其中所述育种计划不包括与所述基因型关联数据对应的标记或SNP的相同集。在一些方面,所述局部解码器基于对一个群体的基因型关联数据的解码,对另一个群体的局部HD SNP进行估算。在一些方面,所述局部解码器基于对一个群体的基因型关联数据的解码,对另一个群体的单倍型进行估算。在一些方面,所述局部解码器估算或预测的分子表型包括但不限于:基因表达、染色质可及性、DNA甲基化、组蛋白修饰、重组热点、转基因的基因组着落位置、转录因子结合状态、或其组合。在一些方面,所述局部解码器估算或预测测试群体中的一个或多个的群体共祖率。
[0009]在一个实施例中本文还提供了一种将来自获得自群体或样品集的训练数据集的基因型或表型关联数据进行参数化表示以在获得自测试群体或测试样品数据的测试数据中推断目的特性(例如期望特性)的通用方法。在一些方面,所述方法包括通过借助基于机器学习的全局编码器框架将源自全基因组基因型或全表型组表型关联训练数据的离散或连续变量编码成潜在向量来生成通用的连续全局潜在空间表示,其中所述全局潜在空间或全局潜在空间表示独立于基础的基因型或表型关联。在一些实例中,所述全局编码器是自编码器。在一些实例中,所述自编码器是变分自编码器。在一些方面,所述基于机器学习的编码器框架是生成式对抗网络(GAN)。在一些方面,所述基于机器学习的编码器框架是神经网络。在一些方面,所述方法包括通过局部解码器对所述全局潜在表示进行解码,从而通过所解码的全局潜在表示推断所述测试数据的期望特性。
[0010]在一些方面,所述目的特性(例如期望特性)不限于确定两个或更多个植物群体的共祖率或预测增产量或目的农艺表型。在一些方面,所述编码器基于神经网络算法。
[0011]本文还提供了一种开发基因型或表型数据的通用表示的通用方法,所述方法包括由第一神经网络接收一个或多个基因型或表型训练数据,其中所述第一神经网络包括全局编码器。在一些方面,所述方法包括由全局编码器通过基于机器学习的神经网络训练框架将来自一个或多个基因型或表型训练数据的信息编码成潜在向量。在一些方面,所述方法包括将所编码的潜在向量(由其他基因型或表型数据生成)提供给第二基于机器学习的神经网络,其中所述第二神经网络包括解码器。在一些方面,所述方法包括训练所述解码器以基于预先指定的或学习的目标函数针对所编码的潜在向量预测目的基因型或表型。在一些方面,所述方法包括由所述解码器针对所述目标函数解码所编码的潜在向量。在一些方面,所述方法包括提供所解码的潜在向量的对于所述目标函数而言的输出。
[0012]本文还提供了一种基于基因型或表型数据选择目的属性的方法。在一些方面,所述方法包括由第一神经网络接收一个或多个全局基因型或表型训练数据,其中所述第一神
经网络包括全局编码器。在一些实例中,所述全局编码器是自编码器。在一些实例中,所述自编码器是变分自编码器。在一些方面,所述基于机器学习的神经网络是生成式对抗网络(GAN)。
[0013]在一些方面,所述方法包括由所述全局编码器将来自一个或多个基因型或表型训练数据的基因型或表型信息编码成潜在向量。在一些方面,所述方法包括使用所述潜在向量对所述全局编码器进行训练以学习基础的基因型或表型相关性和/或关联性。在一些方面,所述方法包括由第二神经网络接收一个或多个局部基因型或本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种将来自获得自群体或样品集的训练数据集的基因型或表型关联数据进行参数化表示以在获得自测试群体或测试样品数据的测试数据中估算或预测基因型和/或表型的通用方法,所述通用方法包括:通过借助基于机器学习的全局变分自编码器框架将源自全基因组基因型或全表型组表型关联训练数据的离散或连续变量编码成潜在向量来生成通用的连续全局潜在空间表示,其中所述全局潜在空间独立于基础的基因型或表型关联;通过借助基于机器学习的局部变分自编码器框架将源自基因型或表型关联训练数据集的离散或连续变量子集编码成潜在向量来生成局部潜在表示,其中所述局部潜在空间用来自所述局部变分自编码器和所述全局变分自编码器的输入生成;并且通过局部解码器对所述全局潜在表示和所述局部潜在表示进行解码,从而通过所解码的全局潜在表示和所述局部潜在表示的组合对所述测试数据的所述基因型或表型进行估算或预测。2.如权利要求1所述的方法,其中所述基因型关联数据包括来自多个基因上趋异的群体的基因型标记或单核苷酸多态性(SNP)的集合。3.如权利要求1所述的方法,其中所述离散变量的子集是定位于染色体区段的多个单核苷酸多态性(SNP)。4.如权利要求1所述的方法,其中所述变分自编码器基于神经网络算法。5.如权利要求1所述的方法,其中所估算的或预测的表型是增产量、根倒伏、茎倒伏、脆断、穗高、籽粒水分、株高、抗病性和/或耐旱性。6.如权利要求1所述的方法,其中所估算的或预测的基因型是多个单倍型。7.如权利要求1所述的方法,其中所述基因型关联数据获得自源自两个或更多个育种计划的植物群体,其中所述育种计划不包括与所述基因型关联数据对应的标记或单核苷酸多态性(SNP)的相同集。8.如权利要求1所述的方法,所述方法包括:(a) 通过所述局部解码器对局部高密度(HD)SNP进行估算或预测;(b) 基于对一个群体的基因型关联数据的解码,通过所述局部解码器对另一个群体的局部高密度(HD)SNP或单倍型进行估算或预测;(c) 通过所述局部解码器对选自以下的分子表型进行估算或预测:基因表达、染色质可及性、DNA甲基化、组蛋白修饰、重组热点、转基因的基因组着落位置、转录因子结合状态、或其组合;或(d) 通过所述局部解码器对所述测试群体中的一个或多个的群体共祖率进行估算或预测。9.一种计算装置,所述计算装置包含处理器,所述处理器被配置成用于执行如权利要求1

8所述的方法的步骤。10.一种计算机可读介质,所述计算机可读介质包含指令,所述指令当由计算装置执行时会使所述计算装置执行如权利要求1

8所述的方法的步骤。11.一种将来自获得自群体或样品集的训练数据集的基因型或表型关联数据进行参数化表示以在获得自测试群体或测试样品数据的测试数据中推断期望特性的通用方法,所述通用方法包括:
通过借助基于机器学习的全局变分自编码器框架将源自全基因组基因型或全表型组表型关联训练数据的离散或连续变量编码成潜在向量来生成通用的连续全局潜在空间表示,其中所述全局潜在空间独立于基础的基因型或表型关联;并且通过局部解码器对所述全局潜在表示进行解码,从而通过所解码的全局潜在表示推断所述测试数据的所述期望特性。12.如权利要求11所述的方法,其中所述期望特性是确定两个或更多个植物群体的共祖率。13.如权利要求11所述的方法,其中所述期望特性是预测增产量或目的农艺表型。14.如权利要求11所述的方法,其中所述变分自编码器基于神经网络算法。15.一种计算装置,所述计算装置包含处理器,所述处理器被配置成用于执行如权利要求11

14所述的方法的步骤。16.一种计算机可读介质,所述计算机可读介质包含指令,所述指令当由计算装置执行时会使所述计算装置执行如权利要求11

14所述的方法的步骤。17.一种开发基因型或表型数据的通用表示的方法,所述方法包括:由第一神经网络接收一个或多个基因型或表型训练数据,其中所述第一神经网络包含全局变分自编码器;由全局编码器通过基于机器学习的神经网络训练框架将来自一个或多个基因型或表型训练数据的信息编码成潜在向量;将所编码的潜在向量(由其他基因型或表型数据生成)提供给第二基于机器学习的神经网络,其中所述第二神经网络包含解码器;训练所述解码器以基于所编码的潜在向量的目标函数学习目的表型或基因型的预测或估算;由所述解码器针对所述目标函数解码所编码的潜在向量;并且提供所解码的潜在向量的对于所述目标函数而言的输出。18.一种计算装置,所述计算装置包含处理器,所述处理器被配置成用于执行如权利要求17所述的方法的步骤。19.一种计算机可读介质,所述计算机可读介质包含指令,所述指令当由计算装置执行时会使所述计算装置执行如权利要求17所述的方法的步骤。20.一种基于基因型或表型数据选择目的属性的方法,所述方法包括:由第一神经网络接收一个或多个全局基因型或表型训练数据,其中所述第一神经网络包含全局变分自编码器;由所述全局变分自编码器将来自一个或多个基因型或表型训练数据的基因型信息编码成潜在向量;使用所述潜在向量对所述全局变分自编码器进行训练以学习基础的基因型相关性和/或关联性;由第二神经网络接收一个或多个局部基因型或表型训练数据,其中所述局部基因型或表型数据指向全局基因型或表型数据的子集,所述子集对应于某个目的属性,其中所述第二神经网络包含局部变分自编码器;由所述局部变分自编码器将来自所述一个或多个局部基因型或表型训练数据的所述
基因型信息编码成潜在向量;使用所述潜在向量对所述局部变分自编码器进行训练以学习所述目的属性的基础的基因型相关性和/或关联性;将来自所述全局变分自编码器和/局部编码器的所编码的潜在向量提供给第三神经网络,其中所述第三神经网络包含解码器;训练所述解码器以预测对于来自所述全局变分自编码器和/或所述局部变分自编码器的所编码的潜在向量而言的所述目的属性;由所述解码器针对目标函数解码所编码的潜在向量;并且提供所解码的潜在向量的对于所述目标函数而言的输出。21.如权利要求20所述的方法,其中所述解码器包括一个或多个解码器。22.如权利要求20所述的方法,其中所述解码器是局部解码器。23.如权利要求20所述的方法,其中所述解码器是全局解码器并解码来自所述全局编码器的所编码的潜在向量。24.如权利要求20所述的方法,其中所述全局基因型训练数据包括整个基因组的标记。25.如权利要求20所述的方法,其中所述局部基因型数据来自特定的目的染色体基因组区域或等位基因。26.如权利要求20所述的方法,所述方法进一步包括同时训练所述全局编码器和解码器。27.如权利要求20所述的方法,其中所述局部属性选自由以下组成的组:SNP、等位基因、标记、QTL、基因表达、表型变异和代谢物水平。28.如权利要求20所述的方法,其中所述基因型训练数据包含单核苷酸多态性(SNP)或插入/缺失(indel)序列信息。29.如权利要求20所述的方法,其中所述基因型训练数据包含来自计算机模拟杂交的序列信息。30.如权利要求20所述的方法,其中用现有的基因型或表型数据训练所述解码器。31.一种计算装置,所述计算装置包含处理器,所述处理器被配置成用于执行如权利要求20

30所述的方法的步骤。32.一种计算机可读介质,所述计算机可读介质包含指令,所述指令当由计算装置执行时会使所述计算装置执行如权利要求20

30所述的方法的步骤。33.一种用于生成基因型或表型数据确定的计算机系统,所述系统包含:第一神经网络,所述第一神经网络包含变分自编码器,所述变分自编码器被配置成将来自一个或多个基因型或表型训练数据的基因型或表型信息编码成通用潜在变量,其中所述编码器已经过训练以通过基于机器学习的神经网络框架对基因型或表型关联进行表示;以及第二神经网络,所述第二神经网络包含解码器,所述解码器被配置成解码所编码的潜在向量并生成对于目标函数而言的输出。34.一种对获得自群体或样品集的基因型或表型数据进行参数化表示以估算或预测期望基因型和/或表型的通用方法,所述通用方法包括:通过借助基于机器学习的编码器框架将源自基因型或表型数据的离散或连续变量编
码成潜在向量来生成通用的潜在空间表示,其中所述潜在空间独立于基础的基因型或表型数据;并且由解码器将所述潜在表示解码,从而通过所解码的潜在表示估算或预测所述期望基因型或表型。35.如权利要求34所述的方法,其中所述基因型数据包括来自多个基因上趋异的群体的基因型标记或单核苷酸多态性(SNP)的集合。36.如权利要求34所述的方法,其中所述离散变量的子集是定位于染色体区段的多个单核苷酸多态性(SNP)。37.如权利要求34所述的方法,其中所述编码器基于神经网络算法。38.如权利要求34所述的方法,其中所估算或预测的表型是增产量、根倒伏、茎倒伏、脆断、穗高、籽粒水分、株高、抗病性、耐旱性、或其组合。39.如权利要求34所述的方法,其中所估算的或预测的基因型是多个单倍型。40.如权利要求34所述的方法,所述方法包括:(a) 通过所述解码器对局部高密度(HD)SNP进行估算或预测;(b) 基于对一个群体的基因型关联数据的解码,通过所述解码器对另一个群体的局部高密度(HD)SNP或单倍型进行估算或预测;(c) 通过所述解码器对选自以下的分子表型进行估算或预测:基因表达、染色质可及性、DNA甲基化、组蛋白修饰、重组热点、转基因的基因组着落位置、转录因子结合状态、或其组合;或(d) 通过所述解码器对所述测试群体中的一个或多个的群体共祖率进行估算或预测。41.如权利要求34所述的方法,其中所述基因型数据获得自源自两个或更多个育种计划的植物群体,其中所述育种计划不包括与所述基因型数...

【专利技术属性】
技术研发人员:A
申请(专利权)人:先锋国际良种公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1