【技术实现步骤摘要】
【国外来华专利技术】用于估算或预测基因型和表型的方法和组成
[0001]相关申请的交叉引用本申请要求于2020年1月13日提交的美国临时申请号62/960363、于2019年4月12日提交的美国临时申请号62/833497和于2019年3月11日提交的美国临时申请号62/816719的权益和优先权,这些中的每一个通过引用以其全文并入本文。
[0002]本公开总体上涉及估算(imputation)和预测领域。
技术介绍
[0003]在过去的60到70年里,植物育种对农业生产力的贡献是惊人的(Smith (1998) 53rd Annual corn and sorghum research conference [第53届玉米和高粱年度研究会议], American Seed Trade Association [美国种子贸易协会], Washington, D.C. [华盛顿特区]; Duvick (1992) Maydica [Maydica期刊] 37: 69)。这种情况的发生在很大程度上是因为植物育种家善于吸收和整合来自对源自多个优良自交系杂交的分离子代的广泛评估的信息。进行这样的育种计划需要大量的资源。例如,一名商业玉蜀黍育种家可以在跨广阔的地理区域的重复田间试验中对源自100至200个杂交的1,000至10,000个F3顶交子代进行评估。
技术实现思路
[0004]在一个实施例中,本文提供了一种将来自获得自群体或样品集的训练数据集的基因型或表型关联数据进行参数化表示以在获得自测试群体或测试样品数据的测试 ...
【技术保护点】
【技术特征摘要】
【国外来华专利技术】1.一种将来自获得自群体或样品集的训练数据集的基因型或表型关联数据进行参数化表示以在获得自测试群体或测试样品数据的测试数据中估算或预测基因型和/或表型的通用方法,所述通用方法包括:通过借助基于机器学习的全局变分自编码器框架将源自全基因组基因型或全表型组表型关联训练数据的离散或连续变量编码成潜在向量来生成通用的连续全局潜在空间表示,其中所述全局潜在空间独立于基础的基因型或表型关联;通过借助基于机器学习的局部变分自编码器框架将源自基因型或表型关联训练数据集的离散或连续变量子集编码成潜在向量来生成局部潜在表示,其中所述局部潜在空间用来自所述局部变分自编码器和所述全局变分自编码器的输入生成;并且通过局部解码器对所述全局潜在表示和所述局部潜在表示进行解码,从而通过所解码的全局潜在表示和所述局部潜在表示的组合对所述测试数据的所述基因型或表型进行估算或预测。2.如权利要求1所述的方法,其中所述基因型关联数据包括来自多个基因上趋异的群体的基因型标记或单核苷酸多态性(SNP)的集合。3.如权利要求1所述的方法,其中所述离散变量的子集是定位于染色体区段的多个单核苷酸多态性(SNP)。4.如权利要求1所述的方法,其中所述变分自编码器基于神经网络算法。5.如权利要求1所述的方法,其中所估算的或预测的表型是增产量、根倒伏、茎倒伏、脆断、穗高、籽粒水分、株高、抗病性和/或耐旱性。6.如权利要求1所述的方法,其中所估算的或预测的基因型是多个单倍型。7.如权利要求1所述的方法,其中所述基因型关联数据获得自源自两个或更多个育种计划的植物群体,其中所述育种计划不包括与所述基因型关联数据对应的标记或单核苷酸多态性(SNP)的相同集。8.如权利要求1所述的方法,所述方法包括:(a) 通过所述局部解码器对局部高密度(HD)SNP进行估算或预测;(b) 基于对一个群体的基因型关联数据的解码,通过所述局部解码器对另一个群体的局部高密度(HD)SNP或单倍型进行估算或预测;(c) 通过所述局部解码器对选自以下的分子表型进行估算或预测:基因表达、染色质可及性、DNA甲基化、组蛋白修饰、重组热点、转基因的基因组着落位置、转录因子结合状态、或其组合;或(d) 通过所述局部解码器对所述测试群体中的一个或多个的群体共祖率进行估算或预测。9.一种计算装置,所述计算装置包含处理器,所述处理器被配置成用于执行如权利要求1
‑
8所述的方法的步骤。10.一种计算机可读介质,所述计算机可读介质包含指令,所述指令当由计算装置执行时会使所述计算装置执行如权利要求1
‑
8所述的方法的步骤。11.一种将来自获得自群体或样品集的训练数据集的基因型或表型关联数据进行参数化表示以在获得自测试群体或测试样品数据的测试数据中推断期望特性的通用方法,所述通用方法包括:
通过借助基于机器学习的全局变分自编码器框架将源自全基因组基因型或全表型组表型关联训练数据的离散或连续变量编码成潜在向量来生成通用的连续全局潜在空间表示,其中所述全局潜在空间独立于基础的基因型或表型关联;并且通过局部解码器对所述全局潜在表示进行解码,从而通过所解码的全局潜在表示推断所述测试数据的所述期望特性。12.如权利要求11所述的方法,其中所述期望特性是确定两个或更多个植物群体的共祖率。13.如权利要求11所述的方法,其中所述期望特性是预测增产量或目的农艺表型。14.如权利要求11所述的方法,其中所述变分自编码器基于神经网络算法。15.一种计算装置,所述计算装置包含处理器,所述处理器被配置成用于执行如权利要求11
‑
14所述的方法的步骤。16.一种计算机可读介质,所述计算机可读介质包含指令,所述指令当由计算装置执行时会使所述计算装置执行如权利要求11
‑
14所述的方法的步骤。17.一种开发基因型或表型数据的通用表示的方法,所述方法包括:由第一神经网络接收一个或多个基因型或表型训练数据,其中所述第一神经网络包含全局变分自编码器;由全局编码器通过基于机器学习的神经网络训练框架将来自一个或多个基因型或表型训练数据的信息编码成潜在向量;将所编码的潜在向量(由其他基因型或表型数据生成)提供给第二基于机器学习的神经网络,其中所述第二神经网络包含解码器;训练所述解码器以基于所编码的潜在向量的目标函数学习目的表型或基因型的预测或估算;由所述解码器针对所述目标函数解码所编码的潜在向量;并且提供所解码的潜在向量的对于所述目标函数而言的输出。18.一种计算装置,所述计算装置包含处理器,所述处理器被配置成用于执行如权利要求17所述的方法的步骤。19.一种计算机可读介质,所述计算机可读介质包含指令,所述指令当由计算装置执行时会使所述计算装置执行如权利要求17所述的方法的步骤。20.一种基于基因型或表型数据选择目的属性的方法,所述方法包括:由第一神经网络接收一个或多个全局基因型或表型训练数据,其中所述第一神经网络包含全局变分自编码器;由所述全局变分自编码器将来自一个或多个基因型或表型训练数据的基因型信息编码成潜在向量;使用所述潜在向量对所述全局变分自编码器进行训练以学习基础的基因型相关性和/或关联性;由第二神经网络接收一个或多个局部基因型或表型训练数据,其中所述局部基因型或表型数据指向全局基因型或表型数据的子集,所述子集对应于某个目的属性,其中所述第二神经网络包含局部变分自编码器;由所述局部变分自编码器将来自所述一个或多个局部基因型或表型训练数据的所述
基因型信息编码成潜在向量;使用所述潜在向量对所述局部变分自编码器进行训练以学习所述目的属性的基础的基因型相关性和/或关联性;将来自所述全局变分自编码器和/局部编码器的所编码的潜在向量提供给第三神经网络,其中所述第三神经网络包含解码器;训练所述解码器以预测对于来自所述全局变分自编码器和/或所述局部变分自编码器的所编码的潜在向量而言的所述目的属性;由所述解码器针对目标函数解码所编码的潜在向量;并且提供所解码的潜在向量的对于所述目标函数而言的输出。21.如权利要求20所述的方法,其中所述解码器包括一个或多个解码器。22.如权利要求20所述的方法,其中所述解码器是局部解码器。23.如权利要求20所述的方法,其中所述解码器是全局解码器并解码来自所述全局编码器的所编码的潜在向量。24.如权利要求20所述的方法,其中所述全局基因型训练数据包括整个基因组的标记。25.如权利要求20所述的方法,其中所述局部基因型数据来自特定的目的染色体基因组区域或等位基因。26.如权利要求20所述的方法,所述方法进一步包括同时训练所述全局编码器和解码器。27.如权利要求20所述的方法,其中所述局部属性选自由以下组成的组:SNP、等位基因、标记、QTL、基因表达、表型变异和代谢物水平。28.如权利要求20所述的方法,其中所述基因型训练数据包含单核苷酸多态性(SNP)或插入/缺失(indel)序列信息。29.如权利要求20所述的方法,其中所述基因型训练数据包含来自计算机模拟杂交的序列信息。30.如权利要求20所述的方法,其中用现有的基因型或表型数据训练所述解码器。31.一种计算装置,所述计算装置包含处理器,所述处理器被配置成用于执行如权利要求20
‑
30所述的方法的步骤。32.一种计算机可读介质,所述计算机可读介质包含指令,所述指令当由计算装置执行时会使所述计算装置执行如权利要求20
‑
30所述的方法的步骤。33.一种用于生成基因型或表型数据确定的计算机系统,所述系统包含:第一神经网络,所述第一神经网络包含变分自编码器,所述变分自编码器被配置成将来自一个或多个基因型或表型训练数据的基因型或表型信息编码成通用潜在变量,其中所述编码器已经过训练以通过基于机器学习的神经网络框架对基因型或表型关联进行表示;以及第二神经网络,所述第二神经网络包含解码器,所述解码器被配置成解码所编码的潜在向量并生成对于目标函数而言的输出。34.一种对获得自群体或样品集的基因型或表型数据进行参数化表示以估算或预测期望基因型和/或表型的通用方法,所述通用方法包括:通过借助基于机器学习的编码器框架将源自基因型或表型数据的离散或连续变量编
码成潜在向量来生成通用的潜在空间表示,其中所述潜在空间独立于基础的基因型或表型数据;并且由解码器将所述潜在表示解码,从而通过所解码的潜在表示估算或预测所述期望基因型或表型。35.如权利要求34所述的方法,其中所述基因型数据包括来自多个基因上趋异的群体的基因型标记或单核苷酸多态性(SNP)的集合。36.如权利要求34所述的方法,其中所述离散变量的子集是定位于染色体区段的多个单核苷酸多态性(SNP)。37.如权利要求34所述的方法,其中所述编码器基于神经网络算法。38.如权利要求34所述的方法,其中所估算或预测的表型是增产量、根倒伏、茎倒伏、脆断、穗高、籽粒水分、株高、抗病性、耐旱性、或其组合。39.如权利要求34所述的方法,其中所估算的或预测的基因型是多个单倍型。40.如权利要求34所述的方法,所述方法包括:(a) 通过所述解码器对局部高密度(HD)SNP进行估算或预测;(b) 基于对一个群体的基因型关联数据的解码,通过所述解码器对另一个群体的局部高密度(HD)SNP或单倍型进行估算或预测;(c) 通过所述解码器对选自以下的分子表型进行估算或预测:基因表达、染色质可及性、DNA甲基化、组蛋白修饰、重组热点、转基因的基因组着落位置、转录因子结合状态、或其组合;或(d) 通过所述解码器对所述测试群体中的一个或多个的群体共祖率进行估算或预测。41.如权利要求34所述的方法,其中所述基因型数据获得自源自两个或更多个育种计划的植物群体,其中所述育种计划不包括与所述基因型数...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。