机器学习驱动的植物基因发现和基因编辑制造技术

技术编号:39274673 阅读:11 留言:0更新日期:2023-11-07 10:52
本公开涉及利用可解释的机器学习方法和特征重要性机制作为基因发现的机制,并且还利用基因发现的输出来推荐理想基因表达谱和有助于所需表型的必要基因组编辑。特别地,本公开的方面涉及获得在植物的组织样本中测量的基因集合的基因表达谱,将基因表达谱输入到为预测表型的任务而构建的预测模型中作为输出数据,使用预测模型生成植物表型的预测,通过可解释的人工智能系统分析由预测模型做出的决策以预测表型,并且基于分析将表型的候选基因靶标集合识别为对预测具有最大贡献或影响。因靶标集合识别为对预测具有最大贡献或影响。因靶标集合识别为对预测具有最大贡献或影响。

【技术实现步骤摘要】
【国外来华专利技术】机器学习驱动的植物基因发现和基因编辑
[0001]相关申请的交叉引用
[0002]本申请要求于2021年3月19日提交的美国申请号17/207,169的权益和优先权,其全部内容通过引用并入本文用于所有目的。


[0003]本公开涉及植物基因组编辑,并且具体地涉及利用可解释的机器学习方法和特征重要性机制(在神经网络和其他非线性模型两者上)作为基因发现的机制,并且还利用这些基因发现模型的输出来推荐理想基因表达谱,包括有助于所需表型的必要基因组编辑。

技术介绍

[0004]遗传多样性主要是有性重组和诱变的功能,并且是植物性状改良的重要手段。例如,植物遗传资源中的遗传多样性为植物育种者提供了开发具有所需特征的新的和改良的栽培种的机会,这些特征包括农民偏好的性状(例如,高产潜力、果粒大等)和育种者偏好的性状(例如,害虫和疾病抗性和光敏性等)。数千年来,植物驯化依赖于经由进化力量(例如,选择、突变、迁移、遗传漂变(genetic drift)等)的天然遗传变异性来选择有利的遗传改变。植物驯化或人工选择有利于一些等位基因,而以其他等位基因为代价,导致所选择的等位基因的频率增加。因此,与野生的多样性相比,植物驯化减少了遗传多样性。此外,经由进化力量生成遗传变体是完全不受控制的,并且在很大程度上依赖于植物栽培的环境。
[0005]为了获得对遗传多样性的一些控制并且创造新品种,育种者已经使用不同的技术来分析植物的遗传多样性并且使用该分析将可遗传的突变引入植物基因组中。例如,结合各种统计工具(例如,多元统计)的形态学、细胞学、生物化学和分子标志物表征与组合可以用于评估物种的不同品系、品种或条目之间的遗传多样性。这些技术已经被用于评估遗传趋异,将种质分类为不同的组,以及选择不同的亲本以开发杂交表型,诸如超亲分离体。然而,从多样性分析获得的关于产量和质量的潜在基因组因素的知识越多,传统育种方法的局限性就越明显。由于重组和非定向诱变的随机性质,所选择的种质的进一步改良是一个冗长且乏味的过程,其常常受到连锁阻力(与所需性状遗传连锁的有害遗传物质的转移)的损害。因此,对天然或随机诱导的多样性的依赖是减慢常规育种过程并导致不可预测的育种结果的限制因素。
[0006]在过去的一个世纪中,各种诱变剂(例如,化学化合物和辐射)的使用促进了大量遗传变异的快速生成,然后可以将其用于加速育种过程。然而,这些方法具有几个缺点,包括生成的突变的非特异性性质,大量核苷酸同时突变,以及有时大基因组片段的缺失、复制或重排。因此,经由随机诱变识别感兴趣的突变是一个漫长且劳动密集型的过程。序列特异性工程化核酸内切酶、大范围核酸酶、锌指核酸酶(ZFN)、转录激活因子样效应物核酸酶(TALEN)和II型聚集规律间隔短回文重复序列(CRISPR)/CRISPR相关蛋白9(Cas9)的开发为植物基因组中的靶向基因编辑(靶向诱变)提供了工具。这些可编程核酸酶能够以位点特异性方式生成单链或双链DNA断裂(DSB)。在真核细胞中,诱导的DSB可以经由易错末端连接途
径或经由无错同源定向修复(HdR)途径修复。这两种途径都被用来在目标基因座处引入基因修改(modification)。尽管如此,传统遗传多样性分析仍然限制了基因发现和有助于所需表型的基因修改的识别。因此,尽管CRISPR和其他基因编辑工具具有巨大潜力,但如果要完全实现这种潜力,则仍然存在重大挑战。

技术实现思路

[0007]在各种实施例中,提供了一种方法,包括:获得在植物的组织样本中测量的基因集合的基因表达谱集合;通过非线性算法学习基因表达谱的特征与表型之间的关系或相关性,将该基因表达谱集合输入到为预测表型的任务而构建的预测模型中作为输出数据;使用预测模型,基于该基因表达谱集合的特征与表型之间的关系或相关性生成植物表型的预测;通过可解释的人工智能系统分析由预测模型做出的决策以预测表型,其中,该分析包括:(i)为表型预测中使用的特征生成特征重要性分数集合,以及(ii)基于与每个特征相关联的特征重要性分数对特征进行排名或以其他方式排序;基于排名或以其他方式排序的特征,将表型的候选基因靶标集合识别为对预测具有最大贡献或影响;以及基于所识别的候选基因靶标集合来识别基因组区域集合,该基因组区域集合在被编辑时提供基因表达谱中的必要改变以实现预期的表型改变。
[0008]在一些实施例中,可解释的人工智能系统使用SHapley加法解释、深度提升、集成梯度、局部可解释模型不可知解释(LIME)、基于注意力的神经网络模型或逐层相关传播来分析预测模型做出的决策。
[0009]在一些实施例中,该方法还包括:识别该基因组区域集合包括将该候选基因靶标集合输入到为对该候选基因靶标集合的基因编辑建模的任务而构建的基因编辑模型中,并且基于建模的基因编辑,识别用于对该候选基因靶标集合内的一个或多个基因进行基因组编辑的最佳遗传靶标集合,从而最大化、最小化或以其他方式调节表型;以及使用基因编辑模型,基于用于候选基因靶标集合内的一个或多个基因的基因组编辑的最佳遗传靶标,生成表型的理想基因表达谱。
[0010]在一些实施例中,可解释的人工智能系统使用SHapley加法解释,其生成SHapley值集合作为表型预测中使用的特征的特征重要性分数;Shapley值表示每个特征重要性以及方向的估计;并且基因编辑模型通过直接从Shapley值确定调节的方向性来对基因编辑进行建模。
[0011]在一些实施例中,预测模型是高斯过程模型;并且基因编辑模型使用贝叶斯优化算法对基因编辑进行建模,该贝叶斯优化算法包括两个组件(component):(i)基础高斯过程函数的高斯过程模型,以及(ii)用于对各种数据点进行采样的采集函数。
[0012]在一些实施例中,预测模型是深度神经网络;并且基因编辑模型通过对深度神经网络执行对抗性攻击来对基因编辑进行建模,该对抗性攻击包括冻结深度神经网络的权重,以及在受约束输入的空间上进行优化以最大化或最小化表型。
[0013]在一些实施例中,该方法还包括:将理想基因表达谱与植物的基因表达的天然存在的分布进行比较;基于该比较确定用于上调或下调理想基因表达谱内的特定基因、基因亚组或每个基因的基因编辑推荐;以及使用基因编辑系统,根据基因编辑推荐对植物的基因组进行遗传编辑或扰动。
[0014]在一些实施例中,提供了一种系统,该系统包括一个或多个数据处理器和包含指令的非暂时性计算机可读存储介质,当在一个或多个数据处理器上执行时,该指令使得一个或多个数据处理器执行本文公开的一种或多种方法的部分或全部。
[0015]在一些实施例中,提供了一种计算机程序产品,该计算机程序产品有形地体现在非暂时性机器可读存储介质中,并且包括被配置为使一个或多个数据处理器执行本文公开的一种或多种方法的部分或全部的指令。
[0016]已经采用的术语和表达被用作描述而非限制的术语,并且在使用这些术语和表达时不意图排除所示和所描述的特征或其部分的任何等同物,但是应当认识到,在所要求保护的本专利技术的范围内可以进行各本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种方法,包括:获得在植物的组织样本中测量的基因集合的基因表达谱集合;通过非线性算法学习基因表达谱的特征与表型之间的关系或相关性,将该基因表达谱集合输入到为预测表型的任务而构建的预测模型中作为输出数据;使用预测模型,基于该基因表达谱集合的特征与表型之间的关系或相关性生成植物表型的预测;通过可解释的人工智能系统分析由预测模型做出的决策以预测表型,其中,所述分析包括:(i)为表型预测中使用的特征生成特征重要性分数集合,以及(ii)基于与每个特征相关联的特征重要性分数对特征进行排名或以其他方式排序;基于排名或以其他方式排序的特征,将表型的候选基因靶标集合识别为对预测具有最大贡献或影响;以及基于所识别的候选基因靶标集合识别基因组区域集合,该基因组区域集合在被编辑时提供基因表达谱中的必要改变以实现预期的表型改变。2.根据权利要求1所述的方法,其中,所述可解释的人工智能系统使用SHapley加法解释、深度提升、集成梯度、局部可解释模型不可知解释(LIME)、基于注意力的神经网络模型或逐层相关传播来分析由预测模型做出的决策。3.根据权利要求1所述的方法,还包括:其中,所述识别基因组区域集合包括将该候选基因靶标集合输入到为对该候选基因靶标集合的基因编辑建模的任务而构建的基因编辑模型中,并且基于建模的基因编辑,识别用于对该候选基因靶标集合内的一个或多个基因进行基因组编辑的最佳遗传靶标集合,从而最大化、最小化或以其他方式调节表型;以及使用基因编辑模型,基于用于候选基因靶标集合内的一个或多个基因的基因组编辑的最佳遗传靶标,生成表型的理想基因表达谱。4.根据权利要求3所述的方法,其中:所述可解释的人工智能系统使用SHapley加法解释,其生成SHapley值集合作为表型预测中使用的特征的特征重要性分数;Shapley值表示每个特征重要性以及方向的估计;以及基因编辑模型通过直接从Shapley值确定调节的方向性来对基因编辑进行建模。5.根据权利要求3所述的方法,其中:所述预测模型是高斯过程模型;以及基因编辑模型使用贝叶斯优化算法对基因编辑进行建模,该贝叶斯优化算法包括两个组件:(i)基础高斯过程函数的高斯过程模型,以及(ii)用于对各种数据点进行采样的采集函数。6.根据权利要求3所述的方法,其中:所述预测模型是深度神经网络;以及基因编辑模型通过对深度神经网络执行对抗性攻击来对基因编辑进行建模,该对抗性攻击包括冻结深度神经网络的权重,以及在受约束输入的空间上进行优化以最大化或最小化表型。7.根据权利要求3所述的方法,还包括:
将理想基因表达谱与植物的基因表达的天然存在的分布进行比较;基于该比较确定用于上调或下调理想基因表达谱内的特定基因、基因亚组或每个基因的基因编辑推荐;以及使用基因编辑系统,根据基因编辑推荐对植物的基因组进行遗传编辑或扰动。8.一种有形地体现在非暂时性机器可读存储介质中的计算机程序产品,包括被配置为使得一个或多个数据处理器执行动作的指令,所述动作包括:获得在植物的组织样本中测量的基因集合的基因表达谱集合;通过非线性算法学习基因表达谱的特征与表型之间的关系或相关性,将该基因表达谱集合输入到为预测表型的任务而构建的预测模型中作为输出数据;使用预测模型,基于该基因表达谱集合的特征与表型之间的关系或相关性生成植物表型的预测;通过可解释的人工智能系统分析由预测模型做出的决策以预测表型,其中,所述分析包括:(i)为表型预测中使用的特征生成特征重要性分数集合,以及(ii)基于与每个特征相关联的特征重要性分数对特征进行排名或以其他方式排序;基于排名或以其他方式排序的特征,将表型的候选基因靶标集合识别为对预测具有最大贡献或影响;以及基于所识别的候选基因靶标集合识别基因组区域集合,该基因组区域集合在被编辑时提供基因表达谱中的必要改变以实现预期的表型改变。9.根据权利要求8所述的计算机程序产品,其中,所述可解释的人工智能系统使用SHapley加法解释、深度提升、集成梯度、局部可解释模型不可知解释(LIME)、基于注意力的神经网络模型或逐层相关传播来分析由预测模型做出的决策。10.根据权利要求8所述的计算机程序产品,其中,所述动作还包括:其中,所述识别基因组区域集合包括将该候选基因靶标集合输入到为对该候选基因靶标集合的基因编辑建模的任务而构建的基因编辑模型中,并且基于建模的基因编辑,识别用于对该候选基因靶标集合内的一个或...

【专利技术属性】
技术研发人员:B
申请(专利权)人:X开发有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1