【技术实现步骤摘要】
【国外来华专利技术】机器学习驱动的植物基因发现和基因编辑
[0001]相关申请的交叉引用
[0002]本申请要求于2021年3月19日提交的美国申请号17/207,169的权益和优先权,其全部内容通过引用并入本文用于所有目的。
[0003]本公开涉及植物基因组编辑,并且具体地涉及利用可解释的机器学习方法和特征重要性机制(在神经网络和其他非线性模型两者上)作为基因发现的机制,并且还利用这些基因发现模型的输出来推荐理想基因表达谱,包括有助于所需表型的必要基因组编辑。
技术介绍
[0004]遗传多样性主要是有性重组和诱变的功能,并且是植物性状改良的重要手段。例如,植物遗传资源中的遗传多样性为植物育种者提供了开发具有所需特征的新的和改良的栽培种的机会,这些特征包括农民偏好的性状(例如,高产潜力、果粒大等)和育种者偏好的性状(例如,害虫和疾病抗性和光敏性等)。数千年来,植物驯化依赖于经由进化力量(例如,选择、突变、迁移、遗传漂变(genetic drift)等)的天然遗传变异性来选择有利的遗传改变。植物驯化或人工选择有利于一些等位基因,而以其他等位基因为代价,导致所选择的等位基因的频率增加。因此,与野生的多样性相比,植物驯化减少了遗传多样性。此外,经由进化力量生成遗传变体是完全不受控制的,并且在很大程度上依赖于植物栽培的环境。
[0005]为了获得对遗传多样性的一些控制并且创造新品种,育种者已经使用不同的技术来分析植物的遗传多样性并且使用该分析将可遗传的突变引入植物基因组中。例如,结合各种统计工具(例如,多元统计)的形态学 ...
【技术保护点】
【技术特征摘要】
【国外来华专利技术】1.一种方法,包括:获得在植物的组织样本中测量的基因集合的基因表达谱集合;通过非线性算法学习基因表达谱的特征与表型之间的关系或相关性,将该基因表达谱集合输入到为预测表型的任务而构建的预测模型中作为输出数据;使用预测模型,基于该基因表达谱集合的特征与表型之间的关系或相关性生成植物表型的预测;通过可解释的人工智能系统分析由预测模型做出的决策以预测表型,其中,所述分析包括:(i)为表型预测中使用的特征生成特征重要性分数集合,以及(ii)基于与每个特征相关联的特征重要性分数对特征进行排名或以其他方式排序;基于排名或以其他方式排序的特征,将表型的候选基因靶标集合识别为对预测具有最大贡献或影响;以及基于所识别的候选基因靶标集合识别基因组区域集合,该基因组区域集合在被编辑时提供基因表达谱中的必要改变以实现预期的表型改变。2.根据权利要求1所述的方法,其中,所述可解释的人工智能系统使用SHapley加法解释、深度提升、集成梯度、局部可解释模型不可知解释(LIME)、基于注意力的神经网络模型或逐层相关传播来分析由预测模型做出的决策。3.根据权利要求1所述的方法,还包括:其中,所述识别基因组区域集合包括将该候选基因靶标集合输入到为对该候选基因靶标集合的基因编辑建模的任务而构建的基因编辑模型中,并且基于建模的基因编辑,识别用于对该候选基因靶标集合内的一个或多个基因进行基因组编辑的最佳遗传靶标集合,从而最大化、最小化或以其他方式调节表型;以及使用基因编辑模型,基于用于候选基因靶标集合内的一个或多个基因的基因组编辑的最佳遗传靶标,生成表型的理想基因表达谱。4.根据权利要求3所述的方法,其中:所述可解释的人工智能系统使用SHapley加法解释,其生成SHapley值集合作为表型预测中使用的特征的特征重要性分数;Shapley值表示每个特征重要性以及方向的估计;以及基因编辑模型通过直接从Shapley值确定调节的方向性来对基因编辑进行建模。5.根据权利要求3所述的方法,其中:所述预测模型是高斯过程模型;以及基因编辑模型使用贝叶斯优化算法对基因编辑进行建模,该贝叶斯优化算法包括两个组件:(i)基础高斯过程函数的高斯过程模型,以及(ii)用于对各种数据点进行采样的采集函数。6.根据权利要求3所述的方法,其中:所述预测模型是深度神经网络;以及基因编辑模型通过对深度神经网络执行对抗性攻击来对基因编辑进行建模,该对抗性攻击包括冻结深度神经网络的权重,以及在受约束输入的空间上进行优化以最大化或最小化表型。7.根据权利要求3所述的方法,还包括:
将理想基因表达谱与植物的基因表达的天然存在的分布进行比较;基于该比较确定用于上调或下调理想基因表达谱内的特定基因、基因亚组或每个基因的基因编辑推荐;以及使用基因编辑系统,根据基因编辑推荐对植物的基因组进行遗传编辑或扰动。8.一种有形地体现在非暂时性机器可读存储介质中的计算机程序产品,包括被配置为使得一个或多个数据处理器执行动作的指令,所述动作包括:获得在植物的组织样本中测量的基因集合的基因表达谱集合;通过非线性算法学习基因表达谱的特征与表型之间的关系或相关性,将该基因表达谱集合输入到为预测表型的任务而构建的预测模型中作为输出数据;使用预测模型,基于该基因表达谱集合的特征与表型之间的关系或相关性生成植物表型的预测;通过可解释的人工智能系统分析由预测模型做出的决策以预测表型,其中,所述分析包括:(i)为表型预测中使用的特征生成特征重要性分数集合,以及(ii)基于与每个特征相关联的特征重要性分数对特征进行排名或以其他方式排序;基于排名或以其他方式排序的特征,将表型的候选基因靶标集合识别为对预测具有最大贡献或影响;以及基于所识别的候选基因靶标集合识别基因组区域集合,该基因组区域集合在被编辑时提供基因表达谱中的必要改变以实现预期的表型改变。9.根据权利要求8所述的计算机程序产品,其中,所述可解释的人工智能系统使用SHapley加法解释、深度提升、集成梯度、局部可解释模型不可知解释(LIME)、基于注意力的神经网络模型或逐层相关传播来分析由预测模型做出的决策。10.根据权利要求8所述的计算机程序产品,其中,所述动作还包括:其中,所述识别基因组区域集合包括将该候选基因靶标集合输入到为对该候选基因靶标集合的基因编辑建模的任务而构建的基因编辑模型中,并且基于建模的基因编辑,识别用于对该候选基因靶标集合内的一个或...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。