机器学习驱动的植物基因发现和基因编辑制造技术

技术编号：39274673 阅读：32 留言：0更新日期：2023-11-07 10:52

本公开涉及利用可解释的机器学习方法和特征重要性机制作为基因发现的机制，并且还利用基因发现的输出来推荐理想基因表达谱和有助于所需表型的必要基因组编辑。特别地，本公开的方面涉及获得在植物的组织样本中测量的基因集合的基因表达谱，将基因表达谱输入到为预测表型的任务而构建的预测模型中作为输出数据，使用预测模型生成植物表型的预测，通过可解释的人工智能系统分析由预测模型做出的决策以预测表型，并且基于分析将表型的候选基因靶标集合识别为对预测具有最大贡献或影响。因靶标集合识别为对预测具有最大贡献或影响。因靶标集合识别为对预测具有最大贡献或影响。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】机器学习驱动的植物基因发现和基因编辑
[0001]相关申请的交叉引用
[0002]本申请要求于2021年3月19日提交的美国申请号17/207,169的权益和优先权，其全部内容通过引用并入本文用于所有目的。

[0003]本公开涉及植物基因组编辑，并且具体地涉及利用可解释的机器学习方法和特征重要性机制(在神经网络和其他非线性模型两者上)作为基因发现的机制，并且还利用这些基因发现模型的输出来推荐理想基因表达谱，包括有助于所需表型的必要基因组编辑。

技术介绍

[0004]遗传多样性主要是有性重组和诱变的功能，并且是植物性状改良的重要手段。例如，植物遗传资源中的遗传多样性为植物育种者提供了开发具有所需特征的新的和改良的栽培种的机会，这些特征包括农民偏好的性状(例如，高产潜力、果粒大等)和育种者偏好的性状(例如，害虫和疾病抗性和光敏性等)。数千年来，植物驯化依赖于经由进化力量(例如，选择、突变、迁移、遗传漂变(genetic drift)等)的天然遗传变异性来选择有利的遗传改变。植物驯化或人工选择有利于一些等位基因，而...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种方法，包括：获得在植物的组织样本中测量的基因集合的基因表达谱集合；通过非线性算法学习基因表达谱的特征与表型之间的关系或相关性，将该基因表达谱集合输入到为预测表型的任务而构建的预测模型中作为输出数据；使用预测模型，基于该基因表达谱集合的特征与表型之间的关系或相关性生成植物表型的预测；通过可解释的人工智能系统分析由预测模型做出的决策以预测表型，其中，所述分析包括：(i)为表型预测中使用的特征生成特征重要性分数集合，以及(ii)基于与每个特征相关联的特征重要性分数对特征进行排名或以其他方式排序；基于排名或以其他方式排序的特征，将表型的候选基因靶标集合识别为对预测具有最大贡献或影响；以及基于所识别的候选基因靶标集合识别基因组区域集合，该基因组区域集合在被编辑时提供基因表达谱中的必要改变以实现预期的表型改变。2.根据权利要求1所述的方法，其中，所述可解释的人工智能系统使用SHapley加法解释、深度提升、集成梯度、局部可解释模型不可知解释(LIME)、基于注意力的神经网络模型或逐层相关传播来分析由预测模型做出的决策。3.根据权利要求1所述的方法，还包括：其中，所述识别基因组区域集合包括将该候选基因靶标集合输入到为对该候选基因靶标集合的基因编辑建模的任务而构建的基因编辑模型中，并且基于建模的基因编辑，识别用于对该候选基因靶标集合内的一个或多个基因进行基因组编辑的最佳遗传靶标集合，从而最大化、最小化或以其他方式调节表型；以及使用基因编辑模型，基于用于候选基因靶标集合内的一个或多个基因的基因组编辑的最佳遗传靶标，生成表型的理想基因表达谱。4.根据权利要求3所述的方法，其中：所述可解释的人工智能系统使用SHapley加法解释，其生成SHapley值集合作为表型预测中使用的特征的特征重要性分数；Shapley值表示每个特征重要性以及方向的估计；以及基因编辑模型通过直接从Shapley值确定调节的方向性来对基因编辑进行建模。5.根据权利要求3所述的方法，其中：所述预测模型是高斯过程模型；以及基因编辑模型使用贝叶斯优化算法对基因编辑进行建模，该贝叶斯优化算法包括两个组件：(i)基础高斯过程函数的高斯过程模型，以及(ii)用于对各种数据点进行采样的采集函数。6.根据权利要求3所述的方法，其中：所述预测模型是深度神经网络；以及基因编辑模型通过对深度神经网络执行对抗性攻击来对基因编辑进行建模，该对抗性攻击包括冻结深度神经网络的权重，以及在受约束输入的空间上进行优化以最大化或最小化表型。7.根据权利要求3所述的方法，还包括：
将理想基因表达谱与植物的基因表达的天然存在的分布进行比较；基于该比较确定用于上调或下调理想基因表达谱内的特定基因、基因亚组或每个基因的基因编辑推荐；以及使用基因编辑系统，根据基因编辑推荐对植物的基因组进行遗传编辑或扰动。8.一种有形地体现在非暂时性机器可读存储介质中的计算机程序产品，包括被配置为使得一个或多个数据处理器执行动作的指令，所述动作包括：获得在植物的组织样本中测量的基因集合的基因表达谱集合；通过非线性算法学习基因表达谱的特征与表型之间的关系或相关性，将该基因表达谱集合输入到为预测表型的任务而构建的预测模型中作为输出数据；使用预测模型，基于该基因表达谱集合的特征与表型之间的关系或相关性生成植物表型的预测；通过可解释的人工智能系统分析由预测模型做出的决策以预测表型，其中，所述分析包括：(i)为表型预测中使用的特征生成特征重要性分数集合，以及(ii)基于与每个特征相关联的特征重要性分数对特征进行排名或以其他方式排序；基于排名或以其他方式排序的特征，将表型的候选基因靶标集合识别为对预测具有最大贡献或影响；以及基于所识别的候选基因靶标集合识别基因组区域集合，该基因组区域集合在被编辑时提供基因表达谱中的必要改变以实现预期的表型改变。9.根据权利要求8所述的计算机程序产品，其中，所述可解释的人工智能系统使用SHapley加法解释、深度提升、集成梯度、局部可解释模型不可知解释(LIME)、基于注意力的神经网络模型或逐层相关传播来分析由预测模型做出的决策。10.根据权利要求8所述的计算机程序产品，其中，所述动作还包括：其中，所述识别基因组区域集合包括将该候选基因靶标集合输入到为对该候选基因靶标集合的基因编辑建模的任务而构建的基因编辑模型中，并且基于建模的基因编辑，识别用于对该候选基因靶标集合内的一个或...

【专利技术属性】
技术研发人员：B，
申请(专利权)人：X开发有限责任公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人