【技术实现步骤摘要】
【国外来华专利技术】使用机器学习对蛋白质和其它序列定义的生物分子进行进化数据驱动设计的方法和设备
[0001]相关申请
[0002]本申请要求美国临时申请第63/020,083号(于2020年5月5日提交)和美国临时申请第62/900,420号(于2019年9月13日提交)的权益。前述临时申请中的每一篇的整个内容通过引用并入本文。
[0003]本公开涉及用于设计序列定义的分子(诸如蛋白质)的数据驱动、基于进化的方法,并且更具体地涉及将无监督序列模型与监督功能性模型相结合以设计具有所需功能性的蛋白质的迭代方法。
技术介绍
[0004]本文所提供的背景描述是出于总体上呈现本公开背景的目的。就此
技术介绍
部分中描述的著作而言,当前署名的专利技术人的著作以及在提交时可能未以其它方式具有作为现有技术的资格的描述的各方面既不明确地也不隐含地被认作是针对本公开的现有技术。
[0005]蛋白质是参与各种生物过程的分子机器,包括对生命至关重要的那些过程。例如,它们能够在体内催化微秒级的生物化学反应,否则这些反应需要数年时间。蛋白质参与运输( ...
【技术保护点】
【技术特征摘要】
【国外来华专利技术】1.一种设计具有所需功能性的蛋白质的方法,所述方法包括:使用机器学习模型确定合成蛋白质的候选氨基酸序列,所述机器学习模型已被训练来学习蛋白质训练数据集氨基酸序列中的隐式模式,所述机器学习模型表达在所训练的模型中所学习的隐式模式;执行迭代循环,其中所述循环的每次迭代包括:合成候选基因并且产生与各个候选氨基酸序列对应的候选蛋白质,所述候选基因中的每个候选基因编码所述对应的候选氨基酸序列;通过使用一种或多种测定测量指示所述候选蛋白质的特性的值来评估所述候选蛋白质分别表现出所需功能性的程度;以及当所述迭代循环的一个或多个停止标准未得到满足时,从所述测量值计算分配给每个序列的适合度函数,并且使用所述适合度函数与所述机器学习模型的组合来选择用于后续迭代的新的候选氨基酸序列。2.如权利要求1所述的方法,其中所述隐式模式是在潜在空间中学习的,并且其中确定所述候选氨基酸序列还包括确定所述潜在空间相对于所述训练数据集的氨基酸序列的特征维度具有减小的维度。3.如权利要求1所述的方法,其中所述训练数据集包含进化相关蛋白的多序列比对,所述多序列比对中的氨基酸序列具有序列长度L,并且所述训练数据集的特征维度大到足以容纳与所述序列长度L对应的20
L
氨基酸组合。4.如权利要求1所述的方法,其中所述训练数据集包含进化相关蛋白的多序列比对,并且所述训练数据集的氨基酸序列的特征维度为乘积L
×
K,其中L是所述训练数据集的一个氨基酸序列的长度次数,并且K是可能的氨基酸类型的数量。5.如权利要求4所述的方法,其中所述氨基酸是天然氨基酸并且K等于或小于20。6.如权利要求4所述的方法,其中所述可能的氨基酸类型中的至少一种是非天然氨基酸。7.如权利要求1所述的方法,其中所述训练数据集包含与共同功能相关的蛋白质,所述共同功能是以下中的至少一种:(i)共同结合功能、(ii)共同变构功能和(iii)共同催化功能。8.如权利要求1所述的方法,其中用于训练所述机器学习模型的所述训练数据集包括与以下中的至少一种相关的蛋白质:(i)共同祖先、(ii)共同三维结构、(iii)共同功能、(iv)共同结构域结构和(v)共同进化选择压力。9.如权利要求1所述的方法,其中执行所述迭代循环的步骤还包括:当一个或多个停止标准未得到满足时,基于包括所述候选蛋白质的氨基酸序列的更新的蛋白质训练数据集更新所述机器学习模型,并且在基于所述更新的训练数据集进行更新之后使用所述适合度函数与所述机器学习模型的组合来选择用于所述后续迭代的所述新的候选氨基酸序列。10.如权利要求1所述的方法,其中所述机器学习模型是以下中的一种:(i)变分自编码器(VAE)网络、(ii)受限玻尔兹曼机(RBM)网络、(iii)直接耦合分析(DCA)模型、(iv)统计耦合分析(SCA)模型和(v)生成对抗网络(GAN)。11.如权利要求2所述的方法,其中所述机器学习模型是执行编码和解码/生成的网络模型,所述编码通过将输入氨基酸
序列映射到所述潜在空间中的点来执行,并且所述解码/生成通过将所述潜在空间中的点映射到输出氨基酸序列来执行,并且所述机器学习模型被训练以优化目标函数,所述目标函数的一个成分表示所述输入氨基酸序列和所述输出氨基酸序列匹配的程度,使得当使用所述训练数据集进行训练时,所述机器学习模型生成与用作所述机器学习模型的输入的所述训练数据集的氨基酸序列大致匹配的输出氨基酸序列。12.如权利要求1所述的方法,其中所述机器学习模型是基于所述训练数据集的氨基酸序列的一阶统计量和二阶统计量来学习设计规则的基于无监督统计的模型,并且所述机器学习模型是通过机器学习方法训练以生成与所学习的设计规则一致的输出氨基酸序列的生成模型。13.如权利要求1所述的方法,所述方法还包括使用所述训练数据集训练所述机器学习模型以学习Potts模型的外部场和残基
‑
残基耦合以生成所述训练数据集的DCA模型,所述DCA模型被用作所述机器学习模型。14.如权利要求13所述的方法,其中所述DCA模型使用玻尔兹曼机学习方法、平均场解法、蒙特卡洛梯度下降法和伪似然最大化法中的一种来训练。15.如权利要求13所述的方法,其中确定所述候选氨基酸序列的步骤还包括基于在一个或多个一个或多个预定义温度下训练的Potts模型的哈密顿量从玻尔兹曼统计分布中选择所述候选氨基酸序列,所述候选氨基酸序列使用马尔可夫链蒙特卡洛(MCMC)法、模拟退火法、模拟加热法、遗传算法、跳盆法、采样法和优化法中的至少一种从所述玻尔兹曼统计分布中抽取样本来选择。16.如权利要求15所述的方法,其中选择用于所述后续迭代的所述新的候选氨基酸序列的步骤还包括基于在一个或多个预定义温度下训练的Potts模型的哈密顿量从玻尔兹曼统计分布中对氨基酸序列选择进行偏置,其中对所述氨基酸序列选择的偏置基于所述适合度函数来增加与所述测量值表明所需功能性大于所述测量值的平均值、中值或众数的所测量候选蛋白质的氨基酸序列更紧密地匹配的被选择氨基酸序列的数量。17.如权利要求15所述的方法,其中选择用于所述后续迭代的所述新的候选氨基酸序列的步骤还包括从统计分布中随机抽取氨基酸序列,其中基于所训练的Potts模型的哈密顿量的玻尔兹曼统计分布通过所述适合度函数被加权以增加所述样本从所述潜在空间内的如下区域中抽取的可能性,所述区域更能代表比与所述潜在空间的其它区域对应的候选氨基酸序列表现出更多所需功能性的候选氨基酸序列。18.如权利要求1所述的方法,所述方法还包括使用所述训练数据集训练所述机器学习模型来学习位置协同进化矩阵以生成所述训练数据集的SCA模型,所述SCA模型被用作所述机器学习模型。19.如权利要求18所述的方法,所述方法还包括:通过使用所述SCA模型执行模拟退火或模拟加热来生成氨基酸序列样本集,所述氨基酸序列样本集表达所述训练数据集所学习的隐式模式,以及从所生成的氨基酸序列样本集中选择所述候选氨基酸序列。20.如权利要求1所述的方法,其中选择用于所述后续迭代的所述新的候选氨基酸序列
的步骤还包括对所述候选蛋白质的所述候选氨基酸序列进行线性或非线性降维以对低维模型的成分进行排序,并且对所述氨基酸序列的选择进行偏置以增加在所述低维模型的前导成分空间内的一个或多个邻域中选择的氨基酸序列的数量,其中与测量值对应的氨基酸序列表明高度的所需功能性聚簇。21.如权利要求20所述的方法,其中所述非线性降维是主成分分析,并且所述低维模型的前导成分是由与相关矩阵的一组最大特征值对应的一组特征向量表示的主成分分析的主成分。22.如权利要求20所述的方法,其中所述非线性降维是独立成分分析,其中所述特征向量经受旋转和缩放操作以鉴定序列变化的功能独立模式。23.如权利要求11所述的方法,其中确定所述候选氨基酸序列的步骤还包括:鉴定在所述潜在空间内与被选择为可能表现出所需功能性的蛋白质的氨基酸序列对应的邻域,选择在所述潜在空间内所鉴定的邻域内的点,以及使用由所述机器学习模型执行的所述解码/生成将所选定的点映射到各个候选氨基酸序列,然后将其用作所述候选氨基酸序列。24.如权利要求11所述的方法,其中选择用于所述后续迭代的所述新的候选氨基酸序列的步骤还包括:基于所述适合度函数鉴定在所述潜在空间内表现出所需功能性或比其它区域更可能表现出所需功能性或采样太稀疏而无法关于所述所需功能性进行统计学上显著的估计的区域,选择在所述潜在空间内所鉴定的区域内的点,以及使用由所述机器学习模型执行的所述解码/生成将所选定的点映射到各个候选氨基酸序列,然后将其用作用于所述后续迭代的所述新的候选氨基酸序列还包括。25.如权利要求24所述的方法,其中:鉴定所述潜在空间内的所述区域的步骤还包括基于所述适合度函数在所述潜在空间内生成密度函数,并且选择在所述潜在空间内所鉴定的区域内的点的步骤还包括选择在统计学上代表所述密度函数的点。26.如权利要求1所述的方法,其中计算所述适合度函数的步骤还包括执行功能性前景的监督学习,所述功能性前景将所述候选蛋白质的测量值近似为所述潜在空间内的对应位置的函数,其中所述适合度函数至少部分基于所述功能性前景。27.如权利要求26所述的方法,其中对于在所述潜在空间中的给定点,所述功能性前景为所述给定点的对应氨基酸序列提供功能性估计值,并且所述功能性的估计值是以下中的至少一个:(i)所述对应氨基酸序列的基于所述机器学习模型的统计概率,(ii)折叠所述对应氨基酸序列的统计能量或物理能量,所述统计能量基于统计评分函数通过计算预测,和(iii)所述统计能量在执行特定结构或功能角色方面的活性,所述活性通过计算预测或通过实验测量。28.如权利要求26所述的方法,其中所述适合度函数是功能性前景。29.如权利要求26所述的方法,其中所述适合度函数基于功能性前景和至少一个选自
序列相似性前景和稳定性前景的其它参数,所述序列相似性前景估计与所述潜在空间中的点对应的蛋白质跟预定义的蛋白质集合相似的程度,并且所述稳定性前景估计与所述潜在空间中的点对应的蛋白质稳定的程度。30.如权利要求29所述的方法,其中所述稳定性前景基于与所述潜在空间中的点对应的稳定的蛋白质的蛋白质折叠的数值模拟。31.如权利要求29所述的方法,其中所述功能性前景和所述至少一个其它参数定义多目标优化空间,并且用于所述后续迭代的所述候选氨基酸序列通过以下方式来选择:确定在所述多目标优化空间内的凸包作为帕累托前沿面,选择在所述潜在空间内位于所述帕累托前沿面上的点,并且使用所述机器学习模型将所选定的点映射到氨基酸序列,然后将其用作用于所述后续迭代的所述候选氨基酸序列。32.如权利要求29所述的方法,其中通过使用监督分类或回归分析执行监督学习来生成功能性前景,所述监督学习是以下中的一种:(i)多变量线性、多项式、步进、套索、岭回归、核心回归或非线性回归方法,(ii)支持向量回归(SVR)方法,(iii)高斯过程回归(GPR)方法,(iv)决策树(DT)方法,(v)随机森林(RF)方法,和(vi)人工神经网络(ANN)。33.如权利要求30所述的方法,其中所述功能性前景还包括作为所述潜在空间内的位置的函数的不确定性值,所述不确定性值表示已经针对所述功能性前景与所述测量值的近似程度而估计的不确定性。34.如权利要求33所述的方法,所述方法还包括选择用于所述后续迭代的所述候选氨基酸序列中的一些以对应于所述潜在空间中具有比其它区域更大的不确定性值的区域,使得在所述后续迭代中,与所述候选氨基酸序列中的一些对应的测量值由于在所述较大不确定值的区域中采样的增加而将使所述较大不确定值减小。35.如权利要求1所述的方法,其中测量所述候选蛋白质的值的步骤包括使用以下中的至少一种来测量所述值:(i)测量生长速率作为所需功能性的标记的测定,(ii)测量基因表达作为所需功能性的标记的测定,和(iii)使用微流体和荧光来测量基因表达或活性作为所需功能性的标记的测定。36.如权利要求1所述的方法,其中合成所述候选基因的步骤还包括使用其中在溶液中提供具有重叠延伸部分的寡核苷酸(oligo)的聚合酶循环/链组装(PCA),其中所述寡核苷酸被循环通过一系列温度,由此通过以下步骤将寡核苷酸组合成更大的寡核苷酸:(i)使寡核苷酸变性,(ii)使所述重叠延伸部分退火,和(iii)延伸非重叠延伸部分。37.如权利要求1所述的方法,其中执行所述迭代循环的步骤还包括演化从起始值演化为最终值的一个或多个测定的参数,使得在第一次迭代期间当以所述起始值测量时,所述候选基因表现出所述所需功能性,但当以所述最终值测量时不表现出所述所需功能性,并且在最后一次迭代期间,所述候选基因当以所述最终值测量时表现出所述所需功能性。38.如权利要求37所述的方法,其中所述参数是以下中的一种:(i)温度、(ii)压力、(iii)光照条件、(iv)pH值和(v)介质中用于所述一种或多种测定的物质的浓度。39.如权利要求37所述的方法,其中选择所述一种或多种测定的参数以关于内部表型和外部环境条件的组合评估所述候选氨基酸序列。40.如权利要求1所述的方法,其中执行所述迭代循环的步骤还包括:当满足所述迭代循环的所述一个或多个停止标准时,停止所述迭代循环并且输出与一个或多个最表现出所
述所需功能性的候选基因对应的一个或多个遗传密码的信息。41.一种用于设计具有所需功能性的蛋白质的系统,所述系统包括:基因合成系统,所述基因合成系统被配置成基于编码各个氨基酸序列的输入基因序列合成基因,并且从所合成的基因中生成蛋白质;测定系统,所述测定系统被配置成测量从所述基因合成系统接收的蛋白质的值,所述测量值提供所需功能性的标记;和处理电路系统,所述处理电路系统被配置成:使用机器学习模型确定合成蛋白质的候选氨基酸序列,所述机器学习模型已被训练来学习蛋白质氨基酸序列训练数据集中的隐式模式,所述机器学习模型在所训练的模型中表达所学习的隐式模式,以及执行迭代循环,其中所述循环的每次迭代包括:向所述基因合成系统发送所述候选氨基酸序列以基于所述候选氨基酸序列生成候选蛋白质,从所述测定系统接收基于所述候选氨基酸序列与候选蛋白质对应的测量值,并且当所述迭代循环的一个或多个停止标准未得到满足时,从所述测量值计算分配给每个氨基酸序列的适合度函数,并且使用所述适合度函数与所述机器学习模型的组合来选择用于后续迭代的新的候选氨基酸序列。42.如权利要求41所述的系统,其中所述机器学习模型表达在潜在空间中所学习的隐式模式,以及所述处理电路系统还被配置成确定所述候选氨基酸序列,所述潜在空间相对于所述训练数据集的氨基酸序列的特征维度具有减小的维度。43.如权利要求42所述的系统,其中所述训练数据集包含同源蛋白质的多序列比对,所述多序列比对中的氨基酸序列具有序列长度L,并且所述训练数据集的特征维度大到足以容纳与所述序列长度L对应的20
L
氨基酸组合。44.如权利要求42所述的系统,其中所述训练数据集包含进化相关蛋白的多序列比对,并且所述训练数据集的氨基酸序...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。