机器学习引导的多肽分析制造技术

技术编号:30072455 阅读:36 留言:0更新日期:2021-09-18 08:26
用于鉴定氨基酸序列和蛋白质功能或性质之间的关联的系统、装置、软件和方法。机器学习的应用用于生成基于输入数据鉴定此类关联的模型,该输入数据是例如氨基酸序列信息。可以利用包括迁移学习的各种技术来增强关联的准确性。确性。确性。

【技术实现步骤摘要】
【国外来华专利技术】机器学习引导的多肽分析
[0001]相关申请
[0002]本申请要求于2019年2月11日提交的美国临时申请号62/804,034以及于2019年2月11日提交的美国临时申请号62/804,036的权益。将上述申请的全部传授内容通过援引并入本文。

技术介绍

[0003]蛋白质是生物体所必需的大分子,并在生物体内执行许多功能或与许多功能相关,这些功能包括例如催化代谢反应、促进DNA复制、响应刺激、为细胞和组织提供结构、以及转运分子。蛋白质由一条或多条氨基酸链构成,并且典型地形成三维构象。

技术实现思路

[0004]本文描述了用于评估蛋白质或多肽信息以及在一些实施例中产生性质或功能的预测的系统、装置、软件和方法。蛋白质性质和蛋白质功能是描述表型的可测量值。在实践中,蛋白质功能可以指主要治疗功能,并且蛋白质性质可以指其他所需的药物样性质。在本文描述的系统、装置、软件和方法的一些实施例中,鉴定了氨基酸序列和蛋白质功能之间的以前未知的关系。
[0005]传统上,基于氨基酸序列的蛋白质功能预测具有很高的挑战性,至少部分是由于由看似简单的一级氨本文档来自技高网...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种为所需蛋白质性质建模的方法,该方法包括:(a)提供包含第一神经网嵌入器和第一神经网预测器的第一预训练系统,该预训练系统的该第一神经网预测器不同于该所需蛋白质性质;(b)将该预训练系统的该第一神经网嵌入器的至少一部分迁移到第二系统,该第二系统包含第二神经网嵌入器和第二神经网预测器,该第二系统的该第二神经网预测器提供该所需蛋白质性质;以及(c)通过该第二系统分析蛋白质分析物的一级氨基酸序列,以生成该蛋白质分析物的该所需蛋白质性质的预测。2.如权利要求1所述的方法,其中该第一系统和该第二系统的神经网嵌入器的架构是独立地选自VGG16、VGG19、Deep ResNet、Inception/GoogLeNet(V1

V4)、Inception/GoogLeNet ResNet、Xception、AlexNet、LeNet、MobileNet、DenseNet、NASNet和MobileNet中的至少一个的卷积架构。3.如权利要求1所述的方法,其中该第一系统包含选自条件式GAN、DCGAN、CGAN、SGAN或渐进式GAN、SAGAN、LSGAN、WGAN、EBGAN、BEGAN或infoGAN的生成式对抗网络(GAN)。4.如权利要求3所述的方法,其中该第一系统包含选自Bi

LSTM/LSTM、Bi

GRU/GRU或转换器网络的递归神经网络。5.如权利要求3所述的方法或系统,其中该第一系统包含变分自编码器(VAE)。6.如前述权利要求中任一项所述的方法,其中该嵌入器用一组至少50、100、150、200、250、300、350、400、450、500、600、700、800、900或1000个或更多个氨基酸序列进行训练。7.如权利要求6所述的方法,其中这些氨基酸序列包括跨一种或多种功能表示的注释,这些功能表示包括GP、Pfam、关键字、Kegg本体论、Interpro、SUPFAM或OrthoDB中的至少一种。8.如权利要求7所述的方法,其中该氨基酸序列具有至少约1万、2万、3万、4万、5万、7.5万、10万、12万、14万、15万、16万或17万个可能的注释。9.如前述权利要求中任一项所述的方法,其中相对于未使用该第一模型的该迁移嵌入器而训练的模型,该第二模型具有改进的性能指标。10.如前述权利要求中任一项所述的方法,其中该第一系统或该第二系统由Adam、RMS prop、具有动量的随机梯度下降(SGD)、具有动量和Nestrov加速梯度的SGD、不具有动量的SGD、Adagrad、Adadelta或NAdam优化。11.如前述权利要求中任一项所述的方法,其中可以使用以下激活函数中的中任一个来优化该第一模型和该第二模型:softmax、elu、SeLU、softplus、softsign、ReLU、tanh、sigmoid、hard_sigmoid、指数、PReLU和LeaskyReLU或线性。12.如前述权利要求中任一项所述的方法,其中该神经网嵌入器包含至少10、50、100、250、500、750或1000或更多个层,并且该预测器包含至少1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19或20或更多个层。13.如前述权利要求中任一项所述的方法,其中该第一系统或该第二系统中的至少一个利用选自以下的正则化:提前停止、L1

L2正则化、残差连接或其组合,其中在1、2、3、4、5或更多个层上执行该正则化。14.如权利要求13所述的方法,其中使用批归一化执行该正则化。
15.如权利要求13所述的方法,其中使用组归一化执行该正则化。16.如前述权利要求中任一项所述的方法,其中该第二系统的第二模型包含该第一系统的第一模型,其中去除了该第一模型的最后一层。17.如权利要求16所述的方法,其中在迁移到该第二模型时,该第一模型的2、3、4、5或更多个层被去除。18.如权利要求16或17所述的方法,其中在该第二模型的训练期间,这些迁移层被冻结。19.如权利要求16或17所述的方法,其中在该第二模型的训练期间,这些迁移层被解冻。20.如权利要求17

19中任一项所述的方法,其中该第二模型具有1、2、3、4、5、6、7、8、9、10或更多个层添加到该第一模型的迁移层。21.如前述权利要求中任一项所述的方法,其中该第二系统的该神经网预测器预测蛋白质结合活性、核酸结合活性、蛋白质溶解度和蛋白质稳定性中的一种或多种。22.如前述权利要求中任一项所述的方法,其中该第二系统的该神经网预测器预测蛋白荧光。23.如前述权利要求中任一项所述的方法,其中该第二系统的该神经网预测器预测酶活性。24.一种用于鉴定氨基酸序列和蛋白质功能之间以前未知的关联的计算机实施的方法,该方法包括:(a)使用第一机器学习软件模块生成多个蛋白质性质和多个氨基酸序列之间的多个关联的第一模型;(b)将该第一模型或其部分迁移到第二机器学习软件模块;(c)由该第二机器学习软件模块生成包含该第一模型的至少一部分的第二模型;以及(d)基于该第二模型,鉴定该氨基酸序列和该蛋白质功能之间以前未知的关联。25.如权利要求24所述的方法,其中该氨基酸序列包含一级蛋白质结构。26.如权利要求24或25所述的方法,其中该氨基酸序列导致蛋白质构型,该蛋白质构型产生该蛋白质功能。27.如权利要求24

26所述的方法,其中该蛋白质功能包含荧光。28.如权利要求24

27所述的方法,其中该蛋白质功能包含酶活性。29.如权利要求24

28所述的方法,其中该蛋白质功能包含核酸酶活性。30.如权利要求24

29所述的方法,其中该蛋白质功能包含蛋白质稳定性程度。31.如权利要求24

30所述的方法,其中该多个蛋白质性质和该多个氨基酸序列来自UniProt。32.如权利要求24

31所述的方法,其中该多个蛋白质性质包含标签GP、Pfam、关键字、Kegg本体论、Interpro、SUPFAM和OrthoDB中的一种或多种。33.如权利要求24

32所述的方法,其中该多个氨基酸序列形成多个蛋白质的一级蛋白质结构、二级蛋白质结构和三级蛋白质结构。34.如权利要求24

33所述的方法,其中该第一模型用输入数据进行训练,该输入数据包含多维张量、3维原子位置的表示、成对相互作用的邻接矩阵和字符嵌入中的一种或多
种。35.如权利要求24

34所述的方法,该方法包括:向该第二机器学习模块输入与一级氨基酸序列的突变、氨基酸相互作用的接触图、三级蛋白质结构和来自可变剪接转录物的预测同种型相关的数据中的至少一...

【专利技术属性】
技术研发人员:J
申请(专利权)人:旗舰开拓创新六世公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1