基于机器学习的单序列蛋白结构预测的方法和系统技术方案

技术编号：35899218 阅读：25 留言：0更新日期：2022-12-10 10:34

本发明专利技术属于生物信息学技术领域，提供基于机器学习的单序列蛋白结构预测的方法和系统。所述系统包括氨基酸编码模块、改进的Evoformer模块和结构生成模块。首先，基于氨基酸编码模块获得蛋白质氨基酸编码和序列对的初始编码，氨基酸编码模块中整合多预训练蛋白质语言模型；其次，基于改进的Evoformer模块对氨基酸编码和氨基酸对编码进行迭代更新；最后，结构生成模块基于更新后的氨基酸编码和氨基酸对编码预测蛋白质结构，并预测置信分数。本发明专利技术能仅基于蛋白质序列进行结构预测，不需同源序列搜索步骤，极大地提升蛋白质结构预测速度，同时可对孤儿蛋白等缺乏同源进化信息的蛋白质进行结构预测，有利于蛋白质结构预测的大规模应用。大规模应用。大规模应用。

全部详细技术资料下载

【技术实现步骤摘要】
基于机器学习的单序列蛋白结构预测的方法和系统

[0001]本专利技术属于生物信息学
，具体涉及基于机器学习的单序列蛋白结构预测的方法和系统。

技术介绍

[0002]自2016年许锦波教授研发出RaptorX
‑
Contact方法【Wang,S.,Sun,S.,Li,Z.,Zhang,R.&Xu,J.Accurate De Novo Prediction of Protein Contact Map by Ultra
‑
Deep Learning Model.PLOS Computational Biology 13,e1005324(2017).】，开启AI蛋白质结构预测时代后，DeepMind、Meta等研究团队相继推出了AlphaFold2【Jumper,J.et al.Highly accurate protein structure prediction with AlphaFold.Nature 596,583
–
589(2021).】、ESMFold【Lin本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于机器学习的单序列蛋白结构预测的系统，其特征在于，由蛋白质语言模型、修改后的Evoformer模块和结构生成模块组成，氨基酸编码模块将蛋白质氨基酸序列转化为氨基酸编码以及氨基酸对编码；Evoformer通过注意力机制更新氨基酸编码以及氨基酸对编码；结构生成模块则根据更新的氨基酸编码预测蛋白质的三级结构。2.如权利要求1所述的系统，其特征在于，所述编码模块通过利用两种或以上蛋白质语言模型，优选的是利用ESM
‑
1b、ESM
‑
1v和ProtTrans这三种蛋白质语言模型，生成输入序列的氨基酸编码及氨基酸对编码；在编码模块中，输入序列的one
‑
hot编码通过线性层生成初始氨基酸编码，然后以相加的方式结合来自蛋白质语言模型的氨基酸编码，生成新的氨基酸编码,最初的氨基酸对编码是通过两个维度的氨基酸编码（行和列）相加产生的，然后通过结合来自蛋白质语言模型的最后两层的注意力图来创建一个新的氨基酸对编码,氨基酸对编码中还添加了相对位置编码。3.如权利要求1所述的系统，其特征在于，所述改进的Evoformer模块是由24
‑
96个Evoformer修改版（优选为24个）组成，对氨基酸编码和氨基酸对编码进行迭代更新；具体地，所述修改版的Evoformer没有列的自注意力层；更具体地，输入的氨基酸编码经过行注意力机制进行更新，其中除了自身注意力外还将氨基酸对编码作为偏差，然后经过转换层获得更新的氨基酸编码，输入的氨基酸对编码与更新后的经过外积操作的氨基酸编码相加，然后经过三角更新机制层和转换层获得更新后的氨基酸对编码；所述的转换层依次包含一个层归一化层、一个线性层、一个relu层和一个线性层，这里的三角注意力层依次包含出三角乘积层、入三角乘积层、基于起始位点的三角注意力层和基于终止位点的三角注意力层。4.如权利要求1所述的系统，其特征在于，所述结构模块由8
‑
32个共享权重的IPA模块(优选为8个)组成，其中使用线性层来整合IPA模型中的标量、点和对注意力值；结构模块同时输出预测的原子三维坐标和置信分数，即pLDDT；具体地，基于更新后氨基酸氨基酸编码和氨基酸氨基酸对编码，结构模块同时预测的蛋白质结构的原子三维坐标和置信分数；更具体地，以Evoformer层所产生的氨基酸对编码、氨基酸编码以及初始化的结构信息（旋转和平移矩阵，第一层所有原子初始化在原点，之后层的为上一层更新后的结构信息）作为输入，分别使用线性层将序列对偏差、标量点积以及结构距离将三种输入进行整合，以生成注意力图，并利用注意力图对氨基酸编码、氨基酸对编码、结构信息进行更新，最后将三种信息相加，经过一个线性层得到更新后的氨基酸编码。5.如权利要求2所述的系统，其特征在于，通过预训练的蛋白质语言模型获得蛋白质氨基酸编码信息和注意力图信息。6.如权利要求5所述的系统，其特征在于，所述蛋白质语言模型代码基...

【专利技术属性】
技术研发人员：许锦波，井晓阳，吴凡迪，
申请(专利权)人：北京分子之心科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人