蛋白质三维结构建模方法及装置、电子设备和存储介质制造方法及图纸

技术编号:36038512 阅读:16 留言:0更新日期:2022-12-21 10:43
本公开涉及一种蛋白质三维结构建模方法及装置、电子设备和存储介质,所述方法包括:针对目标蛋白质的各个目标氨基酸序列,在第一蛋白质数据库中获取氨基酸序列相似度高于第一预设相似度的相似氨基酸序列对应的蛋白质链信息;获取各个目标氨基酸序列的三维结构,将各个目标氨基酸序列的三维结构分别叠加到各个蛋白质链信息中相似氨基酸序列的对应位置,得到多个第一复合体结构;利用目标蛋白质对应的冷冻电子显微镜电子密度图及至少一个第一复合体结构得到目标蛋白质的三维结构。本公开根据可获得的蛋白质链的氨基酸序列之间的互作关系,构建多个序列之间的复合结构模板进行蛋白质三维结构的建模,可以增加蛋白质模型的准确性,提高了建模效果。提高了建模效果。提高了建模效果。

【技术实现步骤摘要】
蛋白质三维结构建模方法及装置、电子设备和存储介质


[0001]本公开涉及建模
,尤其涉及一种蛋白质三维结构建模方法及装置、电子设备和存储介质。

技术介绍

[0002]冷冻电子显微镜技术(Cryo

EM)经历了长期的技术积淀和发展。近几年来,直接电子探测器硬件方面经过多次技术升级后,能够高速地采集到高量子检出效率(Detective Quantum Efficiency,DQE)的电镜照片,再加上电镜数据处理软件算法、功能、计算速度等方面接连取得的突破性进展,使得利用冷冻电镜单颗粒三维重构技术对蛋白进行三维重构的方法突破了以往分辨率的限制。
[0003]冷冻电子显微镜技术的分辨率革命极大地提高了其在蛋白质三维结构解析的分辨率,使得电镜解析的结构已经达到了近原子分辨率的水平。冷冻电镜结构解析的最终目标是为了获得蛋白质分子的三维模型,然而,从Cryo

EM的密度图构建原子模型是一个耗时耗力的过程,这导致EMDB数据库(Electron Microscopy Data Bank”,意思是“电子显微镜数据库”)中释放的将近一半的密度图没有搭建的原子模型。虽然已经有许多方法借助深度学习技术实现了中低分辨率电镜密度图的自动化结构建模。
[0004]然而,目前,相关技术从冷冻电镜密度图进行蛋白质原子模的搭建存在不精确、建模效果差的问题。

技术实现思路

[0005]根据本公开的一方面,提供了一种蛋白质三维结构建模方法,所述方法包括:
[0006]针对目标蛋白质的各个目标氨基酸序列,在第一蛋白质数据库中获取氨基酸序列相似度高于第一预设相似度的相似氨基酸序列对应的蛋白质链信息,其中,各个氨基酸序列均对应多个蛋白质链信息,所述蛋白质链信息包括蛋白质链的标识信息及氨基酸序列信息;
[0007]获取各个目标氨基酸序列的三维结构,将各个目标氨基酸序列的三维结构分别叠加到各个蛋白质链信息中相似氨基酸序列的对应位置,得到多个第一复合体结构;
[0008]利用所述目标蛋白质对应的冷冻电子显微镜电子密度图及至少一个第一复合体结构得到所述目标蛋白质的三维结构。
[0009]在一种可能的实施方式中,利用所述目标蛋白质对应的冷冻电子显微镜电子密度图及至少一个第一复合体结构得到所述目标蛋白质的三维结构,包括:
[0010]将所述目标蛋白质对应的冷冻电子显微镜电子密度图及至少一个第一复合体结构叠加,得到所述目标蛋白质的三维结构;或
[0011]根据至少一个第一复合体结构得到第二复合体结构,将所述目标蛋白质对应的冷冻电子显微镜电子密度图及所述第二复合体结构叠加,得到所述目标蛋白质的三维结构。
[0012]在一种可能的实施方式中,所述根据至少一个第一复合体结构得到第二复合体结
构,包括:
[0013]确定至少一个第一复合体结构组,其中,所述第一复合体结构组中的各个第一复合体结构均包括至少一个相同的氨基酸序列;
[0014]将所述第一复合体结构组中的各个第一复合体结构的相同氨基酸序列的三维结构进行叠加,得到至少一个第二复合体结构;或
[0015]将所述第一复合体结构组中的各个第一复合体结构的相同氨基酸序列的三维结构进行叠加,得到至少一个中间复合体结构,并依次对各个中间复合体结构中具有相同氨基酸序列的中间复合体结构进行叠加,直到所有的中间复合体结构合并为所述第二复合体结构、或、所述第二复合体结构及不包括相同氨基酸序列的至少一个冗余复合体结构。
[0016]在一种可能的实施方式中,所述根据至少一个第一复合体结构得到第二复合体结构,包括:
[0017]确定第一基准复合体结构,其中,所述第一基准复合体结构为所述多个第一复合体结构中包括的目标氨基酸序列数目最多的第一复合体结构;
[0018]确定多个第二基准复合体结构,其中,各个第二基准复合体结构均包括至少一个与所述第一基准复合体结构相同的目标氨基酸序列、且包括至少一个所述第一基准复合体结构不具有的目标氨基酸序列;
[0019]依次将各个第二基准复合体结构与所述第一基准复合体结构的目标氨基酸序列叠加,得到所述第二复合体结构。
[0020]在一种可能的实施方式中,所述获取各个目标氨基酸序列的三维结构,包括:
[0021]在第二蛋白质数据库中搜索与所述目标氨基酸序列相似度达到第二预设相似度的同源氨基酸序列,并在所述第二蛋白质数据库中获取该同源氨基酸序列的三维结构作为所述目标氨基酸序列的三维结构;或
[0022]在所述第二蛋白质数据库中不存在所述同源氨基酸序列的情况下,将所述目标氨基酸序列输入到训练好的蛋白质结构预测模型,获取所述目标氨基酸序列的三维结构。
[0023]在一种可能的实施方式中,所述第二预设相似度高于所述第一预设相似度。
[0024]在一种可能的实施方式中,所述第二预设相似度为100%,所述第一预设相似度为50%。
[0025]在一种可能的实施方式中,所述第一蛋白质数据库为蛋白质结构数据库即PDB数据库,所述第二蛋白质数据库为PDB数据库或AlphaFold数据库。
[0026]根据本公开的一方面,提供了一种蛋白质三维结构建模装置,所述装置包括:
[0027]第一获取模块,用于针对目标蛋白质的各个目标氨基酸序列,在第一蛋白质数据库中获取氨基酸序列相似度高于第一预设相似度的相似氨基酸序列对应的蛋白质链信息,其中,各个氨基酸序列均对应多个蛋白质链信息,所述蛋白质链信息包括蛋白质链的标识信息及氨基酸序列信息;
[0028]叠加模块,用于获取各个目标氨基酸序列的三维结构,将各个目标氨基酸序列的三维结构分别叠加到各个蛋白质链信息中相似氨基酸序列的对应位置,得到多个第一复合体结构;
[0029]建模模块,用于利用所述目标蛋白质对应的冷冻电子显微镜电子密度图及至少一个第一复合体结构得到所述目标蛋白质的三维结构。
[0030]根据本公开的一方面,提供了一种电子设备,包括:处理器;用于存储处理器可执行指令的存储器;其中,所述处理器被配置为调用所述存储器存储的指令,以执行上述方法。
[0031]根据本公开的一方面,提供了一种计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令被处理器执行时实现上述方法。
[0032]本公开实施例的各个方面,针对目标蛋白质的各个目标氨基酸序列,在第一蛋白质数据库中获取氨基酸序列相似度高于第一预设相似度的相似氨基酸序列对应的蛋白质链信息,其中,各个氨基酸序列均对应多个蛋白质链信息,所述蛋白质链信息包括蛋白质链的标识信息及氨基酸序列信息;获取各个目标氨基酸序列的三维结构,将各个目标氨基酸序列的三维结构分别叠加到各个蛋白质链信息中相似氨基酸序列的对应位置,得到多个第一复合体结构;利用所述目标蛋白质对应的冷冻电子显微镜电子密度图及至少一个第一复合体结构得到所述目标蛋白质的三维结构,本公开根据可获得的蛋白质链的氨基酸序列之间的互作关系,构建多个本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种蛋白质三维结构建模方法,其特征在于,所述方法包括:针对目标蛋白质的各个目标氨基酸序列,在第一蛋白质数据库中获取氨基酸序列相似度高于第一预设相似度的相似氨基酸序列对应的蛋白质链信息,其中,各个氨基酸序列均对应多个蛋白质链信息,所述蛋白质链信息包括蛋白质链的标识信息及氨基酸序列信息;获取各个目标氨基酸序列的三维结构,将各个目标氨基酸序列的三维结构分别叠加到各个蛋白质链信息中相似氨基酸序列的对应位置,得到多个第一复合体结构;利用所述目标蛋白质对应的冷冻电子显微镜电子密度图及至少一个第一复合体结构得到所述目标蛋白质的三维结构。2.根据权利要求1所述的方法,其特征在于,利用所述目标蛋白质对应的冷冻电子显微镜电子密度图及至少一个第一复合体结构得到所述目标蛋白质的三维结构,包括:将所述目标蛋白质对应的冷冻电子显微镜电子密度图及至少一个第一复合体结构叠加,得到所述目标蛋白质的三维结构;或根据至少一个第一复合体结构得到第二复合体结构,将所述目标蛋白质对应的冷冻电子显微镜电子密度图及所述第二复合体结构叠加,得到所述目标蛋白质的三维结构。3.根据权利要求2所述的方法,其特征在于,所述根据至少一个第一复合体结构得到第二复合体结构,包括:确定至少一个第一复合体结构组,其中,所述第一复合体结构组中的各个第一复合体结构均包括至少一个相同的氨基酸序列;将所述第一复合体结构组中的各个第一复合体结构的相同氨基酸序列的三维结构进行叠加,得到至少一个第二复合体结构;或将所述第一复合体结构组中的各个第一复合体结构的相同氨基酸序列的三维结构进行叠加,得到至少一个中间复合体结构,并依次对各个中间复合体结构中具有相同氨基酸序列的中间复合体结构进行叠加,直到所有的中间复合体结构合并为所述第二复合体结构、或、所述第二复合体结构及不包括相同氨基酸序列的至少一个冗余复合体结构。4.根据权利要求2所述的方法,其特征在于,所述根据至少一个第一复合体结构得到第二复合体结构,包括:确定第一基准复合体结构,其中,所述第一基准复合体结构为所述多个第一复合体结构中包括的目标氨基酸序列数目最多的第一复合体结构;确定多个第二基准复合体结构,其中,各个第二基准复合体结构均包括至少一个与所述第一基准...

【专利技术属性】
技术研发人员:李盼刘海宾郭良越刘丙华贺俊宏郭春龙
申请(专利权)人:水木未来北京科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1