基于向量丛改进Alphafold2的蛋白质结构及功能预测方法及计算机程序产品技术

技术编号:41793987 阅读:20 留言:0更新日期:2024-06-24 20:19
本发明专利技术公开了基于向量丛改进Alphafold2的蛋白质结构及功能预测方法及计算机程序产品,属于生物信息领域,包括:选择流形空间的向量丛工具构建数学模型;数据库聚类特征提取并建立子特征数据集;获取MSA、结构、理化性质多个模板张量;转换得到三维结构以及功能数据。通过数学模型表示流形空间氨基酸信息到蛋白质的四级结构以及功能信息,有利于寻找待预测氨基酸序列的MSA同源蛋白序列、模板结构,实现对待预测氨基酸序列更加准确的匹配;同时,编码器采用四层的Multi‑attention跑四个张量的,套用多层block实现信息编码,结合提升了蛋白质结构及功能预测的准确性。

【技术实现步骤摘要】

本专利技术涉及生物信息领域,尤其涉及基于向量丛改进alphafold2的蛋白质结构及功能预测方法及计算机程序产品。


技术介绍

1、从anfinsen实验得出结论,蛋白质一级结构包含了三维结构折叠所需要的全部信息,蛋白质的一级结构决定三维结构,三维结构决定功能,相似的一级结构具有相似的功能:相似的序列→相似的结构→相似的功能。这是应用氨基酸残基序列预测蛋白质三维结构和功能的理论基础,这也是生物技术特别是计算生物学研究的核心课题和前沿。但是目前面临以下困难:首先数据库庞大,以ncbi、pdb、uniprot、interpro、dsemr、bioxfinder、pfam等蛋白库以及相关的专业数据库为代表的数据库特别庞大,数据量在tm以上,而且还有专业文献库和期刊数据库等,而且每年在快速增长。其次,目前数据库的已知蛋白质结构的数据数量不够,而且数据本身聚类不够,导致浪费庞大的计算资源。为了解决上述问题,建立了blast模型,但运用马尔科夫链的原理开发的算法不能有效解决上述问题。特别是近年来大模型兴起之后,ai算法深入应用到这个领域,出现了一些代表性的模型比如alp本文档来自技高网...

【技术保护点】

1.基于向量丛改进Alphafold2的蛋白质结构及功能预测方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的基于向量丛改进Alphafold2的蛋白质结构及功能预测方法,其特征在于,所述蛋白质数据库包括NCBI蛋白质二级结构参数库、DSSP蛋白质二级结构参数库、PDB蛋白质三维结构库、SWISS-3DIMAGE三维结构库、FSSP已知空间结构的蛋白质家族库、Pfam蛋白质家族和结构域库、SCOP蛋白质分类数据库、SWISS-PROT蛋白质序列数据库、PIR蛋白质序列数据库、PROSITE蛋白质功能位点库、SWISS-MODEL从序列模建结构库、Uniprot、int...

【技术特征摘要】

1.基于向量丛改进alphafold2的蛋白质结构及功能预测方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的基于向量丛改进alphafold2的蛋白质结构及功能预测方法,其特征在于,所述蛋白质数据库包括ncbi蛋白质二级结构参数库、dssp蛋白质二级结构参数库、pdb蛋白质三维结构库、swiss-3dimage三维结构库、fssp已知空间结构的蛋白质家族库、pfam蛋白质家族和结构域库、scop蛋白质分类数据库、swiss-prot蛋白质序列数据库、pir蛋白质序列数据库、prosite蛋白质功能位点库、swiss-model从序列模建结构库、uniprot、interpro、dsemr、bioxfinder。

3.根据权利要...

【专利技术属性】
技术研发人员:李进
申请(专利权)人:成汤碳能成都科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1