抗原表位构象指纹数据库制造技术

技术编号:16756156 阅读:36 留言:0更新日期:2017-12-09 02:24
本发明专利技术涉及一种抗原表位构象指纹数据库,属于生物信息学领域。每一条抗原表位的数据包括名称,氨基酸序列,全信息构象指纹,所述的氨基酸序列从抗原表位数据库中获取,所述的全信息构象指纹是对抗原表位的氨基酸序列的三维空间构象进行预测得到的构象谱带。该数据库包含超过25万抗原表位的构象指纹。不仅包含了抗原表位序列的一级结构和有规则的二级结构,而且涵盖了无规则的三级结构。由于采用指纹代码,可以采用相似性分数来评估抗原的表位特征,为定量地分析和比对抗原表位提供了工具。

Epitope conformation fingerprint database

The present invention relates to an antigen epitope conformation fingerprint database, which belongs to the field of bioinformatics. The data of each epitope amino acid sequence, including the name, the whole information conformation of fingerprint, amino acid sequence of the acquisition of a database table from the fingerprint antigen, full information conformation is the three-dimensional conformation of the amino acid sequence of antigenic epitope were predicted conformation bands. The database contains conformational fingerprints of more than 250 thousand epitopes. It not only contains the primary structure of the epitope sequence and the regular two - stage structure, but also covers the irregular three - stage structure. As a result of the use of fingerprint code, similarity scores can be used to assess the epitope features of the antigen, providing a tool for quantitative analysis and comparison of epitopes.

【技术实现步骤摘要】
抗原表位构象指纹数据库
本专利技术涉及一种抗原表位构象指纹数据库,属于生物信息学领域。
技术介绍
抗原(Antigen)是任何可以在人体内诱发抗体,B细胞或者T细胞免疫反应的蛋白大分子。抗原表位是被免疫系统识别的抗原关键结构片段。因此抗原表位的表征对于设计疫苗和开发药物具有重要意义。抗原的特异性是由抗原表位(Epitope)所决定的。抗原表位与相应淋巴细胞的抗原受体结合而激活淋巴细胞引起免疫应答。抗原表位是免疫应答和免疫反应具有特异性的物质基础。抗原表位是外来蛋白质结构中能被自身免疫系统所识别的多肽片段。自身免疫系统的特异性识别是基于抗原表位的各种多肽片段的三维特征和特性。由于抗原蛋白质常含有15—25个氨基酸组成的多个不连续片段的折叠构象。构象表位的精确定位极为困难。通过X射线衍射方法,实验方法或者计算机预测方法可以确定人类B细胞抗原表位。对于B细胞表位的loop区或无规卷曲区域的小肽序列,除了三维空间的图像和文字描述外,表位作图方法也可以标志表位的结合区。迄今未知,全球最具权威的抗原表位数据库(IBDE)积累了大约25万抗原表位的多肽。目前,最困难的问题是如何有效地预测抗原表位结构,以及比较抗原表位的结构特征和确定抗原表位特异性。为了解决这些问题,我们开发了蛋白质结构指纹技术(ProteinStructureFingerprint,PSFT)。在此基础上,依据全球已知的抗原表位氨基酸序列,建立了一个全新的抗原表位构象指纹数据库。
技术实现思路
本专利技术所要解决的技术问题是提供一种抗原表位构象指纹数据库。本专利技术的抗原表位构象指纹数据库,每一条抗原表位的数据包括名称,氨基酸序列,全信息构象指纹,所述的氨基酸序列从抗原表位数据库中获取,所述的全信息构象指纹是对抗原表位的氨基酸序列的三维空间构象进行预测得到的构象谱带。从数学角度来看氨基酸,通过不同的排序,5个氨基酸可以形成不同的排列。从全部20个氨基酸中任意地提取5个氨基酸将可以形成总数为3,200,000的不同排列。每一个排列的可能折叠构象可以从全球蛋白质数据库(PDB)获得,然后用蛋白折叠形状码(PFSC)表示。在此基础上,我们创建了一个数据库来收集上述三百二十万个排列的折叠构象。该全新的数据库被命名为5AAPFSC。本专利技术的数据库中的构象谱带,通过如下预测过程获得:1)从全部20个氨基酸中任意地提取5个氨基酸,形成总数为3,200,000的不同排列,每一个排列的可能折叠构象从全球蛋白质数据库(PDB)获得,然后用蛋白折叠形状码表示;创建了一个数据库来收集上述排列及其对应的蛋白折叠形状码,该数据库被命名为5AAPFSC;2)对于抗原表位的蛋白质,沿着氨基酸序列,从N-端开始,逐步移动向C-端,依次读取每5个连续的氨基酸,其可能具有的折叠构象从5AAPFSC数据库直接获得,用蛋白折叠形状码的字符表示;在蛋白质数据库(PDB)中出现频率最高的折叠构象对应的蛋白折叠形状码排在第一位,出现频率第二高的折叠形状码排在第二位,从上到下依次形成一列,直至收集完全为止,每5个连续的氨基酸具有不同数目的折叠构象可能;3)抗原表位的全部可能的折叠形状码形成一个阵列,称为蛋白折叠构象谱带,代表了抗原表位全部可能的折叠构象;对于每一个位点,通过其全部可能的折叠形状码的相互替代,可以准确地得到所有可能的构象;可能构象的总数目是全部每5个氨基酸可能折叠构象数目的连续乘积。对于任何一个抗原表位,尽管全部可能的空间构象的数目是巨大的,但可能性高的空间构象通过出现频率高的局域折叠构象获得。举例来说,可能性高的第一个空间构象是由每个位点出现频率最高的折叠构形状码构成;第二个空间构象是由每个位点出现频率第二高的折叠形状码构成,在没有第二高频率构象的位置,以频率最高的的折叠形状码作为补充构成;第三个空间构象是由每个位点出现频率第三高的折叠形状码组成,在没有第三高频率构象的位置,以频率最高的的折叠形状码作为补充构成;如此类推,形成可能性较高的一系列可能的预测构象。本专利技术的抗原表位空间构象的全信息预测方法是建立在专利技术人之前专利ZL200880003164.2公开的蛋白质折叠形状码(ProteinFoldingShapeCode,PFSC)基础上开发的。通过严格推导得到的蛋白质折叠形状码(PFSC)能够完好地描述连续的5个氨基酸片段的折叠形状。5个氨基酸片段在蛋白质中的任意折叠形状可以通过27PFSC向量来描述,全部27PFSC向量采用了26个英文字母加上$符号来表达。更重要的是,全部27个PFSC向量涵盖了一个完整的数学空间。而且,全部27个PFSC向量的折叠形状是高度密切相关联的。每个PFSC向量都可以从一个向量过渡转换为另一个向量。本专利技术创建了抗原表位构象指纹数据库,该数据库包含超过25万抗原表位的构象指纹。为抗原表位构象提供了完整描述,指纹不仅包含了抗原表位序列的一级结构和有规则的二级结构,而且涵盖了无规则的三级结构。通过本专利技术,可对未知三维空间结构的抗原表位提供蛋白构象指纹全信息预测。并且由于采用指纹代码,可以采用相似性分数来评估抗原的表位特征,为定量地分析和比对抗原表位提供了工具。附图说明图1,一条抗原表位的数据结构示意图。具体实施方式本专利技术的抗原表位构象指纹数据库,每一条抗原表位的数据包括名称,氨基酸序列,全信息构象指纹,所述的氨基酸序列从抗原表位数据库中获取,所述的全信息构象指纹是对抗原表位的氨基酸序列的三维空间构象进行预测得到的构象谱带。本专利技术的数据库中的构象谱带,通过如下预测过程获得:1)从全部20个氨基酸中任意地提取5个氨基酸,形成总数为3,200,000的不同排列,每一个排列的可能折叠构象从全球蛋白质数据库(PDB)获得,然后用蛋白折叠形状码表示;创建了一个数据库来收集上述排列及其对应的蛋白折叠形状码,该数据库被命名为5AAPFSC;2)对于抗原表位的蛋白质,沿着氨基酸序列,从N-端开始,逐步移动向C-端,依次读取每5个连续的氨基酸,其可能具有的折叠构象从5AAPFSC数据库直接获得,用蛋白折叠形状码的字符表示;在蛋白质数据库(PDB)中出现频率最高的折叠构象对应的蛋白折叠形状码排在第一位,出现频率第二高的折叠形状码排在第二位,从上到下依次形成一列,直至收集完全为止,每5个连续的氨基酸具有不同数目的折叠构象可能;3)抗原表位的全部可能的折叠形状码形成一个阵列,称为蛋白折叠构象谱带,代表了抗原表位全部可能的折叠构象;对于每一个位点,通过其全部可能的折叠形状码的相互替代,可以准确地得到所有可能的构象;可能构象的总数目是全部每5个氨基酸可能折叠构象数目的连续乘积。每一条抗原表位的数据保存为XML的文件格式,内容将包括名称,氨基酸序列,全信息构象指纹。全信息构象指纹是对抗原表位的氨基酸序列的三维空间构象进行预测得到的构象谱带。如图1所示,第一行是抗原表位名称,第二行是氨基酸序列,下面的<1>~<7>是对抗原表位的氨基酸序列的三维空间构象进行预测得到的构象谱带。其中<1>是每个位点出现概率最高的折叠构象对应的折叠构象码。其中<2>是每个位点出现概率第二高的折叠构象对应的折叠构象码。出现概率的高低,从全球蛋白质数据库(PDB)统计得本文档来自技高网...
抗原表位构象指纹数据库

【技术保护点】
一种抗原表位构象指纹数据库,每一条抗原表位的数据包括名称,氨基酸序列,全信息构象指纹,所述的氨基酸序列从抗原表位数据库中获取,所述的全信息构象指纹是对抗原表位的氨基酸序列的三维空间构象进行预测得到的构象谱带;所述构象谱带,通过如下预测过程获得:1)从全部20个氨基酸中任意地提取5个氨基酸,形成总数为3,200,000的不同排列,每一个排列的可能折叠构象从全球蛋白质数据库获得,然后用蛋白折叠形状码表示;创建了一个数据库来收集上述排列及其对应的蛋白折叠形状码,该数据库被命名为5AAPFSC;2)对于抗原表位的蛋白质,沿着氨基酸序列,从N‑端开始,逐步移动向C‑端,依次读取每5个连续的氨基酸,其可能具有的折叠构象从5AAPFSC数据库直接获得,用蛋白折叠形状码的字符表示;在蛋白质数据库中出现频率最高的折叠构象对应的蛋白折叠形状码排在第一位,出现频率第二高的折叠形状码排在第二位,从上到下依次形成一列,直至收集完全为止,每5个连续的氨基酸具有不同数目的折叠构象可能;3)抗原表位的全部可能的折叠形状码形成一个阵列,称为蛋白折叠构象谱带,代表了抗原表位全部可能的折叠构象;对于每一个位点,通过其全部可能的折叠形状码的相互替代,可以准确地得到所有可能的构象;可能构象的总数目是全部每5个氨基酸可能折叠构象数目的连续乘积。...

【技术特征摘要】
1.一种抗原表位构象指纹数据库,每一条抗原表位的数据包括名称,氨基酸序列,全信息构象指纹,所述的氨基酸序列从抗原表位数据库中获取,所述的全信息构象指纹是对抗原表位的氨基酸序列的三维空间构象进行预测得到的构象谱带;所述构象谱带,通过如下预测过程获得:1)从全部20个氨基酸中任意地提取5个氨基酸,形成总数为3,200,000的不同排列,每一个排列的可能折叠构象从全球蛋白质数据库获得,然后用蛋白折叠形状码表示;创建了一个数据库来收集上述排列及其对应的蛋白折叠形状码,该数据库被命名为5AAPFSC;2)对于抗原表位的蛋白质,沿着氨基酸序列,从N-端开始,逐步移动向C-端,依次读取每5个连续的氨基酸,其可能具有的折叠构象从5AAPFSC数据库直接获得,用蛋白折叠形状码的字符表示;在蛋白质数据库中出现频率最高的折叠构象对应的蛋白折叠形状码排在第一位,出现频率第二高的折叠形状码排在第二位,从上到下依次形成一列,直至收集完全为止,每5个连续的氨基酸具有不同数目的折叠构象可能;3)抗原表位的全部可能的折叠形状码形成一个阵列,称为蛋白折叠构象谱带,代表了抗原表位全部可能的折叠构象;对于每一个位点,通过其全部可能的折叠形状码的相互替代,可以准确地得到所有可能的构象;可能构象的总数目是全部每5个氨基酸可能折叠构象数目的连续乘积。2.根据权利要求1所述的抗原表位构象指纹数据库,...

【专利技术属性】
技术研发人员:杨家安
申请(专利权)人:南京迈格罗医药科技有限公司
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1