一种蛋白质相似度及相似蛋白质的确定方法和系统技术方案

技术编号:21955336 阅读:26 留言:0更新日期:2019-08-24 19:10
本发明专利技术提供一种蛋白质相似度及相似蛋白质的确定方法和系统,蛋白相似度的确定方法包括如下步骤:计算两种蛋白质的空间结构相似度、总原子数量相似度、氨基酸数目相似度、氨基酸种类相似度、碳原子数量相似度、氮原子数量相似度、氧原子数量相似度、磷元素位置相似度、硫元素位置相似度,并根据这些相似度计算两种蛋白质的总体相似度;根据两种蛋白质在设定仰角下α‑碳原子路径计算两种蛋白质的α‑碳原子路径相似度;根据两种蛋白质的总体相似度和α‑碳原子路径相似度计算出两种蛋白质的相似度。本发明专利技术所提供的技术方案,能够减少计算的复杂程度,解决成本较高的问题。

A Method and System for Determining Protein Similarity and Similar Protein

【技术实现步骤摘要】
一种蛋白质相似度及相似蛋白质的确定方法和系统
本专利技术属于蛋白质相似度确定
,具体涉及一种蛋白质相似度及相似蛋白质的确定方法和系统。
技术介绍
癌症的发生和发展是一个多因素、多阶段、多步骤的过程,在该过程中大量的分子参与其中并组成了复杂的调控网络,找出其中的关键分子并确定癌症高危预警、早期诊断和有效治疗的生物标志物,是癌症研究的热点之一。其中用生物信息学方法研究新型基因是生物医学领域的重要研究方向。在采用生物信息学方法研究新型基因时,蛋白质相似度研究是其中重要的研究课题。现阶段的蛋白质相似度确定方法主要有:基于骨架的蛋白质三维模型相似度分析方法、扇形划分模型基础上的基于方差和均值统计描述的蛋白质结构相似度比较方法、使用混沌游走方法比较蛋白质的相似度的方法、对Ca骨架进行同密度划分和同心球划分并提取VPT特征分别判定相似度的方法。在蛋白质分子中,大多数是由两个或多个相对独立的结构域组合折叠成在空间上可以区分的三维结构。在蛋白质分子内,结构域可以作为结构单位进行相对独立的运动,水解出来仍能维持其稳定的构象,甚至保留某些生物活性。现有的蛋白质相似度确定方法,需要通过如X射线晶体学方法、多维核磁共振方法等方法测定蛋白质水解后的构象,然后再计算蛋白质之间的相似度。但是目前确定蛋白质结构的方法仍然非常复杂,并且成本较高,造成确定蛋白质相似度时存在计算复杂、成本较高的问题。
技术实现思路
本专利技术的目的是提供一种蛋白质相似度的确定方法和系统,用于解决现有技术中确定蛋白质相似度时由于需要获取蛋白质结构而存在计算复杂、成本较高的问题;同时,本专利技术的目的还在于提供一种相似蛋白质的确定方法和系统,用于解决现有技术中确定相似蛋白质时存在的计算复杂、成本较高的问题。为解决上述技术问题,本专利技术所提供的技术方案是:一种蛋白相似度的确定方法,该确定方法包括如下步骤:(1)计算两种蛋白质的空间结构相似度、总原子数量相似度、氨基酸数目相似度、氨基酸种类相似度、碳原子数量相似度、氮原子数量相似度、氧原子数量相似度、磷元素位置相似度、硫元素位置相似度;(2)根据两种蛋白质的空间结构相似度、总原子数量相似度、氨基酸数目相似度、氨基酸种类相似度、碳原子数量相似度、氮原子数量相似度、氧原子数量相似度、磷元素位置相似度、硫元素位置相似度计算两种蛋白质的总体相似度;(3)根据两种蛋白质在设定仰角下α-碳原子路径计算两种蛋白质的α-碳原子路径相似度;(4)根据两种蛋白质的总体相似度和α-碳原子路径相似度计算出两种蛋白质的相似度。本专利技术所提供的技术方案,根据两种蛋白质的空间结构相似度、总原子数量相似度、氨基酸数目相似度、氨基酸种类相似度、碳原子数量相似度、氮原子数量相似度、氧原子数量相似度、磷元素位置相似度、硫元素位置相似度和α-碳原子路径相似度确定两种蛋白质之间的相似度,由于确定过程中不需要通过实验方法确定蛋白质的结构,所以能够减少计算的复杂程度,解决成本较高的问题。一种相似蛋白质的确定方法,该确定方法包括如下步骤:(1)筛选出与目的蛋白质具有相同功能和相同结构域的蛋白质作为参考蛋白质;(2)利用上述的蛋白质相似度确定方法计算各参考蛋白质和目的蛋白质之间的相似度;(3)将与目的蛋白质相似度最大的参考蛋白质作为目的蛋白质的相似蛋白质。本专利技术所提供的技术方案,由于确定相似蛋白的过程中不需要通过实验方法确定蛋白质的结构,所以能够减少计算的复杂程度,解决成本较高的问题。一种蛋白质相似度的确定系统,包括存储器和处理器,所述存储器上存储有用于在所述处理器上执行的计算机程序;所述处理器执行所述存储器上存储的计算机程序时,实现如上述的蛋白质相似度的确定方法。一种相似蛋白质的确定系统,包括存储器和处理器,所述存储器上存储有用于在所述处理器上执行的计算机程序;所述处理器执行所述存储器上存储的计算机程序时,实现如上述的相似蛋白质的确定方法。进一步的,为了保证得到蛋白质的α-碳原子路径相似度准确度更高,所述设定仰角包括15度、30度、45度、60度和90度。进一步的,为了得到准确的总体相似度,计算两种蛋白质的总体相似度时,首先采用线性回归模型或BP人工神经网络确定各参数的权重,然后根据各参数和各参数的权重计算两种蛋白质的总体相似度。进一步的,为了得到的两种蛋白质的空间结构相似度更加准确,计算两种蛋白质的空间结构相似度时,首先计算出蛋白质中各原子之间的距离,然后根据各原子之间的距离对其进行分层,并计算两种蛋白质各层的相似度,最后根据两种蛋白质各层的相似度计算出其空间结构相似度。进一步的,首先根据各层原子数目确定相应层的权重,然后根据各层的相似度和权重计算出两种蛋白质的空间结构相似度。进一步的,为了得到更准确的蛋白质相似度,设两种蛋白质的相似度为S,总体相似度为S总,α-碳原子路径相似度为S总,则S=bS总+cS总其中b为总体相似度的权重,c为α-碳原子路径相似度的权重。附图说明图1是本专利技术方法实施例1中蛋白相似度确定方法的流程图;图2是本专利技术方法实施例2中蛋白质信息的示意图;图3是本专利技术方法实施例2中蛋白质的三维图;图4是本专利技术方法实施例2中蛋白质α-碳原子路径的示意图。具体实施方式下面结合具体实施方式对本专利技术的技术方案做详细说明。方法实施例1:本实施例提供一种蛋白相似度确定方法,通过蛋白质空间结构相似度、总原子个数相似度、氨基酸数目相似度、氨基酸种类相似度、碳原子个数相似度、氮原子个数相似度、氧原子个数相似度、P位置相似度、S位置相似度和不同仰角下α-碳原子的路径确定蛋白质的相似度,从而提高对蛋白质相似度计算结果的准确性。本实施例所提供的蛋白质相似度确定方法流程如图1所示,包括如下步骤:(1)建立坐标系,计算两种蛋白质中各原子与原点之间的马氏距离,并根据计算出的马氏距离对蛋白质进行分层。将马氏坐标统一为以蛋白质几何中心为原点的空间坐标,那么蛋白质中第i个原子的坐标可以用一个三维向量来表示,即(xi,yi,zi)T(i=1,2,3.......,m),H代表三维空间中原子总体的样本空间,构成维数为3,原子数为m,实际上得到的是3×m的矩阵。均值向量为:其中j在(1,2,3)中取值。设C为H的协方差矩阵,则各原子与原点之间的马氏距离为:计算各原子与原点的马氏距离后,根据各原子与原点之间的马氏距离将蛋白质划分为厚薄均匀的层,然后统计两种蛋白质各层的原子数量。本实施例中将蛋白质分为10层,即将蛋白分子划分为均匀的10个球壳。经分析发现,蛋白质中原子距中心的距离大部分在0~80范围内,小部分在80~100范围,极少数会在100以外,因此本实施例中各层原子与原点之间马氏距离的范围为:第一层:0~10;第二层:10~20;第三层:20~30;第四层:30~40;第五层:40~50;第六层:50~60;第七层:60~70;第八层:70~80;第九层:80~100;第十层:100以外。作为其他实施方式,蛋白质所分的层数根据需求确定,一般在10到20之间取值。(2)计算两种蛋白质的空间结构相似度、总原子个数相似度、氨基酸数目和种类相似度、碳原子个数相似度、氮原子个数相似度、氧原子个数相似度、P位置相似度和S位置相似度。两种蛋白质空间结构相似度的计算方法:设第一种蛋白质第i层的原子数目本文档来自技高网...

【技术保护点】
1.一种蛋白相似度的确定方法,其特征在于,该确定方法包括如下步骤:(1)计算两种蛋白质的空间结构相似度、总原子数量相似度、氨基酸数目相似度、氨基酸种类相似度、碳原子数量相似度、氮原子数量相似度、氧原子数量相似度、磷元素位置相似度、硫元素位置相似度;(2)根据两种蛋白质的空间结构相似度、总原子数量相似度、氨基酸数目相似度、氨基酸种类相似度、碳原子数量相似度、氮原子数量相似度、氧原子数量相似度、磷元素位置相似度、硫元素位置相似度计算两种蛋白质的总体相似度;(3)根据两种蛋白质在设定仰角下α‑碳原子路径计算两种蛋白质的α‑碳原子路径相似度;(4)根据两种蛋白质的总体相似度和α‑碳原子路径相似度计算出两种蛋白质的相似度。

【技术特征摘要】
1.一种蛋白相似度的确定方法,其特征在于,该确定方法包括如下步骤:(1)计算两种蛋白质的空间结构相似度、总原子数量相似度、氨基酸数目相似度、氨基酸种类相似度、碳原子数量相似度、氮原子数量相似度、氧原子数量相似度、磷元素位置相似度、硫元素位置相似度;(2)根据两种蛋白质的空间结构相似度、总原子数量相似度、氨基酸数目相似度、氨基酸种类相似度、碳原子数量相似度、氮原子数量相似度、氧原子数量相似度、磷元素位置相似度、硫元素位置相似度计算两种蛋白质的总体相似度;(3)根据两种蛋白质在设定仰角下α-碳原子路径计算两种蛋白质的α-碳原子路径相似度;(4)根据两种蛋白质的总体相似度和α-碳原子路径相似度计算出两种蛋白质的相似度。2.根据权利要求1所述的蛋白质相似度的确定方法,其特征在于,所述设定仰角包括15度、30度、45度、60度和90度。3.根据权利要求1所述的蛋白质相似度的确定方法,其特征在于,计算两种蛋白质的总体相似度时,首先采用线性回归模型或BP人工神经网络确定各参数的权重,然后根据各参数和各参数的权重计算两种蛋白质的总体相似度。4.根据权利要求1所述的蛋白质相似度的确定方法,其特征在于,计算两种蛋白质的空间结构相似度时,首先计算出蛋白质中各原子之间的距离,然后根据各原子之间的距离对其进行分层,并计算两种蛋白质各层的相似度,最后根据两种蛋白质各层...

【专利技术属性】
技术研发人员:刘春阳张建华金雯雯李颖越轩梦辉孙晓茜汪士杰
申请(专利权)人:郑州大学第一附属医院
类型:发明
国别省市:河南,41

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1