一种高通量基于计算预测弹性蛋白质的方法技术

技术编号:38154643 阅读:33 留言:0更新日期:2023-07-13 09:22
本发明专利技术公开了一种高通量基于计算预测弹性蛋白质的方法,包括获取弹性蛋白质基准数据集以及非弹性蛋白质基准数据集,并将该弹性蛋白质基准数据集以及该非弹性蛋白质基准数据集中的一部分数据作为训练集,利用训练集计算获取富集motif集合;渐次输入富集motif集合中的每一个富集motif对未知的蛋白质序列进行扫描,根据扫描结果判断该未知的蛋白质序列构成潜在的未知弹性蛋白质的概率。本发明专利技术涉及的弹性蛋白质预测方法相较于随机预测弹性蛋白质的方法准确性具有巨大的提高,具有较好的泛化性能,对于定性研究弹性蛋白质和生物学家们的后续研究,提供了丰富的实验数据和理论指导意义。义。义。

【技术实现步骤摘要】
一种高通量基于计算预测弹性蛋白质的方法


[0001]本专利技术涉及弹性蛋白质的识别
,具体为一种高通量基于计算预测弹性蛋白质的方法。

技术介绍

[0002]蛋白质是维持生物机体细胞和组织进行各项生理活动的基本元素。弹性蛋白质是广泛存在于生物体内结缔组织中的一种具有弹性的重要蛋白质。弹性蛋白质在人体中主要分布在肺部、韧带、主动脉、皮肤和软骨中。弹性蛋白质是构成弹性纤维的主要成分,其能够维持韧带、皮肤组织和脉管壁的良好弹性和扩张能力,能够在所处的组织器官发生拉伸或收缩之后,恢复原先的形状。除此之外,弹性蛋白质也是脊椎动物的重要承重组织。弹性蛋白质是生物体生皮组织中弹性纤维的主要成分,在维持皮肤弹性方面具有举足轻重的作用。弹性蛋白质相互之间还可以发生交互连接,形成富于弹性的网状结构,它们通过共价键形成的交联网络可通过构型的变化产生弹性。随着生物体自身的生长,弹性蛋白质的生产逐渐减慢,皮肤中弹性纤维的降解越来越明显,并会导致皮肤组织出现老化、松弛和褶皱,从而失去弹性。
[0003]由于弹性蛋白质在生物体内具有重要的作用,生物学家们在实验室本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种高通量基于计算预测弹性蛋白质的方法,其特征在于,包括以下步骤:获取弹性蛋白质基准数据集D
E
以及非弹性蛋白质基准数据集D
nE
;随机生成多条长度在4~15范围内的短肽片段;分别计算每条所述短肽片段在弹性蛋白质基准数据集D
E
上出现的频率相对于在非弹性蛋白质基准数据集D
nE
上出现的频率的比率Ratio
f(i)
;当所述短肽片段在弹性蛋白质基准数据集D
E
上出现的频率相对于在非弹性蛋白质基准数据集D
nE
上出现的频率的比率Ratio
f(i)
≥2时,则该短肽片段为富集短肽片段;计算所述富集短肽片段的信息增益率当所述富集短肽片段的信息增益率则该富集短肽片段为富集motif,并将其放入到富集motif集合中;渐次输入富集motif集合中的每一个富集motif对未知的蛋白质序列进行扫描,根据扫描结果判断该未知的蛋白质序列构成潜在的未知弹性蛋白质的概率;当该未知蛋白质序列所包含的富集motif越多,其构成潜在的未知弹性蛋白质的概率越高。2.根据权利要求1所述的一种高通量基于计算预测弹性蛋白质的方法,其特征在于:所述获取弹性蛋白质基准数据集D
E
包括以下步骤:在Uniprot数据库中搜索获取多条弹性蛋白质;将搜索到的多条所述弹性蛋白质使用blastclust程序以30%的相似度阈值进行聚类形成多个类别,在每一个类别中任意选择一条弹性蛋白质作为代表性弹性蛋白质,多个所述代表性弹性蛋白质构成弹性蛋白质基准数据集D
E
;所述获取非弹性蛋白质基准数据集包括以下步骤:在Uniprot数据库中搜索获取多条非弹性蛋白质;将搜索到的多条所述非弹性蛋白质使用blastclust程序以30%的相似度阈值进行聚类形成多个类别,在每一个类别中任意选择一条非弹性蛋白质作为代表性非弹性蛋白质,多个所述代表性非弹性蛋白质构成非弹性蛋白质基准数据集D
nE
;所述弹性蛋白质基准数据集D
E
中弹性蛋白质的数量与非弹性蛋白质基准数据集D
nE
中的非弹性蛋白质的数量相同。3.根据权利要求2所述的一种高通量基于计算预测弹性蛋白质的方法,其特征在于:所述短肽片段在弹性蛋白质基准数据集D
E
上出现的频率相对于在非弹性蛋白质基准数据集D
nE
上出现的频率的比率Ratio
f(i)
的计算公式为:其中为所述短肽片段在弹性蛋白质基准数据集D
E
上出现的频率,计算公式为:其中O(elastin)
i
表示所述短肽片段在弹性蛋白质基准数据集D
E
中出现的次数;Num(elastin)表示弹性蛋白质基准数据集D
E
中的弹性蛋白质的总数目;
为所述短肽片段在非弹性蛋白质基准数据集D
nE
上出现的频率,计算公式为:其中O(non

elastin)
i
表示所述短肽片段在非弹性蛋白质基准数据集D
nE
中出现的次数;Num(non

elastin)表示非弹性蛋白质基准数据集D
nE
中的非弹性蛋白质的总数目。4.根据权利要求3所述的一种高通量基于计算预测弹性蛋白质的方法,其特征在于:计算所述富集短肽片段在训练集上的信息增益率包括以下步骤:计算弹性蛋白质基准数据集D
E
的信息熵计算公式为:其中表示弹性蛋白质基准数据集D
E
中的第t条弹性蛋白质序列,其中t∈{1,2,3,

};表示第t条弹性蛋白质序列在弹性蛋白质基准数据集D
E
上出现的概率,其中t∈{1,2,3,

};计算非弹性蛋白质基准数据集D
nE
的信息熵计算公式为:其中代表非弹性蛋白质基准数据集D
nE
中的第t条非弹性蛋白质序列,其中t∈{1,2,3,

};表示该蛋白质序列在非弹性...

【专利技术属性】
技术研发人员:张健谢晓赵鹏
申请(专利权)人:信阳师范学院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1