考虑统计偏好和随机分组特征选择策略的蛋白质制造技术

技术编号:39664134 阅读:7 留言:0更新日期:2023-12-11 18:27
考虑统计偏好和随机分组特征选择策略的蛋白质

【技术实现步骤摘要】
考虑统计偏好和随机分组特征选择策略的蛋白质

DNA相互作用热点预测方法


[0001]本专利技术属于蛋白质

DNA
相互作用与识别预测
,具体涉及一种考虑统计偏好和随机分组特征选择策略的蛋白质

DNA
相互作用热点预测方法


技术介绍

[0002]蛋白质

DNA
相互作用在细胞生命过程中起着关键作用,如基因的表达调控
、DNA
修复和病毒组装等
[1],其相互作用异常与多种疾病的发生及恶化密切相关,如白血病和癌症等
[2

4]。
在蛋白质

DNA
相互作用界面上,只有一小部分残基对其结合自由能有大的贡献
(≥2.0kcal/mol)
,这些残基通常被定义为热点残基
(hot spots)
[5]。
热点残基可通过丙氨酸扫描突变法测量残基突变引起的结合自由能变化
(
ΔΔ
G)
来确定
[6],但该方法非常耗时费力

因此,亟待发展有效的理论方法来预测蛋白质

DNA
相互作用热点

[0003]目前,用于识别蛋白质

DNA
相互作用热点的算法还比较少,有限可得的实验数据使得蛋白质

DNA
相互作用热点预测远落后于蛋白质<br/>‑
蛋白质相互作用热点的预测
。2019
年,
Zhang
等人提出了
PrPDH
方法,该方法基于选定的
10
个最优特征,利用支持向量机
(Support Vector Machine,SVM)
预测蛋白质

DNA
相互作用热点,其马修斯相关系数
(Matthews Correlation Coefficient

MCC)

0.511
[7]。2020
年,
Pan
等人提出了
PreHots
方法,该方法采用顺序后向特征选择算法选出了
19
个最优特征来训练集成分类器,其
MCC

0.576
[5]。
除上述分类模型外,回归模型在给定一个
ΔΔ
G
阈值时也可用于热点预测
。2017
年,
Pitres
等人提出了
mCSM

NA
方法,该方法使用基于图的结构特征来预测
ΔΔ
G
[8]。2018
年,
Zhang
等人开发了
PremPDI
方法,该方法基于能量最小化和侧链优化算法来预测残基突变对蛋白质

DNA
相互作用的影响
[9]。2021
年,
Pan
等人推出了
SAMPDI
[10]的最新版本,即
SAMPDI

3D
[11],它使用机器学习模型来预测蛋白质或
DNA
中单点突变引起的结合自由能变化
ΔΔ
G。
[0004]毫无疑问,特征的选取对机器学习模型的性能是至关重要的

除目前方法在预测中常考虑的一些传统的序列和结构特征外,我们认为,还有其他新特征可被引入来提高模型的预测能力,包括残基界面偏好性

动力学特征

共进化信息和加权网络特征

对于残基界面偏好性,研究表明它在很多预测,包括蛋白质

配体分子对接

蛋白质折叠和功能预测中有重要贡献,这很大程度上是因为残基界面偏好性综合考虑了各种物理相互作用
[12

14]。
根据玻尔兹曼分布原理,我们组发展了考虑二级结构信息的氨基酸

核苷酸成对偏好势,并将其成功用于蛋白质上与
DNA/RNA
结合位点的预测
[15

17]。
说到动力学特征,它与蛋白质功能,包括配体结合

变构和催化功能的发挥密切相关

以往的包括我们组的研究表明,低频运动模式代表与蛋白质功能有关的大规模集体运动
,
其下最受约束的残基常常位于铰链区或参与底物结合和催化作用的区域
[12,18,19];而高频模式则反映了蛋白质结构的几何不规则性,其下的高涨落残基常常对蛋白质的稳定起重要作用
[18,20]。
利用动力学特征,我们组开发了预测蛋白质上与
RNA
结合的残基
[15]。
关于序列进化特征,人们常常利用残基进化保守性来推断蛋白质功能位点

此外,残基共进化还提供了残基

残基相互作用的信息

一般
来说,强共进化残基对蛋白质结构稳定和功能发挥至关重要
[21],这一信息已被用于蛋白质结构预测
[22]及其相互作用预测中
[23,24]。
最后,网络特征可以很好地反映残基在结构中的中心性位置,节点加权的网络特征能更好地体现残基的差异性

基于以上分析,我们认为引入以上四种新特征:残基界面偏好性

动力学特征

共进化信息和加权网络特征将对蛋白质

DNA
相互作用热点预测产生积极作用

[0005]获得一组最优特征组合来训练模型,对于构建性能良好的模型至关重要

目前,人们提出了一些特征选择方法来寻找最优的特征组合,这些方法包括:顺序前向选择
(Sequential Forward Selection

SFS)、
递归特征消除
(Recursive Feature Elimination

RFE)、
决策树
(Decision Tree

DT)、
随机森林
(Random Forest

RF)、Boruta
和最大相关最小冗余
(Max

Relevance Min

Redundancy

MRMR)


最近,我们组提出了一种新的随机分组特征选择策略来获取最优特征组合,取得了好的效果
[17]。
其思想主要是,通过对训练数据集进行随机分组,在本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
考虑统计偏好和随机分组特征选择策略的蛋白质

DNA
相互作用热点预测方法,其特征在于,包括四个步骤:一是从蛋白质

DNA
复合物结构中提取残基特征,二是应用
ADASYN
平衡训练集中的正负样本数据,三是应用随机分组特征选择策略结合
Boruta
来筛选最优特征组合,四是构建基于多个子模型的集成分类器用于蛋白质

DNA
相互作用热点预测
。2.
按照权利要求1所述的考虑统计偏好和随机分组特征选择策略的蛋白质

DNA
相互作用热点预测方法,其特征在于,建立模型前,首先构建了训练集和测试集:收集来自
dbAMEPNI
数据库
(http://zhulab.ahu.edu.cn/dbAMEPNI)

ProNIT
数据库
(http://gibk26.bse.kyutech.ac.jp/jouhou/pronit/pronit.html)
和最近发表文献中的有关残基突变引起蛋白质

DNA
结合自由能变化的热力学实验数据

之后对数据进行预处理:使用
CD

HIT
方法去除蛋白质序列相似度大于
40
%的复合物,保留蛋白质

DNA
相互作用界面残基;最后,收集了
103
个蛋白质

DNA
复合物结构,共有
320
个界面残基突变热力学实验数据

随机分组后,
77
个复合物被用作训练数据集,
26
个复合物用作独立的测试数据集;采用
ΔΔ
G≥2.0kcal/mol
的界面残基定义为热点;步骤1:从蛋白质

DNA
复合物结构中提取残基特征从蛋白质

DNA
复合物中提取残基序列特征

结构特征

统计偏好特征

动力学特征

共进化和网络特征,具体特征描述如下:
1.
序列特征及共进化
1.1
氨基酸理化性质特征从
Kawashima
等人构建的
AAindex
数据库和文献
(Jones et al.,J Mol Biol.1997Sep 12

272(1):121

32

Li et al.,BMC Bioinformatics.2008Dec 22

9:553

Ramachandran and Antoniou,IEEE J.Sel.Top.Signal Process.2008

2:378

389

Voet and Voet,Biochem Mol Biol Educ.2004Nov

421

423.)
中获取氨基酸的
10
项物理化学性质,包括每种氨基酸的原子数目

静电荷数和潜在氢键数

疏水性

亲水性

界面倾向性

等电点

质量

球内的预期接触数和电子

离子相互作用势见表2;表
2 20
种氨基酸的
10
种物理化学性质参数
1.2
位置特异性打分矩阵
(PSSM)
位置特异性打分矩阵
(position

specific scoring matrix

PSSM)
给出了蛋白质序列上各位置的进化保守性信息;对于具有
N
个残基的蛋白质,其
PSSM
矩阵的大小为
N
×
20
,每一行封装了一个残基位置的进化保守性信息;每个蛋白质的
PSSM
文件是通过迭代三次
PSI

BLAST(https://blast.ncbi.nlm.nih.gov/Blast.cgi)
生成的,参数
E

value

0.001

1.3
共进化特征共进化是蛋白质在进化过程中在自然界选择压力下产生的残基协同突变性,共进化信息包含了蛋白质三维空间结构信息,该信息可从对蛋白质家族多序列比对
(Multiple Sequence Alignment

MSA)
的分析中获得;直接信息
(Direct Information

DI)
分析法仅考虑了两个氨基酸残基间在进化上的直接相关性,而互信息
(Mutual Information

MI)
分析法还考虑了氨基酸残基间的间接关联性

在这里,使用和分别反映残基
n
与其他残基的互信息的总耦合和直接信息的总耦合,
m
代表不同的其他残基;共进化分析使用
Direct Coupling Analysis(DCA)
工具
(http://dca.rice.edu)
,该工具需要使用多序列比对
MSA
作为输入,其中
MSA

PSI

BLAST
获得,对比序列与目标序列之间覆盖度参数
(Query

Cover)≥75
%,
E

value

0.0001

2.
结构特征
2.1
二级结构特征利用
SPIDER3
服务器
(http://sparks

lab.org/server/spider3/)
计算残基二级结构特征,包括:二面角
(


ψ

)、C
α
原子之间的主链角
(
θ


τ

)
和三种二级结构
(
α

螺旋

β

折叠和无规则卷曲
)
的概率;
2.2
深度指数和突出指数分子的几何互补性对蛋白质

DNA
的相互作用十分重要

突出指数
(Protrusion index

CX)
和深度指数
(Depth index

DPX)
被提出分别用来表征蛋白质结构中原子的暴露和埋藏程度;利用
PSAIA
来计算蛋白质分别在结合态和非结合态下每个残基中所有原子的
DPX

CX
的均值和标准差,以及每个残基中所有侧链原子的
DPX

CX
的均值和标准差;此外,还计算了上述
DPX

CX
指标分别在结合态与非结合态下的差值;
2.3
溶剂可及表面积
(SASA)
利用
Naccess(http://www.bioinf.manchester.ac.uk/naccess)
计算蛋白质分别在结合态和非结合态下氨基酸残基的溶剂可及表面积
(Solvent Accessibility Surface Areas,SASAs)
,包括:残基中全部原子

侧链原子

骨架原子

非极性原子和所有极性原子的绝对溶剂可及表面积和相对溶剂可及表面积;此外,还计算了它们即残基中全部原子

侧链原子

骨架原子

非极性原子和所有极性原子的绝对溶剂可及表面积和相对溶剂可及表面积在这两种状态即结合态和非结合态下的差值和差值的平方根;
2.4
溶剂暴露特征残基半球暴露
(Half

Sphere Exposure,HSE)
是描述氨基酸残基暴露于溶剂中程度的参量

以所考虑残基的
C
α
原子为中心,为半径画球,将其分为上下两个半球,
HSE

up

HSE

down
分别指上下半球中
C
α
原子的数量

这里用
HSEpred
服务器
(http://sunflower.kuicr.kyoto

u.ac.jp/

sjn/hse/)
计算残基的半球暴露
HSE

up

HSE

down
,同时计算残基接触数
(Contact Number,CN)

3.
网络拓扑特征即网络特征与未加权的氨基酸网络
(Amino Acid Network,AAN)
相比,考虑残基异质性的节点加权的
AAN
可以更好地反映残基的拓扑性质

本文除未加权的
AAN
外,还分别构建了基于残基质量

极性

疏水性和溶剂可及性加权的
AAN
模型,并利用
R
程序包中的

NACEN

计算了相应的残基拓扑特征,包括度

接近中心性和介数中心性;
4.
残基的界面偏好性即统计偏好特征从
1545
个非冗余蛋白质

【专利技术属性】
技术研发人员:李春华陶连次周桐孔晓天
申请(专利权)人:北京华欣卓越科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1