【技术实现步骤摘要】
考虑统计偏好和随机分组特征选择策略的蛋白质
‑
DNA相互作用热点预测方法
[0001]本专利技术属于蛋白质
‑
DNA
相互作用与识别预测
,具体涉及一种考虑统计偏好和随机分组特征选择策略的蛋白质
‑
DNA
相互作用热点预测方法
。
技术介绍
[0002]蛋白质
‑
DNA
相互作用在细胞生命过程中起着关键作用,如基因的表达调控
、DNA
修复和病毒组装等
[1],其相互作用异常与多种疾病的发生及恶化密切相关,如白血病和癌症等
[2
‑
4]。
在蛋白质
‑
DNA
相互作用界面上,只有一小部分残基对其结合自由能有大的贡献
(≥2.0kcal/mol)
,这些残基通常被定义为热点残基
(hot spots)
[5]。
热点残基可通过丙氨酸扫描突变法测量残基突变引起的结合自由能变化
(
ΔΔ
G)
来确定
[6],但该方法非常耗时费力
。
因此,亟待发展有效的理论方法来预测蛋白质
‑
DNA
相互作用热点
。
[0003]目前,用于识别蛋白质
‑
DNA
相互作用热点的算法还比较少,有限可得的实验数据使得蛋白质
‑
DNA
相互作用热点预测远落后于蛋白质< ...
【技术保护点】
【技术特征摘要】 【专利技术属性】
1.
考虑统计偏好和随机分组特征选择策略的蛋白质
‑
DNA
相互作用热点预测方法,其特征在于,包括四个步骤:一是从蛋白质
‑
DNA
复合物结构中提取残基特征,二是应用
ADASYN
平衡训练集中的正负样本数据,三是应用随机分组特征选择策略结合
Boruta
来筛选最优特征组合,四是构建基于多个子模型的集成分类器用于蛋白质
‑
DNA
相互作用热点预测
。2.
按照权利要求1所述的考虑统计偏好和随机分组特征选择策略的蛋白质
‑
DNA
相互作用热点预测方法,其特征在于,建立模型前,首先构建了训练集和测试集:收集来自
dbAMEPNI
数据库
(http://zhulab.ahu.edu.cn/dbAMEPNI)
,
ProNIT
数据库
(http://gibk26.bse.kyutech.ac.jp/jouhou/pronit/pronit.html)
和最近发表文献中的有关残基突变引起蛋白质
‑
DNA
结合自由能变化的热力学实验数据
。
之后对数据进行预处理:使用
CD
‑
HIT
方法去除蛋白质序列相似度大于
40
%的复合物,保留蛋白质
‑
DNA
相互作用界面残基;最后,收集了
103
个蛋白质
‑
DNA
复合物结构,共有
320
个界面残基突变热力学实验数据
。
随机分组后,
77
个复合物被用作训练数据集,
26
个复合物用作独立的测试数据集;采用
ΔΔ
G≥2.0kcal/mol
的界面残基定义为热点;步骤1:从蛋白质
‑
DNA
复合物结构中提取残基特征从蛋白质
‑
DNA
复合物中提取残基序列特征
、
结构特征
、
统计偏好特征
、
动力学特征
、
共进化和网络特征,具体特征描述如下:
1.
序列特征及共进化
1.1
氨基酸理化性质特征从
Kawashima
等人构建的
AAindex
数据库和文献
(Jones et al.,J Mol Biol.1997Sep 12
;
272(1):121
‑
32
;
Li et al.,BMC Bioinformatics.2008Dec 22
;
9:553
;
Ramachandran and Antoniou,IEEE J.Sel.Top.Signal Process.2008
;
2:378
–
389
;
Voet and Voet,Biochem Mol Biol Educ.2004Nov
;
421
‑
423.)
中获取氨基酸的
10
项物理化学性质,包括每种氨基酸的原子数目
、
静电荷数和潜在氢键数
、
疏水性
、
亲水性
、
界面倾向性
、
等电点
、
质量
、
球内的预期接触数和电子
‑
离子相互作用势见表2;表
2 20
种氨基酸的
10
种物理化学性质参数
1.2
位置特异性打分矩阵
(PSSM)
位置特异性打分矩阵
(position
‑
specific scoring matrix
,
PSSM)
给出了蛋白质序列上各位置的进化保守性信息;对于具有
N
个残基的蛋白质,其
PSSM
矩阵的大小为
N
×
20
,每一行封装了一个残基位置的进化保守性信息;每个蛋白质的
PSSM
文件是通过迭代三次
PSI
‑
BLAST(https://blast.ncbi.nlm.nih.gov/Blast.cgi)
生成的,参数
E
‑
value
=
0.001
;
1.3
共进化特征共进化是蛋白质在进化过程中在自然界选择压力下产生的残基协同突变性,共进化信息包含了蛋白质三维空间结构信息,该信息可从对蛋白质家族多序列比对
(Multiple Sequence Alignment
,
MSA)
的分析中获得;直接信息
(Direct Information
,
DI)
分析法仅考虑了两个氨基酸残基间在进化上的直接相关性,而互信息
(Mutual Information
,
MI)
分析法还考虑了氨基酸残基间的间接关联性
。
在这里,使用和分别反映残基
n
与其他残基的互信息的总耦合和直接信息的总耦合,
m
代表不同的其他残基;共进化分析使用
Direct Coupling Analysis(DCA)
工具
(http://dca.rice.edu)
,该工具需要使用多序列比对
MSA
作为输入,其中
MSA
由
PSI
‑
BLAST
获得,对比序列与目标序列之间覆盖度参数
(Query
‑
Cover)≥75
%,
E
‑
value
=
0.0001
;
2.
结构特征
2.1
二级结构特征利用
SPIDER3
服务器
(http://sparks
‑
lab.org/server/spider3/)
计算残基二级结构特征,包括:二面角
(
角
、
ψ
角
)、C
α
原子之间的主链角
(
θ
角
、
τ
角
)
和三种二级结构
(
α
‑
螺旋
、
β
‑
折叠和无规则卷曲
)
的概率;
2.2
深度指数和突出指数分子的几何互补性对蛋白质
‑
DNA
的相互作用十分重要
。
突出指数
(Protrusion index
,
CX)
和深度指数
(Depth index
,
DPX)
被提出分别用来表征蛋白质结构中原子的暴露和埋藏程度;利用
PSAIA
来计算蛋白质分别在结合态和非结合态下每个残基中所有原子的
DPX
和
CX
的均值和标准差,以及每个残基中所有侧链原子的
DPX
和
CX
的均值和标准差;此外,还计算了上述
DPX
和
CX
指标分别在结合态与非结合态下的差值;
2.3
溶剂可及表面积
(SASA)
利用
Naccess(http://www.bioinf.manchester.ac.uk/naccess)
计算蛋白质分别在结合态和非结合态下氨基酸残基的溶剂可及表面积
(Solvent Accessibility Surface Areas,SASAs)
,包括:残基中全部原子
、
侧链原子
、
骨架原子
、
非极性原子和所有极性原子的绝对溶剂可及表面积和相对溶剂可及表面积;此外,还计算了它们即残基中全部原子
、
侧链原子
、
骨架原子
、
非极性原子和所有极性原子的绝对溶剂可及表面积和相对溶剂可及表面积在这两种状态即结合态和非结合态下的差值和差值的平方根;
2.4
溶剂暴露特征残基半球暴露
(Half
‑
Sphere Exposure,HSE)
是描述氨基酸残基暴露于溶剂中程度的参量
。
以所考虑残基的
C
α
原子为中心,为半径画球,将其分为上下两个半球,
HSE
‑
up
和
HSE
‑
down
分别指上下半球中
C
α
原子的数量
。
这里用
HSEpred
服务器
(http://sunflower.kuicr.kyoto
‑
u.ac.jp/
~
sjn/hse/)
计算残基的半球暴露
HSE
‑
up
和
HSE
‑
down
,同时计算残基接触数
(Contact Number,CN)
;
3.
网络拓扑特征即网络特征与未加权的氨基酸网络
(Amino Acid Network,AAN)
相比,考虑残基异质性的节点加权的
AAN
可以更好地反映残基的拓扑性质
。
本文除未加权的
AAN
外,还分别构建了基于残基质量
、
极性
、
疏水性和溶剂可及性加权的
AAN
模型,并利用
R
程序包中的
‘
NACEN
’
计算了相应的残基拓扑特征,包括度
、
接近中心性和介数中心性;
4.
残基的界面偏好性即统计偏好特征从
1545
个非冗余蛋白质
‑
技术研发人员:李春华,陶连次,周桐,孔晓天,
申请(专利权)人:北京华欣卓越科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。