【技术实现步骤摘要】
含二硫键多肽的结构预测方法及装置
本专利技术涉及结构预测
,具体涉及含二硫键多肽的结构预测方法及装置。
技术介绍
富含二硫键多肽因其高效的生物活性而广泛应用于生物医药领域。富含二硫键多肽在自然界中的存在形式多种多样,毒素多肽是其中重要的存在形式之一。利用毒液进行防御或捕猎的动物广泛存在于动物界中,包括脊椎动物、软体动物、节肢动物、环节动物和刺胞动物等。仅从芋螺科动物的毒液中便可以获得数十万种不同活性的毒素多肽。放眼自然界,其他动物拥有更多的种类数量,例如蜘蛛约48000种、蛇约3500种,以及蝎子约2000种,考虑到每种动物的毒液中含有多种毒素,因此,动物毒液是一个巨大的富含二硫键多肽药物宝库。随着蛋白质组学和转录组学的进步,现在能够从毒液中获取几乎完整的毒素库,这种新型研究方式称为“毒液组学”(venomics)。随着新一代测序技术的迅猛发展,生物序列数据呈指数级持续增长。虽然现在序列信息已经能够相当快捷地获取,但是蛋白质结构的测定速度远低于测序。一般认为蛋白质的序列决定结构,而结构决定功能。为了更好地挖掘富 ...
【技术保护点】
1.一种含二硫键多肽的结构预测方法,其特征在于,包括:/n序列比对步骤,包括将待预测结构的目标多肽与含二硫键蛋白质的模板库中所有序列进行半胱氨酸特异性序列比对,提取序列特征;/n候选模型构建步骤,包括将所述序列特征输入机器学习模型中,筛选得到候选模板,根据所述候选模板构建三维模型,得到候选模型;/n结构特征提取步骤,包括从所述候选模型中提取结构特征;/n结构预测步骤,包括将所述序列特征、结构特征输入机器学习模型中,输出模型,得到预测结构。/n
【技术特征摘要】
1.一种含二硫键多肽的结构预测方法,其特征在于,包括:
序列比对步骤,包括将待预测结构的目标多肽与含二硫键蛋白质的模板库中所有序列进行半胱氨酸特异性序列比对,提取序列特征;
候选模型构建步骤,包括将所述序列特征输入机器学习模型中,筛选得到候选模板,根据所述候选模板构建三维模型,得到候选模型;
结构特征提取步骤,包括从所述候选模型中提取结构特征;
结构预测步骤,包括将所述序列特征、结构特征输入机器学习模型中,输出模型,得到预测结构。
2.如权利要求1所述的结构预测方法,其特征在于,所述模板库中的单链结构含有至少1对链内二硫键;优选地,所述模板库中的单链结构含有至少2对链内二硫键。
3.如权利要求1所述的结构预测方法,其特征在于,包括:所述序列特征包括原始特征、衍生特征中的至少一个;
和/或,所述原始特征包括胱氨酸相关原始特征、序列比对原始特征中的至少一个;
和/或,所述胱氨酸相关原始特征包括如下特征中的至少一个:
A1)目标多肽序列中二硫键半胱氨酸的数量;
A2)模板序列中二硫键半胱氨酸的数量;
A3)目标多肽序列二硫键半胱氨酸与模板序列二硫键半胱氨酸的数量差;
A4)序列比对中,目标多肽序列二硫键半胱氨酸与模板序列二硫键半胱氨酸匹配的数量;
A5)序列比对中,相邻的匹配二硫键半胱氨酸之间的环区长度一致的数量;
A6)序列比对中,目标多肽序列二硫键半胱氨酸与模板序列二硫键半胱氨酸“成对”匹配的数量;
A7)序列比对中,相邻的“成对”匹配二硫键半胱氨酸之间的环区长度一致的数量;
和/或,所述序列比对原始特征包括如下特征中的至少一个:
B1)序列比对分数;
B2)非空位匹配的残基数;
B3)序列一致性;
B4)序列比对长度;
B5)目标多肽序列长度;
B6)模板序列长度;
B7)目标多肽序列插入的空位数量;
B8)模板序列插入的空位数量;
B9)序列比对中总空位数量;
B10)目标多肽序列首端插入的空位数量;
B11)目标多肽序列末端插入的空位数量;
B12)目标多肽序列中间插入的空位数量;
B13)模板序列首端插入的空位数量;
B14)模板序列末端插入的空位数量;
B15)模板序列中间插入的空位数量;
B16)除去首端和末端空位的目标多肽序列长度;
B17)除去首端和末端空位的模板序列长度。
4.如权利要求1所述的结构预测方法,其特征在于,在目标多肽的序列比对中,二硫键半胱氨酸与游离态半胱氨酸区分对待,而且替换矩阵中二硫键半胱氨酸对的分数高于游离态半胱氨酸对;
优选地,序列比对的方法采用Smith-Waterman算法、Needleman-Wunch算法中的任一种;
更优选地,所述序列比对的方法采用Smith-Waterman算法;
优选地,序列比对时,分数设置规则为:替换分数>空位开放罚分>空位延伸罚分;
更优选地,序列比对时,设置二硫键半胱氨酸对替换分数为33、空位开放罚分为-10、空位延伸罚分为-0.5。
5.如权利要求3所述的结构预测方法,其特征在于,所述衍生特征包括由所述胱氨酸相关原始特征标准化处理得到的胱氨酸相关衍生特征,所述胱氨酸相关原始特征标准化处理方法包括如下方法中的至少一种:
P1)除以目标多肽序列中半胱氨酸的数量;
P2)除以模板序列中二硫键半胱氨酸的数量;
和/或,得到所述胱氨酸相关衍生特征后,删去自除后等于1的特征;
和/或,所述衍生特征还包括由所述胱氨酸相关原始特征和所述序列比对原始特征标准化处理得到的衍生特征,所述标准化处理方法包括如下方法中的至少一种:
Q1)除以目标多肽序列长度;
Q2)除以序列比对长度;
Q3)除以模板序列长度;
和/或,得到所述衍生特征后,删去自除后等于1的特征。
6.如权利要求1所述的结构预测方法,其特征在于,所述结构特征包括MODELLER程序目标函数特征、Rosetta能量项特征、模型质量评估打分特征中的至少一个;
和/或,所述MODELLER程序目标函数特征包括如下特征中的至少一个:
C1)目标函数总值(Thetotalvalueoftheobjectivefunction);
C2)二硫键距离约束(Disulfidedistancerestraints);
C3)二硫键键角约束(Disulfideanglerestraints);
C4)二硫键二面角约束(Disulfidedihedralanglerestraints);
C5)键长势能(Bondlengthpotential);
C6)键角势能(Bondanglepotential);
C7)立体化学余弦扭转势能(Stereochemicalcosinetorsionpotential);
C8)立体化学不当扭转势能(Stereochemicalimpropertorsionpotential);
C9)软球重叠约束(Soft-sphereoverlaprestraints);
C10)Cα-Cα距离约束(Distancerestraints1CA-CA);
C11)N-O距离约束(Distancerestraints2N-O);
C12)侧链-主链距离约束(Distancerestraints3SDCH-MNCH);
C13)侧链-侧链距离约束(Distancerestraints4SDCH-SDCH);
C14)主链二面角ω约束(MainchainOmegadihedralrestraints);
C15)侧链二面角χ1约束(SidechainChi_1dihedralrestraints);
C16)侧链二面角χ2约束(SidechainChi_2dihedralrestraints);
C17)侧链二面角χ3约束(SidechainChi_3dihedralrestraints);
C18)侧链二面角χ4约束(SidechainChi_4dihedralrestraints);
C19)二面角对的约束(Phi/Psipairofdihedralrestraints);
和/或,所述Rosetta能量项特征包括如下特征中的至少一个:
D1)'ch_bond'(Carbonhydrogenbonds);
D2)'ch_bond_bb_bb'(Backbond-backbonecarbonhydrogenbonds);
D3)'ch_bond_bb_sc'(Backbond-sidechaincarbonhydrogenbonds);
D4)'ch_bond_sc_sc'(Sidechain-sidechaincarbonhydrogenbonds);
D5)'dslf_ca_dih'(Cαdi...
【专利技术属性】
技术研发人员:刘紫琳,胡景皓,蒋帆,吴云东,
申请(专利权)人:北京大学深圳研究生院,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。