当前位置: 首页 > 专利查询>同济大学专利>正文

一种基于多元数据预测DNA突变影响蛋白互作的预测方法技术

技术编号:15501126 阅读:57 留言:0更新日期:2017-06-03 22:38
一种基于多元数据预测DNA突变影响蛋白互作(Protein‑Protein Interaction,PPI)的预测方法。本方法以DNA上SNP(Single Nucleotide Polymorphisms,SNP)是否对蛋白互作产生影响为研究对象,使用蛋白质的结构、功能和氨基酸序列相关的七类特征,采用支持向量机(Support Vector Machine,SVM)和集成学习算法作为分类器,就SNP是否破坏蛋白互作进行预测。同时,对蛋白之间是否存在相互作用以及SNP引起的氨基酸变异是否发生在蛋白互作面(PPI interface)上进行判断。

A prediction method based on multivariate data to predict DNA mutation affecting protein interaction

A multivariate data prediction effect of DNA mutation protein interaction based on (Protein Protein Interaction, PPI) prediction method. This method is based on the DNA SNP (Single Nucleotide Polymorphisms, SNP) whether the interaction effect for the study of protein structure, function and characteristics of seven kinds of amino acid sequences of related proteins, using support vector machine (Support Vector Machine, SVM) and the integrated learning algorithm as the classifier, SNP whether the destruction of protein interaction prediction. At the same time, the protein between the amino acid variation caused by the interaction of SNP and whether it occurs in protein interaction surface (PPI interface) on judgment.

【技术实现步骤摘要】
一种基于多元数据预测DNA突变影响蛋白互作的预测方法
本专利技术涉及一种在机器学习与生物信息学知识背景下,预测DNA突变影响蛋白互作的算法,尤其是涉及一种基于多元数据预测DNA突变影响蛋白互作的预测方法。
技术介绍
DNA单位点核苷酸突变(SingleNucleotidePolymorphisms,SNP)导致蛋白质氨基酸变异从而破坏蛋白质互作(ProteinProteinInteraction,PPI)可能引发多种疾病,给人类的健康带来很大威胁。例如由SNPrs17646665引起蛋白质APOE发生氨基酸突变,破坏APOE和SORT1之间的蛋白质互作,促进APOE/Aβ化合物的生成,加大了阿尔海默茨病(AD)的患病风险。目前预测SNP对PPI稳定性影响的算法主要有以下四种:1.基于蛋白质结构进行预测的算法,如AUTO-MUTE[Masso,M.andVaisman,I.(2008)Accuratepredictionofstabilitychangesinproteinmutantsbycombiningmachinelearningwithstructurebasedcomputationalmutagenesis.Bioinformatics,24,2002–2009],CUPSAT[Parthiban,V.,etal.(2006)CUPSAT:predictionofproteinstabilityuponpointmutations.NucleicAcidsRes.,34,239–242]等。这一类方法主要使用蛋白质化合物的结构特征,如溶剂可及面积、氨基酸之间距离、残疾深度等,结合机器学习和统计学方法对结合自由能(Bindingfreeenergy)进行回归预测。2.基于蛋白质能量信息的算法,如MutaBind[LiM,SimonettiFL,GoncearencoA,PanchenkoAR.(2016)MutaBindestimatesandinterpretstheeffectsofsequencevariantsonprotein-proteininteractions.NucleicAcidsRes.,44(W1),W494–501]。这一类方法主要利用了蛋白氨基酸残基突变前后能量的改变,如利用能量模块算法计算出的范德华力等对结合自由能进行回归。3.基于蛋白质序列的算法,如iPTREE-STAB[Huang,L.T.etal.(2007)iPTREE-STAB:interpretabledecisiontreebasedmethodforpredictingproteinstabilitychangesuponmutations.Bioinformatics,23,1292–1293],MuStab[Teng,S.etal.(2010)Sequencefeature-basedpredictionofproteinstabilitychangesuponaminoacidsubstitutions.BMCGenomics,11,5.Bioinformatics,23,1292–1293]等,使用蛋白质化合物残基序列信息作为特征,拟合突变前后结合自由能的变化量,从而对SNP是否破坏蛋白互作进行判断。4.基于蛋白质结构和序列的复合型方法,如iStable[Chen,C.W.etal.(2013)iStable:off-the-shelfpredictorintegrationforredictingroteinstabilitychanges.BMCBioinformatics,14,S5],使用了蛋白化合物的20种氨基酸频率等蛋白序列特征以及相对溶剂可及性等蛋白结构特征,对结合自由能变化量进行回归预测。上述这些方法存在如下缺点,一是尽管结合自由能和蛋白互作之间有着必然联系,但是缺乏统一标准或阈值来确定蛋白互作是否被破坏。二是数据种类较少,即只考虑使用一种或两种数据进行拟合,且在同种数据中,只使用有限的几种特征。三是这些方法在计算过程中只考虑产生氨基酸突变的位点的相应特征,忽略了突变氨基酸周围位点信息。四是在计算过程中,结合机器学习的预测算法没有采取有效的特征选择,导致样本包含大量冗余信息,不能取得准确的预测效果。
技术实现思路
为了克服现有预测DNA突变影响蛋白互作算法的缺陷,得到更为准确的预测效果,本专利技术提供一种基于蛋白多元数据,且同时参考突变氨基酸周围位点信息的预测DNA突变影响蛋白互作的预测方法。并对蛋白之间是否存在相互作用,DNA突变是否引起氨基酸突变及氨基酸突变是否发生在对应蛋白互作面上进行判断。首先,本专利技术对蛋白之间是否存在相互作用,SNP是否引起氨基酸变异及变异是否发生在蛋白互作面上进行判断。若条件成立,则以SNP是否破坏蛋白互作作为研究对象,使用蛋白质结构、功能和氨基酸序列相关的七类特征,采用支持向量机(SupportVectorMachine,SVM)和集成学习算法作为分类器,预测SNP是否破坏蛋白互作。实现方案如下为此,本专利技术给出的技术方案,表征为:一种基于多元数据预测DNA突变影响蛋白互作的预测方法,其特征在于,包括:步骤1、整理HPRD、BioGrid、IntAct、MINT和DIP五个蛋白互作数据库包含的所有非冗余蛋白互作对,用来判断蛋白之间是否存在蛋白互作;步骤2、结合NCBI提供的dbSNP数据,利用软件Polyphen2、SIFT、MutationAsseso计算出SNP引起蛋白序列上氨基酸图突变数据库,做记录,用来判定SNP是否引起蛋白上氨基酸突变;步骤3、结合PDB数据库中提供的蛋白互作结构信息,整理出蛋白互作面信息,应用实施步骤2中数据库,判断SNP引起的氨基酸突变是否发生在蛋白互作面上;步骤4、应用实施步骤1-3中SNP引起氨基酸突变且突变发生在蛋白互作面上的SNP与蛋白互作对作为样本,利用Mechismo提供的蛋白互作面上氨基酸变异概率矩阵,结合公式(1),计算SNP引起氨基酸突变是否破坏蛋白互作Labi=ajm-ajn(1)其中Labi表示第i个样本,ajm、ajn分别表示变异后与变异前的氨基酸对出现的概率,当Labi大于等于0时,表示在第i个样本中,SNP引起的氨基酸突变没有破坏蛋白互作,为负样本;而当Labi小于0时,表示SNP引起的氨基酸突变破坏了蛋白互作,为正样本;此处只用来计算样本标签;步骤5、根据实施步骤4中的样本,以每个样本氨基酸变异点为中心,在蛋白互作面上取长度为15的氨基酸序列窗口,提取该窗口蛋白质结构、功能和序列相关的七个特征,具体实施如下:步骤(51)、对窗口两条序列,按照窗口大小为2进行窗口滑动提取氨基酸对,统计氨基酸对频率,得相应特征,每个特征即为相应氨基酸对频率;步骤(52)、基于20种氨基酸,提取每种氨基酸的理化性质,提取每个样本的蛋白互作面窗口相应理化属性值构建特征向量,又得相应特征;步骤(53)、基于每个样本PDB文件,利用PSAIA(ProteinStructureAndInteractionAnalyser)软件计算蛋白互作面窗口序列的相应数量个单体及化合物状态的蛋白结构特征,相对信息(Relati本文档来自技高网
...
一种基于多元数据预测DNA突变影响蛋白互作的预测方法

【技术保护点】
一种基于多元数据预测DNA突变影响蛋白互作的预测方法,其特征在于,包括:步骤1、整理HPRD、BioGrid、IntAct、MINT和DIP五个蛋白互作数据库包含的所有非冗余蛋白互作对,用来判断蛋白之间是否存在蛋白互作;步骤2、结合NCBI提供的dbSNP数据,利用软件Polyphen2、SIFT、MutationAsseso计算出SNP引起蛋白序列上氨基酸图突变数据库,做记录,用来判定SNP是否引起蛋白上氨基酸突变;步骤3、结合PDB数据库中提供的蛋白互作结构信息,整理出蛋白互作面信息,应用实施步骤2中数据库,判断SNP引起的氨基酸突变是否发生在蛋白互作面上;步骤4、应用实施步骤1‑3中SNP引起氨基酸突变且突变发生在蛋白互作面上的SNP与蛋白互作对作为样本,利用Mechismo提供的蛋白互作面上氨基酸变异概率矩阵,结合公式(1),计算SNP引起氨基酸突变是否破坏蛋白互作Lab

【技术特征摘要】
1.一种基于多元数据预测DNA突变影响蛋白互作的预测方法,其特征在于,包括:步骤1、整理HPRD、BioGrid、IntAct、MINT和DIP五个蛋白互作数据库包含的所有非冗余蛋白互作对,用来判断蛋白之间是否存在蛋白互作;步骤2、结合NCBI提供的dbSNP数据,利用软件Polyphen2、SIFT、MutationAsseso计算出SNP引起蛋白序列上氨基酸图突变数据库,做记录,用来判定SNP是否引起蛋白上氨基酸突变;步骤3、结合PDB数据库中提供的蛋白互作结构信息,整理出蛋白互作面信息,应用实施步骤2中数据库,判断SNP引起的氨基酸突变是否发生在蛋白互作面上;步骤4、应用实施步骤1-3中SNP引起氨基酸突变且突变发生在蛋白互作面上的SNP与蛋白互作对作为样本,利用Mechismo提供的蛋白互作面上氨基酸变异概率矩阵,结合公式(1),计算SNP引起氨基酸突变是否破坏蛋白互作Labi=ajm-ajn(1)其中Labi表示第i个样本,ajm、ajn分别表示变异后与变异前的氨基酸对出现的概率,当Labi大于等于0时,表示在第i个样本中,SNP引起的氨基酸突变没有破坏蛋白互作,为负样本;而当Labi小于0时,表示SNP引起的氨基酸突变破坏了蛋白互作,为正样本;此处只用来计算样本标签;步骤5、根据实施步骤4中的样本,以每个样本氨基酸变异点为中心,在蛋白互作面上取长度为15的氨基酸序列窗口,提取该窗口蛋白质结构、功能和序列相关的七个特征,具体实施如下:步骤(51)、对窗口两条序列,按照窗口大小为2进行窗口滑动提取氨基酸对,统计氨基酸对频率,得相应特征,每个特征即为相应氨基酸对频率;步骤(52)、基于20种氨基酸,提取每种氨基酸的理化性质,提取每个样本的蛋白互作面窗口相应理化属性值构建特征向量,又得相应特征;步骤(53)、基于每个样本PDB文件,利用PSAIA(ProteinStructureAndInteractionAnalyser)软件计算蛋白互作面窗口序列的相应数量个单体及化合物状态的蛋白结构特征,相对信息(Relativechange)利用公式(2)进行计算:ASARC=(ASAM-ASAC)/ASAMDIRC=(DIC-DIM)/DICPIRC=(PIM-PIC)/PIM(2)M:UnboundC:Bound步骤(54)、基于每一个样本的蛋白互作面窗口序列信息,结合NCBI提供的psi-blastp算法以及非冗余序列数据库(non-redundant,nr),分别计算窗口中两条氨基酸序列的序列保守性PSSM(Position-SpecificScoringMatrix),将矩阵所有元素按列依次放入向量中,共得相应个特征;步骤(55)、对每一个样本,从相应PDB文件中提取蛋白互作面窗口序列中每一个氨基酸温度信息,共得相应个特征;步骤(56)、基于样本中涉及到的两个蛋白质,利用公式(3)求出PPI比其中N(Pi)表示取与蛋白质Pi有相互作用关系的蛋白质集合;步骤(57)、基于样本中SNP引起的突变氨基酸,提取打分矩阵BLOSUM62中的对应该氨基酸变异前后的值,是一个一维特征;步骤6、基于实施步骤(54)-步骤(55)中得出的样本和特征,以SVM和贪婪算法思想为基础进行特征选择,过程如下:步骤(61),首先对所有的特征利用公式(4)进行归一化:其中,表示第j类的第i...

【专利技术属性】
技术研发人员:赵兴明何峰
申请(专利权)人:同济大学
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1