A multivariate data prediction effect of DNA mutation protein interaction based on (Protein Protein Interaction, PPI) prediction method. This method is based on the DNA SNP (Single Nucleotide Polymorphisms, SNP) whether the interaction effect for the study of protein structure, function and characteristics of seven kinds of amino acid sequences of related proteins, using support vector machine (Support Vector Machine, SVM) and the integrated learning algorithm as the classifier, SNP whether the destruction of protein interaction prediction. At the same time, the protein between the amino acid variation caused by the interaction of SNP and whether it occurs in protein interaction surface (PPI interface) on judgment.
【技术实现步骤摘要】
一种基于多元数据预测DNA突变影响蛋白互作的预测方法
本专利技术涉及一种在机器学习与生物信息学知识背景下,预测DNA突变影响蛋白互作的算法,尤其是涉及一种基于多元数据预测DNA突变影响蛋白互作的预测方法。
技术介绍
DNA单位点核苷酸突变(SingleNucleotidePolymorphisms,SNP)导致蛋白质氨基酸变异从而破坏蛋白质互作(ProteinProteinInteraction,PPI)可能引发多种疾病,给人类的健康带来很大威胁。例如由SNPrs17646665引起蛋白质APOE发生氨基酸突变,破坏APOE和SORT1之间的蛋白质互作,促进APOE/Aβ化合物的生成,加大了阿尔海默茨病(AD)的患病风险。目前预测SNP对PPI稳定性影响的算法主要有以下四种:1.基于蛋白质结构进行预测的算法,如AUTO-MUTE[Masso,M.andVaisman,I.(2008)Accuratepredictionofstabilitychangesinproteinmutantsbycombiningmachinelearningwithstructurebasedcomputationalmutagenesis.Bioinformatics,24,2002–2009],CUPSAT[Parthiban,V.,etal.(2006)CUPSAT:predictionofproteinstabilityuponpointmutations.NucleicAcidsRes.,34,239–242]等。这一类方法主要使用蛋白质化合物的结构特征,如溶剂可及面 ...
【技术保护点】
一种基于多元数据预测DNA突变影响蛋白互作的预测方法,其特征在于,包括:步骤1、整理HPRD、BioGrid、IntAct、MINT和DIP五个蛋白互作数据库包含的所有非冗余蛋白互作对,用来判断蛋白之间是否存在蛋白互作;步骤2、结合NCBI提供的dbSNP数据,利用软件Polyphen2、SIFT、MutationAsseso计算出SNP引起蛋白序列上氨基酸图突变数据库,做记录,用来判定SNP是否引起蛋白上氨基酸突变;步骤3、结合PDB数据库中提供的蛋白互作结构信息,整理出蛋白互作面信息,应用实施步骤2中数据库,判断SNP引起的氨基酸突变是否发生在蛋白互作面上;步骤4、应用实施步骤1‑3中SNP引起氨基酸突变且突变发生在蛋白互作面上的SNP与蛋白互作对作为样本,利用Mechismo提供的蛋白互作面上氨基酸变异概率矩阵,结合公式(1),计算SNP引起氨基酸突变是否破坏蛋白互作Lab
【技术特征摘要】
1.一种基于多元数据预测DNA突变影响蛋白互作的预测方法,其特征在于,包括:步骤1、整理HPRD、BioGrid、IntAct、MINT和DIP五个蛋白互作数据库包含的所有非冗余蛋白互作对,用来判断蛋白之间是否存在蛋白互作;步骤2、结合NCBI提供的dbSNP数据,利用软件Polyphen2、SIFT、MutationAsseso计算出SNP引起蛋白序列上氨基酸图突变数据库,做记录,用来判定SNP是否引起蛋白上氨基酸突变;步骤3、结合PDB数据库中提供的蛋白互作结构信息,整理出蛋白互作面信息,应用实施步骤2中数据库,判断SNP引起的氨基酸突变是否发生在蛋白互作面上;步骤4、应用实施步骤1-3中SNP引起氨基酸突变且突变发生在蛋白互作面上的SNP与蛋白互作对作为样本,利用Mechismo提供的蛋白互作面上氨基酸变异概率矩阵,结合公式(1),计算SNP引起氨基酸突变是否破坏蛋白互作Labi=ajm-ajn(1)其中Labi表示第i个样本,ajm、ajn分别表示变异后与变异前的氨基酸对出现的概率,当Labi大于等于0时,表示在第i个样本中,SNP引起的氨基酸突变没有破坏蛋白互作,为负样本;而当Labi小于0时,表示SNP引起的氨基酸突变破坏了蛋白互作,为正样本;此处只用来计算样本标签;步骤5、根据实施步骤4中的样本,以每个样本氨基酸变异点为中心,在蛋白互作面上取长度为15的氨基酸序列窗口,提取该窗口蛋白质结构、功能和序列相关的七个特征,具体实施如下:步骤(51)、对窗口两条序列,按照窗口大小为2进行窗口滑动提取氨基酸对,统计氨基酸对频率,得相应特征,每个特征即为相应氨基酸对频率;步骤(52)、基于20种氨基酸,提取每种氨基酸的理化性质,提取每个样本的蛋白互作面窗口相应理化属性值构建特征向量,又得相应特征;步骤(53)、基于每个样本PDB文件,利用PSAIA(ProteinStructureAndInteractionAnalyser)软件计算蛋白互作面窗口序列的相应数量个单体及化合物状态的蛋白结构特征,相对信息(Relativechange)利用公式(2)进行计算:ASARC=(ASAM-ASAC)/ASAMDIRC=(DIC-DIM)/DICPIRC=(PIM-PIC)/PIM(2)M:UnboundC:Bound步骤(54)、基于每一个样本的蛋白互作面窗口序列信息,结合NCBI提供的psi-blastp算法以及非冗余序列数据库(non-redundant,nr),分别计算窗口中两条氨基酸序列的序列保守性PSSM(Position-SpecificScoringMatrix),将矩阵所有元素按列依次放入向量中,共得相应个特征;步骤(55)、对每一个样本,从相应PDB文件中提取蛋白互作面窗口序列中每一个氨基酸温度信息,共得相应个特征;步骤(56)、基于样本中涉及到的两个蛋白质,利用公式(3)求出PPI比其中N(Pi)表示取与蛋白质Pi有相互作用关系的蛋白质集合;步骤(57)、基于样本中SNP引起的突变氨基酸,提取打分矩阵BLOSUM62中的对应该氨基酸变异前后的值,是一个一维特征;步骤6、基于实施步骤(54)-步骤(55)中得出的样本和特征,以SVM和贪婪算法思想为基础进行特征选择,过程如下:步骤(61),首先对所有的特征利用公式(4)进行归一化:其中,表示第j类的第i...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。