【技术实现步骤摘要】
一种基于卷积神经网络的DNA绑定残基预测方法
本专利技术涉及生物信息学、模式识别与计算机应用领域,具体而言涉及一种基于卷积神经网络的DNA绑定残基预测方法。
技术介绍
蛋白质与配体相互作用在生命过程中是普遍存在且不可或缺的,这种相互作用在生物分子的识别和信号传递过程中起着非常重要的作用。DNA分子是重要的一类配体分子,准确识别蛋白质序列中DNA分子的绑定残基,有助于理解蛋白质功能、分析蛋白质与DNA分子之间的相互作用机制及设计药物靶蛋白,具有重要的生物学意义。调研文献发现,许多用于预测蛋白质序列中DNA绑定残基的方法已被提出,如:DNAPred(ZhuY,HuJ,SongX,etal.DNAPred:AccurateIdentificationofDNA-BindingSitesfromProteinSequencebyEnsembledHyperplane-Distance-BasedSupportVectorMachines[J].JournalofChemicalInformationandModeling,2 ...
【技术保护点】
1.一种基于卷积神经网络的DNA绑定残基预测方法,其特征在于,所述预测方法包括以下步骤:/n1)输入一个残基数为L的待进行DNA绑定残基预测的蛋白质序列S;/n2)对蛋白质序列S,使用HHblits程序搜索蛋白质序列数据库Uniclust30获取一个大小为M×L的多序列联配信息,记作MSA;然后从MSA中提取一个大小为L×21的位置特异性频率矩阵,记作PSFM;/n3)对蛋白质序列S,使用PSIPRED程序获取一个大小为L×3的二级结构矩阵,记作PSS;/n4)对蛋白质序列S,使用SANN程序获取一个大小为L×3的溶剂可及性特征矩阵,记作PSA;/n5)对蛋白质序列S,使用 ...
【技术特征摘要】
1.一种基于卷积神经网络的DNA绑定残基预测方法,其特征在于,所述预测方法包括以下步骤:
1)输入一个残基数为L的待进行DNA绑定残基预测的蛋白质序列S;
2)对蛋白质序列S,使用HHblits程序搜索蛋白质序列数据库Uniclust30获取一个大小为M×L的多序列联配信息,记作MSA;然后从MSA中提取一个大小为L×21的位置特异性频率矩阵,记作PSFM;
3)对蛋白质序列S,使用PSIPRED程序获取一个大小为L×3的二级结构矩阵,记作PSS;
4)对蛋白质序列S,使用SANN程序获取一个大小为L×3的溶剂可及性特征矩阵,记作PSA;
5)对蛋白质序列S,使用I-LBR程序获取一个大小为L×1的绑定位点概率预测矩阵,记作ILBR;
6)将步骤2)至5)中获取的特征矩阵PSFM、PSS、PSA与ILBR组合为一个L×28的特征矩阵,记作F;
7)将F的首行前和尾行后分别填充7行28列的全为0的数据,记作F1;使用一个大小为15×28的窗口,以1为步长在F1中上下滑动,每一次滑动,将窗口的第8行所对应的残基作为预测目标,提取一个大小为15×28的特征矩阵,记作ffea;
8)将ffea转化为一个大小为28×15×15特征张量,记作fcube,fcube的任一位置元素由下列等式计算得到:
其中,ffea(m,i),ffea(n,i)分别表示ffea中第m行第i列元...
【专利技术属性】
技术研发人员:胡俊,白岩松,郑琳琳,樊学强,张贵军,
申请(专利权)人:浙江工业大学,
类型:发明
国别省市:浙江;33
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。