一种蛋白质自相互作用的预测方法技术

技术编号:17097823 阅读:27 留言:0更新日期:2018-01-21 09:50
本发明专利技术公开了一种蛋白质自相互作用的预测方法,该方法包括数据集的选择与建立,PSSM矩阵的生成,傅里叶描述子提取特征值,训练集和测试集的构建,分类器模型构建步骤完成,该方法是利用傅里叶描述子提取样本集的特征值,使计算机计算数据集的离散傅里叶变换所需的乘法次数大为减少,也节省了计算量;本发明专利技术能够利用随机投影的方法构建模型,大大提高了预测精度,能够得到比较好的预测效果;本发明专利技术方法计算代价低,功耗小;可以有效地预测蛋白质的自相互作用,预测效果可以达到93%以上。

A method for predicting the self interaction of protein

【技术实现步骤摘要】
一种蛋白质自相互作用的预测方法
本专利技术涉及机器学习和生物信息学领域,具体涉及一种蛋白质自相互作用的预测方法。
技术介绍
本专利技术涉及机器学习和生物信息学领域,具体涉及一种蛋白质自相互作用的预测方法。蛋白质自身能否进行相互作用是一项具有挑战性的任务。近年来,许多研究都表明同质齐聚化在生物过程中发挥着重要的作用,例如,基因表达调控,信号传导、酶激活与免疫应答等。总之,蛋白质自相互作用对于细胞功能的调节是一项非常重要的因素。此外,蛋白质自相互作用有利于提高蛋白质的稳定性,并通过减少其表面积防止蛋白质变性。到目前为止,大多数预测蛋白质相互作用的计算方法对蛋白质自相互作用检测有一定的局限性。这些局限性在于,这些方法通常考虑蛋白质对之间的相关信息,如共表达、共定位和协同进化等。然而,这样的信息对于蛋白质自相互作用是不可用的。
技术实现思路
本专利技术的目的在于,提供一种蛋白质自相互作用的预测方法,该方法包括数据集的选择与建立,PSSM矩阵的生成,傅里叶描述子提取特征值,训练集和测试集的构建,分类器模型构建步骤完成,该方法是利用傅里叶描述子提取样本集的特征值,使计算机计算数据集的离散傅里叶变换所需的乘法次数大为减少,也节省了计算量;本专利技术能够利用随机投影的方法构建模型,大大提高了预测精度,能够得到比较好的预测效果;本专利技术方法计算代价低,功耗小;可以有效地预测蛋白质的自相互作用,预测效果可以达到93%以上。解决了预测蛋白质是否发生自相互作用的问题。本专利技术所述的一种蛋白质自相互作用的预测方法,按下列步骤进行:a、数据集的选择与建立:利用UniProt数据库中的human和yeast两个黄金标准数据集构建预测蛋白质自相互作用的数据集;b、PSSM矩阵的生成:将每一个蛋白质序列的位置都表示为一个M×20的矩阵,其中M代表一种蛋白质残基的数目,矩阵的列代表了20种氨基酸,通过使用BLAST的位置特异性PSI-BLAST将每个蛋白质都转换成PSSM矩阵;c、傅里叶描述子提取特征值:将步骤b中每一个蛋白质转换的PSSM转置矩阵与原PSSM矩阵进行相乘,这样每个蛋白质序列被转化为一个20×20的矩阵,然后计算矩阵的傅里叶描述子,再计算傅里叶的逆描述子,最终每一个蛋白质提取出20×2个特征值;d、训练集和测试集的构建:利用放回抽样方式对样本进行抽样,将human和yeast的阴阳数据集构造成均衡数据集,然后组成用于模型构建的数据集,以数量比4:1随机切割数据集得到训练集和测试集,然后进行5折交叉验证;e、分类器模型构建:利用高维空间中的随机投影方式构建分类器的训练模型。所述步骤a中UniProt数据库中的两个黄金标准数据集:human和yeast,其中human数据集由1441个阳性自相互作用蛋白质和15938个阴性非自相互作用蛋白质组成,yeast数据集由710阳性样本和5511个阴性样本组成;所述步骤b中每一个蛋白质序列的位置都表示为一个M×20的矩阵L={Liji:1=1…M,j=1…20},其中M代表一种蛋白质残基的数目,矩阵的列代表了20种氨基酸,评分Lij表示第i个位置的第j个氨基酸.p(i,k)表示第k个氨基酸在第i个位置出现的频率,q(j,k)是第j和第k个氨基酸之间Dayhoff变异矩阵的值,为获得较高和广泛的同源序列,PSI-BLAST的e值参数设置为0.001并选择三次迭代方式。所述步骤c中将每一个蛋白质转换的PSSM转置矩阵与原PSSM矩阵进行相乘,这样每个蛋白质序列被转化为一个20×20的矩阵;然后计算矩阵的傅里叶描述子,公式为:其中z(x)为一个复函数,x是PSSM矩阵封闭边界距离,L是封闭边界长度。步骤d中利用放回抽样方式对样本进行抽样将human和yeast的阴阳数据集构造成均衡数据集,得到human数据集为31876×40,阴阳数据集分别为15938×40,yeast数据集为11022×40,阴阳数据集分别为5511×40。为实现上述目的本专利技术采用的技术方案是:a、数据集的选择与建立:利用UniProt数据库中的human和yeast两个黄金标准数据集构建预测蛋白质自相互作用的数据集;b、PSSM矩阵的生成:将每一个蛋白质序列的位置都表示为一个M×20的矩阵,其中M代表一种蛋白质残基的数目,矩阵的列代表了20种氨基酸,通过使用BLAST的位置特异性PSI-BLAST将每个蛋白质都转换成PSSM矩阵;c、傅里叶描述子提取特征值:将步骤b中每一个蛋白质转换的PSSM转置矩阵与原PSSM矩阵进行相乘,这样每个蛋白质序列被转化为一个20×20的矩阵,然后计算矩阵的傅里叶描述子,再计算傅里叶的逆描述子,最终每一个蛋白质提取出20×2个特征值;d、训练集和测试集的构建:利用放回抽样方式对样本进行抽样,将human和yeast的阴阳数据集构造成均衡数据集,然后组成用于模型构建的数据集,以数量比4:1随机切割数据集得到训练集和测试集,然后进行5折交叉验证;e、分类器模型构建:利用高维空间中的随机投影方式构建分类器的训练模型。所述步骤a中数据集的选择与建立:数据集的选择与建立,UniProt数据库中的两个黄金标准数据集:human和yeast,其中human数据集由1441个阳性自相互作用蛋白质和15938个阴性非自相互作用蛋白质组成,yeast数据集由710阳性样本和5511个阴性样本组成;所述步骤b中生成的PSSM矩阵:每一个蛋白质序列的位置都可以表示为一个M×20的矩阵L={Liji:1=1…M,j=1…20},其中M代表一种蛋白质残基的数目,矩阵的列代表了20种氨基酸,评分Lij表示第i个位置的第j个氨基酸.p(i,k)表示第k个氨基酸在第i个位置出现的频率,q(j,k)是第j和第k个氨基酸之间Dayhoff变异矩阵的值,为获得较高和广泛的同源序列,PSI-BLAST的e值参数设置为0.001并选择三次迭代方式。所述步骤c中傅里叶描述子提取特征值:将每一个蛋白质转换的PSSM转置矩阵与原PSSM矩阵进行相乘,这样每个蛋白质序列被转化为一个20×20的矩阵;然后计算矩阵的傅里叶描述子,公式如下:其中z(x)为一个复函数,x是PSSM矩阵封闭边界距离,L是封闭边界长度;对所得的傅里叶描述子进行逆变换,最终每一个蛋白质可以提取出20×2个特征值;所述步骤d中训练集和测试集的构建:利用放回抽样方式对样本进行抽样将human和yeast的阴阳数据集构造成均衡数据集,可以得到human数据集为31876×40,阴阳数据集分别为15938×40,yeast数据集为11022×40,阴阳数据集分别为5511×40;构建用于模型分类的数据集,以数量比4:1随机切割数据集得到训练集和测试集,然后进行5折交叉验证;所述步骤e中分类器模型的构建:设xi∈Rn为原始高维数据空间中的一组列向量,n为维度,降维就是将向量从高维Rn嵌入到一个低维空间Rq中,而且q<<n,输出结果也是在低维空间中的列向量;其中q是接近Γ的内在维度;为了利用随机投影降低Γ的维度,必须构建一个随机向量集其中ri∈Rq,构建方式有两种:(1)向量通常分布在q维的单位球面上,(2)向量的矢量符合伯努利+1/1分布并且将向量标准化为||本文档来自技高网...
一种蛋白质自相互作用的预测方法

【技术保护点】
一种蛋白质自相互作用的预测方法,其特征在于,按下列步骤进行:a、数据集的选择与建立:利用UniProt数据库中的human和yeast两个黄金标准数据集构建预测蛋白质自相互作用的数据集;b、PSSM矩阵的生成:将每一个蛋白质序列的位置都表示为一个M×20的矩阵,其中M代表一种蛋白质残基的数目,矩阵的列代表了20种氨基酸,通过使用BLAST的位置特异性PSI‑BLAST将每个蛋白质都转换成PSSM矩阵;c、傅里叶描述子提取特征值:将步骤b中每一个蛋白质转换的PSSM转置矩阵与原PSSM矩阵进行相乘,这样每个蛋白质序列被转化为一个20×20的矩阵,然后计算矩阵的傅里叶描述子,再计算傅里叶的逆描述子,最终每一个蛋白质提取出20×2个特征值;d、训练集和测试集的构建:利用放回抽样方式对样本进行抽样,将human和yeast的阴阳数据集构造成均衡数据集,然后组成用于模型构建的数据集,以数量比4:1随机切割数据集得到训练集和测试集,然后进行5折交叉验证;e、分类器模型构建:利用高维空间中的随机投影方式构建分类器的训练模型。

【技术特征摘要】
1.一种蛋白质自相互作用的预测方法,其特征在于,按下列步骤进行:a、数据集的选择与建立:利用UniProt数据库中的human和yeast两个黄金标准数据集构建预测蛋白质自相互作用的数据集;b、PSSM矩阵的生成:将每一个蛋白质序列的位置都表示为一个M×20的矩阵,其中M代表一种蛋白质残基的数目,矩阵的列代表了20种氨基酸,通过使用BLAST的位置特异性PSI-BLAST将每个蛋白质都转换成PSSM矩阵;c、傅里叶描述子提取特征值:将步骤b中每一个蛋白质转换的PSSM转置矩阵与原PSSM矩阵进行相乘,这样每个蛋白质序列被转化为一个20×20的矩阵,然后计算矩阵的傅里叶描述子,再计算傅里叶的逆描述子,最终每一个蛋白质提取出20×2个特征值;d、训练集和测试集的构建:利用放回抽样方式对样本进行抽样,将human和yeast的阴阳数据集构造成均衡数据集,然后组成用于模型构建的数据集,以数量比4:1随机切割数据集得到训练集和测试集,然后进行5折交叉验证;e、分类器模型构建:利用高维空间中的随机投影方式构建分类器的训练模型。2.如权利要求1所述的一种蛋白质自相互作用的预测方法,其特征在于,所述步骤a中UniProt数据库中的两个黄金标准数据集:human和yeast,其中human数据集由1441个阳性自相互作用蛋白质和15938个阴性非自相互作用蛋白质组成,yeast数据集由710阳性样本和5511...

【专利技术属性】
技术研发人员:陈沾衡尤著宏李晓蒋同海王延斌方昱斌陈沾兴
申请(专利权)人:中国科学院新疆理化技术研究所
类型:发明
国别省市:新疆,65

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1