当前位置: 首页 > 专利查询>江南大学专利>正文

一种基于人工蜂群与粒子群混合算法的蛋白质耐热温度的多元线性回归计算方法技术

技术编号:13290562 阅读:165 留言:0更新日期:2016-07-09 09:10
本发明专利技术公开了一种基于人工蜂群与粒子群混合算法的蛋白质耐热温度的多元线性回归计算方法,属于计算机应用技术领域。本发明专利技术方法是将人工蜂群算法和粒子群算法结合,利用人工蜂群算法的局部搜索能力优化粒子群算法的粒子速度和位置,以防止粒子群算法陷入局部最优,从而获得全局最优解;粒子群算法基于最优的粒子速度和位置,优化蛋白质耐热温度与氨基酸含量+氨基酸网络拓扑属性之间的多元线性回归模型的参数,从而确定蛋白质的耐热温度。本发明专利技术方法利用人工蜂群算法和粒子群算法的高效性、快速性、通用性和鲁棒性,确定了蛋白质耐热温度与氨基酸含量+氨基酸网络拓扑属性的线性回归模型,这为直接用蛋白质序列和结构来预测蛋白质的耐热温度提供了有效的手段。

【技术实现步骤摘要】

本专利技术是一种基于人工蜂群与粒子群混合算法的蛋白质耐热温度的多元线性回归计算方法,属于计算机应用
具体的说就是利用人工蜂群与粒子群混合算法优化多元线性回归模型,快速准确的预测蛋白质的耐热温度,该方法在机器学习,语音识别,函数优化等领域有广泛的应用。
技术介绍
在过去的几十年间,蛋白质耐热温度(ProteinMeltingTemperature,PMT)的研究备受关注。蛋白质耐热温度是指蛋白质在热变性过程中解折叠到50%时的温度,它是蛋白质热稳定性高低的评价指标。蛋白质耐热温度可以通过差分扫描量热法、圆二色谱法、傅里叶变换红外光谱学等实验方法测定。然而这些实验方法耗时耗力,不仅需要专用设备,还需要完全提纯蛋白质。由于蛋白质特定的序列和空间结构决定了其热稳定性,利用序列和结构信息,基于智能计算方法对蛋白质耐热温度进行预测,已经逐渐成为蛋白质热稳定性研究领域的有效途径。KuTienhsiung(《Predictingmeltingtemperaturedirectlyfromproteinsequences》,ComputtationalBiologyandChemistry,2009(33),445-450)等人使用统计估算法,通过建立二肽含量与蛋白质耐热温度之间的关联性来估算耐热温度的范围,然而该方法不能预测蛋白质具体的耐热温度值。MaldeGorania(《Predictingaprotein’smeltingtemperaturefromitsaminoacidsequence》,32ndAnnualInternationalConferenceoftheIEEEEMBSBuenosAires,Argentina,2010,1820-1823)等人基于序列信息,构建人工神经网络和自适应网络模糊推理系统模型,通过分析蛋白质氨基酸序列和蛋白质耐热温度之间的复杂非线性关系来预测蛋白质耐热温度,采用的是机器学习的预测方法,然而该方法中机器学习使用的特征向量为氨基酸序列信息,未涵盖影响蛋白质热稳定性的结构信息。FabrizioPucci(《StabilityCurvePredictionofHomologousProteinsUsingTemperature-DependentStatisticalPotentials》,PLOSComputationalBiology,2014,10(7):e1003689.)等人使用统计势能预测了同源蛋白质的热稳定性曲线,该方法需要得到蛋白质的统计势能,计算蛋白质的折叠自由能,然后使用吉布斯—亥姆霍兹方程获得预测曲线,预测过程较复杂,需要大量实验测得的数据。人工蜂群与粒子群混合算法是一种利用人工蜂群算法弥补粒子群算法在寻优过程中易出现早熟、陷入局部最优的缺陷的方法,从而使粒子群算法获得全局最优解,已经在机器学习,语音识别,函数优化等领域有了重要应用,然而文献及专利中未见有将人工蜂群与粒子群混合算法用于蛋白质耐热温度的多元线性回归计算。
技术实现思路
有鉴于此,本专利技术的目的是利用人工蜂群算法的局部搜索能力优化粒子群算法的粒子速度和位置,以防止粒子群算法陷入局部最优,从而获得全局最优解,粒子群算法基于最优的粒子速度和位置,优化多元线性回归模型的参数,以蛋白质的氨基酸含量+残基网络拓扑属性为模型的自变量,得到关于蛋白质耐热温度的多元线性回归方程。本专利技术的技术方案:一种基于人工蜂群与粒子群混合算法的蛋白质耐热温度的多元线性回归计算方法,采用下列步骤:(1)人工蜂群与粒子群混合算法优化多元线性回归模型参数b0,b1,…,b22。使用最小二乘方法估算回归参数,确定人工蜂群与粒子群混合算法优化过程中的适应度函数。然后初始化粒子群算法的参数,利用标准粒子群算法更新粒子速度和位置,然后利用人工蜂群的局部搜索策略在全局最优解附近搜索新的解,根据适应度函数更新粒子位置,多次迭代找到最优解,确定模型参数b0,b1,…,b22;(2)基于蛋白质的氨基酸含量+氨基酸网络拓扑属性建立多元线性回归方程,计算耐温蛋白质和耐热蛋白质的耐热温度,并评估该计算方法的性能。以蛋白质的20个氨基酸含量+2个氨基酸网络拓扑属性为自变量,利用人工蜂群和粒子群混合算法优化得来的最优的b0,b1,…,b22,分别计算耐温蛋白质和耐热蛋白质的耐热温度,并评估计算方法的性能。所述的基于人工蜂群与粒子群混合算法的蛋白质耐热温度的多元线性回归计算方法,其特征在于将人工蜂群算法和粒子群算法结合,利用人工蜂群算法的局部搜索能力优化粒子群算法的粒子速度和位置,以防止粒子群算法陷入局部最优,从而获得全局最优解;粒子群算法基于最优的粒子速度和位置,优化蛋白质耐热温度与氨基酸含量+氨基酸网络拓扑属性之间的多元线性回归模型的参数,从而确定蛋白质的耐热温度;所述的蛋白质的20种氨基酸分别为:丙氨酸、半胱氨酸、天冬氨酸,谷氨酸、苯丙氨酸、甘氨酸、组氨酸、异亮氨酸、赖氨酸、亮氨酸、天冬酰胺、脯氨酸、谷氨酰胺、精氨酸、丝氨酸、苏氨酸、缬氨酸、色氨酸、酪氨酸;2种氨基酸网络拓扑属性分别为:特征路径长度和接近中心性。多元线性回归模型是利用数理统计中的回归分析,来确定两种以上变量间相互依赖的定量关系的一种统计分析方法,因具有较强的适应性和推广能力,在各个领域中得到广泛应用。利用人工蜂群与粒子群混合算法,以蛋白质的氨基酸含量+氨基酸网络拓扑属性为自变量,优化以耐热温度为因变量的多元线性回归模型,计算蛋白质的耐热温度。蛋白质耐热温度PMT的回归分析是一个多元线性回归的问题。多元线性回归的模型为:Y=b0+b1X1+b2X2+…+bmXm+ε其中,b0是常数项,b1,b2,…,bm称为偏回归系数,bi(i=1,2,…,m)表示在其它自变量保持不变的条件下,自变量Xi改变一个单位时因变量的平均改变量。ε为残差,又称随机误差,是Y的变化中不能由自变量解释的部分。利用最基本最常用的方法:最小二乘法,估算回归参数b0,b1,…,bm的值。设与多元线性模型对应的样本回归模型为:Y=b^0+b^1X1+b^2X2+...+b^mXm+ϵ^]]>用矩阵表示为:Y=Xb^+ϵ^]]>其中,X=[X1,X2,…,Xm]为自变量,为总体回归系数的最小二乘估计,为残差向量。根据最小二乘法的定义,在样本回归模型中使残差平方和最小的回归系数的估计,即使最小的为使最小,可将看作是的函数,将的一阶偏导数置为零,即可得到所以从而得到回归系数的求解公式。...
一种基于人工蜂群与粒子群混合算法的蛋白质耐热温度的多元线性回归计算方法

【技术保护点】
一种基于人工蜂群与粒子群混合算法的蛋白质耐热温度的多元线性回归计算方法,其特征是采用下列步骤:(1)人工蜂群与粒子群混合算法优化多元线性回归模型参数b0,b1,…,b22。使用最小二乘方法估算回归参数,确定人工蜂群与粒子群混合算法优化过程中的适应度函数。然后初始化粒子群算法的参数,利用标准粒子群算法更新粒子速度和位置,利用人工蜂群的局部搜索策略在全局最优解附近搜索新的解,根据适应度函数更新粒子位置,迭代找到最优解,确定模型参数b0,b1,…,b22;(2)基于蛋白质的氨基酸含量+氨基酸网络拓扑属性建立多元线性回归方程,计算耐温蛋白质和耐热蛋白质的耐热温度。以蛋白质的20个氨基酸含量+2个氨基酸网络拓扑属性为自变量,利用人工蜂群和粒子群混合算法优化得来的最优的b0,b1,…,b22,分别计算耐温蛋白质和耐热蛋白质的耐热温度。

【技术特征摘要】
1.一种基于人工蜂群与粒子群混合算法的蛋白质耐热温度的多元线性回归计算方法,
其特征是采用下列步骤:
(1)人工蜂群与粒子群混合算法优化多元线性回归模型参数b0,b1,…,b22。
使用最小二乘方法估算回归参数,确定人工蜂群与粒子群混合算法优化过程中的适应
度函数。然后初始化粒子群算法的参数,利用标准粒子群算法更新粒子速度和位置,利用人
工蜂群的局部搜索策略在全局最优解附近搜索新的解,根据适应度函数更新粒子位置,迭
代找到最优解,确定模型参数b0,b1,…,b22;
(2)基于蛋白质的氨基酸含量+氨基酸网络拓扑属性建立多元线性回归方程,计算耐温
蛋白质和耐热蛋白质的耐热温度。
以蛋白质的20个氨基酸含量+2个氨基酸网络拓扑属性为自变量,利用人工蜂群和粒子
群混合算法优化得来的最优的b0,b1,…,b22...

【专利技术属性】
技术研发人员:高晓梅丁彦蕊
申请(专利权)人:江南大学
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1