基于分子描述符稳定性的分子描述符选择方法技术

技术编号:11975193 阅读:152 留言:0更新日期:2015-08-31 01:08
一种基于分子描述符稳定性的分子描述符选择方法,其过程是:计算出各种不同的化合物分子结构描述符;在原描述符矩阵中扩增一个与其大小相同的非常小幅度的随机变量矩阵后形成一个新的矩阵,利用留一法交叉验证得到回归系数矩阵,求算每个描述符对应的回归系数的平均值和标准偏差值;计算每个描述符在不同r值时的修正的变量稳定性;建立最优的化合物生物活性预测模型。该选择方法可以将信息化的描述符和无意义的描述符显著区分开来,利用这些较少个数的信息化描述符建立的预测模型的预测误差远小于UVE-PLS方法;能够提取出重要的分子结构描述符,提高预测模型质量。

【技术实现步骤摘要】
基于分子描述符稳定性的分子描述符选择方法
本专利技术属于化学计量
,涉及一种化合物的分子描述符,尤其涉及一种基于分子描述符稳定性的分子描述符选择方法。
技术介绍
化合物的生物活性(如Ki,EC50,IC50等)与其分子结构是紧密相关的。定量构效关系(Quantitativestructure-activityrelationship,QSAR)致力于研究化合物的分子结构与其生物活性之间的相关关系。该方法通过描述化合物分子结构的分子结构描述符建立化合物生物活性的有效预测模型。许多种类的化合物分子结构描述符已经被提出用于描述化合物的结构信息。这些化合物分子结构描述符从各个不同的角度尽可能详尽地描述分子的结构特征。把这些分子结构描述符作为训练数据,可以利用偏最小二乘(partialleastsquares,PLS)建模方法建立预测模型,预测化合物的生物活性,并指导药物设计和合成。目前用于描述化合物分子结构的描述符已有数千种,如果将它们全部用来建立预测模型,会导致建模所用的变量(描述符)数据过多,从而严重影响预测模型的质量。通过从大量描述符中选择出来的信息化的描述符,可以建立高效的预测模型。无信息变量消除方法(uninformativevariableelimination-PLS,UVE-PLS)是一种有效的变量消除方法,已被成功应用于连续检测信号的有信息变量提取。该方法采用变量稳定性来评价模型中每个变量的重要性,稳定性小于切断阈值的变量被认为是无信息的变量。为了得到切断阈值,UVE-PLS在原变量矩阵中扩增一个与原矩阵大小相同的非常小幅度(10-15)的随机变量矩阵,从而形成一个新的矩阵,并通过留一法交叉验证产生新矩阵的回归系数矩阵。留一法交叉验证是每次依次从矩阵中删去一行后建立模型求取PLS回归系数的方法。变量(描述符)稳定性(variablestability,VS)被定义为该描述符的所有系数的平均值和标准偏差(standarddeviation,STD)的比率。切断阈值是扩增的随机变量矩阵的最大绝对稳定值。稳定性小于该切断阈值的描述符将从模型中删除。但是化合物分子结构描述符作为非连续的化合物结构信息,如果直接将它们作为变量并利用UVE-PLS提取信息化的分子结构描述符,很容易提取出一些不重要的分子结构描述符,这些描述符不会提高甚至严重降低预测模型质量。
技术实现思路
本专利技术的目的是提供一种基于分子描述符稳定性的分子描述符选择方法,提取重要的分子结构描述符,提高预测模型质量。为实现上述目的,本专利技术所采用的技术方案是:一种基于分子描述符稳定性的分子描述符选择方法,对分子描述符稳定性中的标准偏差项进行了修正,从而根据修正的稳定性正确选择分子描述符,该选择方法具体按以下步骤进行:1)通过化合物的分子结构计算出各种不同的化合物分子结构描述符;2)在原描述符矩阵中扩增一个与其大小相同的非常小幅度(10-15)的随机变量矩阵后形成一个新的矩阵,利用留一法交叉验证得到回归系数矩阵β,求算每个描述符对应的回归系数的平均值和标准偏差值;3)按下式计算每个描述符在不同r值时的修正的变量稳定性:式中,mean(βj)和STD(βj)分别是第j个描述符的回归系数的平均值和标准偏差;4)在每一个r值时,所有的描述符根据其修正的变量稳定性以降序排列,然后,通过按照描述符的排列顺序每次在模型中增加一个描述符变量的方法建立一系列的模型;产生校正的最小均方根误差的模型是该r值时被选择的模型;RMSE值通过下式计算得到:(2)式中,yi和分别是实测值和预测值,n是化合物分子数目。本专利技术选择方法利用修正的变量稳定性(MVS),可以将信息化的描述符和无意义的描述符显著区分开来,信息化的描述符被选择出,其数量小于UVE-PLS方法选择出的描述符,但是利用这些较少个数的信息化描述符建立的预测模型的预测误差(RMSE值为0.6291)却远小于UVE-PLS方法(RMSE值为0.9844);可见,该方法能够提取出重要的分子结构描述符,提高预测模型质量。附图说明图1是回归系数矩阵β的每一列的(每一列对应一个描述符)平均值图,即公式(1)中的mean(βj)。图2是回归系数矩阵β的每一列的(每一列对应一个描述符)标准偏差图,即公式(1)中的STD(βj)。图3是每个描述符在r值为1时的修正的变量稳定性(VS)图,它等于旧方法中的变量稳定性(r值在公式(1)中是次方项,其值为1意味着公式(1)中的分母项不发生变化,即旧方法未被修正)。图4是本专利技术选择方法中每个描述符在不同r值时的修正的变量稳定性(MVS)图,即公式(1)中的MVS。图5是被选择的描述符。具体实施方式下面结合附图和具体实施方式对本专利技术进行详细说明。本专利技术选择方法,按以下步骤(以选择凝血酶的抑制剂分子的描述符为例):1)计算分子描述符:通过化合物的分子结构计算出各种不同的化合物分子结构描述符;2)求算每个描述符对应的PLS回归系数的平均值和标准偏差值:在原描述符矩阵中扩增一个与其大小相同的非常小幅度(10-15)的随机变量矩阵后形成一个新的矩阵,利用留一法交叉验证得到回归系数矩阵β,求算每个描述符对应的回归系数的平均值mean(βj)和标准偏差值STD(βj);3)计算每个描述符在不同r值时的修正的变量稳定性(modifiedvariablestability,MVS),利用指数参数r来修正标准偏差项;修正的变量稳定性计算公式如下:(1)式中,mean(βj)和STD(βj)分别是第j个描述符(总共p个描述符)的回归系数(βj)的平均值和标准偏差;现有的无信息变量消除方法(uninformativevariableelimination-PLS,UVE-PLS)是一种有效的变量消除方法,已被成功应用于连续检测信号的有信息变量提取。该方法采用变量稳定性来评价模型中每个变量的重要性,稳定性小于切断阈值的变量被认为是无信息的变量。为了得到切断阈值,UVE-PLS在原变量矩阵中扩增一个与原矩阵大小相同的非常小幅度(10-15)的随机变量矩阵,从而形成一个新的矩阵,并通过留一法交叉验证产生新矩阵的回归系数矩阵。留一法交叉验证是每次依次从矩阵中删去一行后建立模型求取PLS回归系数的方法。变量稳定性(variablestability,VS)被定义为该描述符的所有系数的平均值和标准偏差(standarddeviation,STD)的比率。切断阈值是扩增的随机变量矩阵的最大绝对稳定值。稳定性小于该切断阈值的描述符将从模型中删除。但是化合物分子结构描述符作为非连续的化合物结构信息,如果直接将它们作为变量并利用UVE-PLS提取信息化的分子结构描述符,很容易提取出一些不重要的分子结构描述符,这些描述符不会提高甚至严重降低预测模型质量。分子描述符的稳定性(VS)可通过如下公式计算得到:(3)式中,mean(βj)和STD(βj)分别是第j个描述符(总共p个描述符)的回归系数(βj)的平均值(如图1所示)和回归系数(βj)的标准偏差(如图2所示)。如图3所示,UVE-PLS方法(r值为1时)的变量稳定性(VS)不能将信息化的描述符和无意义的描述符显著区分开来。但本专利技术选择方法利用修正的变量稳定性(MVS本文档来自技高网
...
基于分子描述符稳定性的分子描述符选择方法

【技术保护点】
一种基于分子描述符稳定性的分子描述符选择方法,其特征在于,对分子描述符稳定性中的标准偏差项进行了修正,从而根据修正的稳定性正确选择分子描述符,该选择方法具体按以下步骤进行:1)通过化合物的分子结构计算出各种不同的化合物分子结构描述符;2)在原描述符矩阵中扩增一个与其大小相同的非常小幅度 (10‑15) 的随机变量矩阵后形成一个新的矩阵,利用留一法交叉验证得到回归系数矩阵β,求算每个描述符对应的回归系数的平均值和标准偏差值;3)按下式计算每个描述符在不同r值时的修正的变量稳定性:式中,mean(βj) 和 STD(βj) 分别是第j个描述符的回归系数的平均值和标准偏差;4)在每一个r值时,所有的描述符根据其修正的变量稳定性以降序排列,然后,通过按照描述符的排列顺序每次在模型中增加一个描述符变量的方法建立一系列的模型;产生校正的最小均方根误差的模型是该r值时被选择的模型;RMSE值通过下式计算得到:(2)式中,yi 和分别是实测值和预测值,n 是化合物分子数目。

【技术特征摘要】
1.一种基于分子描述符稳定性的分子描述符选择方法,其特征在于,对分子描述符稳定性中的标准偏差项进行了修正,从而根据修正的稳定性正确选择分子描述符,该选择方法具体按以下步骤进行:1)通过化合物的分子结构计算出各种不同的化合物分子结构描述符;2)在原描述符矩阵中扩增一个与其大小相同的非常小幅度的随机变量矩阵后形成一个新的矩阵,利用留一法交叉验证得到回归系数矩阵β,求算每个描述符对应的回归系数的平均值和标准偏差值;3)按下式计算每个描述符在不同r值时的修正的变量稳定性:MVSj=abs(mean(βj))/(STD(βj))r,j=1…p,...

【专利技术属性】
技术研发人员:陈晶王世霞邵学广
申请(专利权)人:西北师范大学
类型:发明
国别省市:甘肃;62

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1