有机污染物定量结构活性相关建模的变量筛选方法技术

技术编号:7786640 阅读:189 留言:0更新日期:2012-09-21 07:52
本发明专利技术公开了一种有机污染物定量结构活性相关建模的变量筛选方法。首先计算全部的单变量和不同双变量组合的线性模型,二者均保留一定数量的最优模型。然后从保留的双变量线性模型中依次取出一个模型,将其中的两个变量与余下的变量中每一个变量分别组成三变量模型;直到所有保留的双变量模型处理完成,然后比较这些三变量模型的优劣,保留一定数量的最优三变量模型。依此类推,计算到构成模型的变量数满足要求时,停止计算。其中模型的优劣以Leave-One-Out?Cross?Validation(LOOCV)或者Leave-Multiple-Out?Cross?Validation(LMOCV)计算的q2或者均方根差RMSEV为终止标准。本发明专利技术原理简单,易于理解,容易编程实现,方法快速有效,保障了变量筛选的合理性以及模型的稳定性和预测能力。

【技术实现步骤摘要】

本专利技术涉及一种,具体地说是从大量的分子结构描述符变量中,选取一定数量相互作用较大的n-变量组合;然后以此为基础,每次增加一个变量,与所有选取出n-变量组合构成(n+l)_变量组合,并筛选出一定数量的(n+l)_变量组合,依次类推,直到满足要求为止,从而得到不同变量数的最优线性模型的一种变量筛选方法。
技术介绍
有机污染物的定量结构活性相关(Quantitative Structure and ActivityRelationship, QSAR)研究方法作为一种计算机建模技术,能够深入挖掘有机污染物结构与其对人体及生态环境造成危害之间的量变规律和因果关系,为从分子水平上将污染物结构与其相对宏观的多样性环境行为和毒性效应进行关联提供了一种强有力的体外模拟技术。QSAR模型可以预测并弥补有机污染物环境行为和生态毒理数据的缺失、节省人力物力,有助于减少和替代实验(尤其是动物实验)测试,因此QSAR目前已经成为污染物环境生态风险评价和人体健康风险评价的重要工具(王连生,韩朔睽,有机污染物的定量结构-活性相关,1993,北京中国环境科学出版社;国家自然科学基金委员会化学科学部组编,叶常明本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种有机污染物定量结构活性相关建模的变量筛选方法,其特征在于具体步骤为 (1)、单变量模型计算过程如下 按照变量顺序,依次取一个变量,即模型变量数Vn = 1,建立一元线性模型,计算其相关系数r2,如果相关系数大于给定的临界值rrai,则进行LOOCV或者LMOCV计算,否则选取下一个变量建立一元线性模型,并保留预先设定的Ns个最优的模型,包括模型的变量,r2、q2、RMSEE和RMSEV等统计参数;直到所有变量计算完成; (2)、双变量模型计算过程如下 从所有两个变量的组合中依次选取一个,即模型变量数Vn = 2,建立二元线性模型,计算其复相关系数r2,如果相关系数大于给定的临界值rrai,则进行LOOCV或者LMOCV计算,否则选取下一个双变量组合建立二元线性模型,并保留预先设定的Ns个最优的模型,包括模型的变量,r2、q2、RMSEE和RMSEV等统计参数;直到所有变量计算完成; (3)、三个及三个以上变量模型计算过程如下 三个及三个以上变量模型的变量数\ ^ 3,从保留的Ns个变量数为Vn-I的模型中选取一个模型,以该模型中的变量为基础,从余下的变量中每次选择一个变量与原来的Vn-I个变量构成变量数为\的变量组合,建立Vn元的线性模型,计算其复相关系数r2,如果相关系数大于给定的临界值rrai,则进行LOOCV或者LMOCV计算,否则选取下一个变量组合,建立Vn元线性模型,直到所有变量计算完成;接着选取下一个变量数为Vn-I的模型,重复以上过程,直到保留的Ns变量数为Vn-I的...

【专利技术属性】
技术研发人员:易忠胜刘红艳莫凌云
申请(专利权)人:桂林理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1