药物设计中配体分子海量特征筛选方法技术

技术编号:15501077 阅读:693 留言:0更新日期:2017-06-03 22:37
本发明专利技术公开了药物设计中配体分子海量特征筛选方法。在基于配体的药物分子虚拟筛选中,由于配体分子数量巨大,使用目前最流行的ECFP方法产生的配体分子指纹特征的维数(每一维特征表示一个子结构)将会是海量的,甚至可达上千万维,在实际任务中会陷入“维数灾难”问题。本方法将使用基于EDPP准则的LASSO方法,对配体分子海量的ECFP分子指纹特征进行筛选,利用鲁棒性选择方法得到配体分子相关特征。配体分子的活性通常与少数子结构有关,本方法将快速并大幅去除不相关特征,选择鲁棒的相关特征,解决“维数灾难”问题,得到与配体活性相关的子结构,推动ECFP方法在药物设计中更广泛的应用。

Screening method of ligand molecular mass characteristics in drug design

The invention discloses a screening method for mass characteristics of ligand molecules in drug design. Based on the virtual screening of drug molecules ligand ligand molecules, due to a huge number, dimension of ligand molecular fingerprint using ECFP to generate the most popular method of (each dimension feature representation a sub structure) will be massive, even up to tens of millions of dimensions, in actual task will fall into the \dimension disaster\ problem. In this method, we will use the LASSO method based on the EDPP criterion to screen the massive ECFP molecular fingerprint characteristics of ligand molecules, and obtain the related molecular characteristics of ligands by robust selection method. The ligand activity is usually associated with a sub structure, this method will quickly and substantially remove irrelevant features, the relevant feature selection and robust, solve the \Curse of dimensionality\, get the sub structure associated with ligand activity, promote the application of ECFP method is more widely in drug design.

【技术实现步骤摘要】
药物设计中配体分子海量特征筛选方法
本专利技术涉及一种基于机器学习的配体分子特征筛选方法,属于计算机辅助药物设计的

技术介绍
近年来,如何提高药物虚拟筛选的有效性成为制药企业需要迫切解决的问题。由于大量的生物化学实验为提供了充足的数据,而机器学习的方法正好可以利用这些数据来帮助解决问题。药物虚拟筛选分为基于靶标结构和基于配体的两类方法。基于靶标结构的药物虚拟筛选模拟化合物与靶标之间的物理相互作用来确定是否可能存在药效,如分子对接方法。基于配体的方法主要是在靶标结构未知的情况下,利用已有的数据对化合物的活性进行预测。这类方法最关键的是使用各种方法或分子指纹对化合物进行充分的描述,以研究该化合物是否具有类似活性或治病机理,或归纳得到对化合物活性起关键作用的一些基团的信息。在基于配体的药物虚拟筛选中,配体分子的分子指纹表征是关键。目前,面对海量的化合物分子,最流行的是使用ECFP(Extended-connectivityfingerprints)分子指纹方法进行表征。不同的ECFP分子指纹方法,比如ECFP8、ECFP12等,后面的数字代表配体包含子结构的半径大小,一般来说,半径越大,生成特征越多。由于在药物虚拟筛选中,化合物分子数量巨大,基于ECFP子结构方法产生的特征维数是巨大的。例如,强生制药公司2014年参与的、利用机器学习方法,研究过针对15个药物靶标、基于配体的虚拟筛选的问题,配体分子约为75万个,使用最新的ECFP12分子指纹对配体进行表征,每个配体分子的特征维数高达上千万维。配体分子海量特征在实际任务中会陷入“维数灾难”问题,即数据样本稀疏、距离计算困难等问题,这是所有机器学习方法共同面临的严重障碍。若能从中选择出重要的特征或者去除不相关特征,往往会降低学习任务的难度,使得后续学习过程仅需在一部分特征上构建模型,则维数灾难问题会大为减轻。配体分子主要是通过药效基团与靶标分子进行作用,而药效基团通常与配体分子的少数子结构有关,即大多数子结构与配体分子的活性无关。如果把配体分子数据集考虑成矩阵,其每行表示一个样本,对应于一个配体分子,而每列表示一个特征,对应于一个特定的子结构。对配体海量特征进行筛选时,需要考虑特征具有的“稀疏性”,即矩阵中的很多列与配体分子的活性是没有关系的,通过特征选择去除这些列,则在实际的学习任务仅需要在较小的矩阵上进行,学习任务的难度可能有所降低,涉及的计算和存储开销会减少,学得模型的可解析性也会提高。最小绝对收缩选择算子(LASSO,LeastAbsoluteShrinkageandSelectionOperator)可以很好地解决上面问题,它将特征选择过程与学习器训练过程融为一体,两者在同一个优化过程中完成,并引入L1范数获得“稀疏”解和降低过拟合风险。考虑到配体分子的特征维数极有可能非常大,传统的LASSSO方法时间开销大,也很难很好地解决此问题。本专利技术选择使用基于加强的对偶多面体投影准则(EnhancedDualPolytopeProjections,EDPP)的LASSSO特征选择方法,来大幅加速配体海量特征筛选过程,仅去除掉大部分不相关的特征(即子结构),这样可以帮助理解与配体活性相关的子结构,并使得后续学习过程仅需在小部分特征上构建模型,大幅提高模型的学习效率。
技术实现思路
本专利技术针对基于配体的药物虚拟筛选中使用ECFP(Extended-connectivityfingerprints)分子指纹对配体分子进行表征时,因为配体分子海量特征在实际任务中会陷入“维数灾难”问题,提出了一种基于EDPPLASSO的特征筛选方法,主要包含ECFP特征生成过程、基于EDPP的LASSO的特征筛选过程。鉴于此,本专利技术的技术方案是一种药物设计中配体分子海量特征筛选方法,包括如下步骤:步骤1:配体分子ECFP特征生成;步骤2:基于EDPPLASSO方法的配体分子特征筛选;步骤3:基于鲁棒性选择方法的配体分子特征选择。进一步,步骤1从数据库中得到初始数据集其中是每个分子的原子连接图,Yi是每个样本的标记,把每个分子的原子连接图及所需指纹深度输入ECFP生成软件,得到描述样本的ECFP特征,处理过的数据集Dt={(Xi,Yi)|Xi∈R1*m,1≤i≤n}。步骤2和步骤3的特征筛选过程是通过两步优化,首先根据选取对于满足条件的一定数量的λ={λi|0≤i<K,λi>λi+1},对应于相同数量的特征筛选结果Τ={Τi|Τi∈R1*m,0≤i<K},其中Τi值为1代表特征保留,为0代表是无关特征,可删除,然后综合考虑这些特征筛选结果,把K个Ti叠加起来,这就得到每一位特征被选择的频数,特征被选择的次数越多,代表其越有可能是相关的特征,选取p个被选择次数最多的特征,得到鲁棒的特征选择结果,从而避免了使用单一参数值可能带来模型效果差的问题。为取得最佳的筛选效果,上述一定数量优选为100。本专利技术的有益效果:1、解决“维数灾难”问题,使得后续学习过程仅需在小部分特征上构建模型,大幅提高模型的学习效率。2、快速并大幅去除不相关特征,得到鲁棒的相关特征,利于理解与配体活性理解与配体活性相关的子结构,增加模型的可理解性。附图说明图1为本专利技术系统的构架图。图2为本专利技术的方法流程图。具体实施方式以下结合说明书附图对本专利技术作进一步的详细说明。图1为本专利技术系统的构架图,基于该构架本专利技术提供了一种基于EDPP准则的LASSO配体海量特征筛选方法,该方法具体实施步骤包括如下:步骤1:配体分子ECFP特征生成。给定初始数据集其中是每个分子的原子连接图,Yi是每个样本的标记。对初始数据集进行处理,得到描述样本的ECFP特征,即数据集Dt={(Xi,Yi)|Xi∈R1*m,1≤i≤n}。步骤2:基于EDPPLASSO方法的配体分子特征筛选。对数据集Dt,应用EDPP准则,对于满足条件(λ∈(0,λ0])的λ={λi|0≤i<K,λi>λi+1},得到每个λ值的特征筛选结果Τ={Τi|Τi∈R1*m,0≤i<K},其中Τi值为1代表特征保留,为0代表是无关特征,可删除。步骤3:基于鲁棒性选择(stabilityselection)方法的配体分子特征选择。对于步骤2的特征筛选结果,把K个Ti叠加起来,这就得到每一位特征被选择的频数,特征被选择的次数越多,代表其越有可能是相关的特征,选取p个被选择次数最多的特征,得到鲁棒的特征选择结果。进一步,步骤1中把从数据库中得到的每个分子的原子连接图及所需指纹深度输入ECFP生成软件,会得到每个分子固定长度的ECFP特征。由于数据集的特征是由全体分子生成的,分子之间会有共同的特征,也会有自身独特的特征,因此把所有分子的特征组合起来,删除重复的共有特征,把剩下来的特征作为最后的特征描述。上述步骤2和步骤3的特征筛选过程是通过两步优化,首先根据选取对于满足条件的一定数量的λ={λi|0≤i<K,λi>λi+1},对应于相同数量的特征筛选结果Τ={Τi|Τi∈R1*m,0≤i<K},其中Τi值为1代表特征保留,为0代表是无关特征,可删除。然后综合考虑这些特征筛选结果,把K个Ti叠加起来,这就得到每一位特征被选择的频本文档来自技高网
...
药物设计中配体分子海量特征筛选方法

【技术保护点】
药物设计中配体分子海量特征筛选方法,其特征在于,所述方法包括如下步骤:步骤1:配体分子ECFP特征生成;步骤2:基于EDPP LASSO方法的配体分子特征筛选;步骤3:基于鲁棒性选择方法的配体分子特征选择。

【技术特征摘要】
2016.12.14 CN 20161115510301.药物设计中配体分子海量特征筛选方法,其特征在于,所述方法包括如下步骤:步骤1:配体分子ECFP特征生成;步骤2:基于EDPPLASSO方法的配体分子特征筛选;步骤3:基于鲁棒性选择方法的配体分子特征选择。2.根据权利要求1所述的药物设计中配体分子海量特征筛选方法,其特征在于,步骤1从数据库中得到初始数据集其中是每个分子的原子连接图,Yi是每个样本的标记,把每个分子的原子连接图及所需指纹深度输入ECFP生成软件,得到描述样本的ECFP特征,处理过的数据集Dt={(Xi,Yi)|Xi∈R1*m,1≤i≤n}。3.根据权利要求1所述的药...

【专利技术属性】
技术研发人员:吴建盛张邱鸣胡海峰
申请(专利权)人:南京邮电大学
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1