The invention discloses a screening method for mass characteristics of ligand molecules in drug design. Based on the virtual screening of drug molecules ligand ligand molecules, due to a huge number, dimension of ligand molecular fingerprint using ECFP to generate the most popular method of (each dimension feature representation a sub structure) will be massive, even up to tens of millions of dimensions, in actual task will fall into the \dimension disaster\ problem. In this method, we will use the LASSO method based on the EDPP criterion to screen the massive ECFP molecular fingerprint characteristics of ligand molecules, and obtain the related molecular characteristics of ligands by robust selection method. The ligand activity is usually associated with a sub structure, this method will quickly and substantially remove irrelevant features, the relevant feature selection and robust, solve the \Curse of dimensionality\, get the sub structure associated with ligand activity, promote the application of ECFP method is more widely in drug design.
【技术实现步骤摘要】
药物设计中配体分子海量特征筛选方法
本专利技术涉及一种基于机器学习的配体分子特征筛选方法,属于计算机辅助药物设计的
技术介绍
近年来,如何提高药物虚拟筛选的有效性成为制药企业需要迫切解决的问题。由于大量的生物化学实验为提供了充足的数据,而机器学习的方法正好可以利用这些数据来帮助解决问题。药物虚拟筛选分为基于靶标结构和基于配体的两类方法。基于靶标结构的药物虚拟筛选模拟化合物与靶标之间的物理相互作用来确定是否可能存在药效,如分子对接方法。基于配体的方法主要是在靶标结构未知的情况下,利用已有的数据对化合物的活性进行预测。这类方法最关键的是使用各种方法或分子指纹对化合物进行充分的描述,以研究该化合物是否具有类似活性或治病机理,或归纳得到对化合物活性起关键作用的一些基团的信息。在基于配体的药物虚拟筛选中,配体分子的分子指纹表征是关键。目前,面对海量的化合物分子,最流行的是使用ECFP(Extended-connectivityfingerprints)分子指纹方法进行表征。不同的ECFP分子指纹方法,比如ECFP8、ECFP12等,后面的数字代表配体包含子结构的半径大小,一般来说,半径越大,生成特征越多。由于在药物虚拟筛选中,化合物分子数量巨大,基于ECFP子结构方法产生的特征维数是巨大的。例如,强生制药公司2014年参与的、利用机器学习方法,研究过针对15个药物靶标、基于配体的虚拟筛选的问题,配体分子约为75万个,使用最新的ECFP12分子指纹对配体进行表征,每个配体分子的特征维数高达上千万维。配体分子海量特征在实际任务中会陷入“维数灾难”问题,即数据样 ...
【技术保护点】
药物设计中配体分子海量特征筛选方法,其特征在于,所述方法包括如下步骤:步骤1:配体分子ECFP特征生成;步骤2:基于EDPP LASSO方法的配体分子特征筛选;步骤3:基于鲁棒性选择方法的配体分子特征选择。
【技术特征摘要】
2016.12.14 CN 20161115510301.药物设计中配体分子海量特征筛选方法,其特征在于,所述方法包括如下步骤:步骤1:配体分子ECFP特征生成;步骤2:基于EDPPLASSO方法的配体分子特征筛选;步骤3:基于鲁棒性选择方法的配体分子特征选择。2.根据权利要求1所述的药物设计中配体分子海量特征筛选方法,其特征在于,步骤1从数据库中得到初始数据集其中是每个分子的原子连接图,Yi是每个样本的标记,把每个分子的原子连接图及所需指纹深度输入ECFP生成软件,得到描述样本的ECFP特征,处理过的数据集Dt={(Xi,Yi)|Xi∈R1*m,1≤i≤n}。3.根据权利要求1所述的药...
【专利技术属性】
技术研发人员:吴建盛,张邱鸣,胡海峰,
申请(专利权)人:南京邮电大学,
类型:发明
国别省市:江苏,32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。