当前位置: 首页 > 专利查询>中南大学专利>正文

一种基于机器学习算法提升对接软件虚拟筛选能力的方法技术

技术编号:24858814 阅读:93 留言:0更新日期:2020-07-10 19:10
本发明专利技术公开一种机器学习算法提升对接软件虚拟筛选能力的方法,依照实施虚拟筛选的目标靶点,收集该靶点下小分子数据构成模型训练的数据集,从PDB数据集中下载靶点蛋白;确定实施筛选的对接软件和打分函数,将数据集中的全部分子对接到靶点蛋白中,输出全部能量辅助项作为机器学习分类模型的输入特征;对于数据集中的正样本和负样本进行分层抽样以使活性分子和非活性分子的比例在训练集和测试集中保持相同;选择XGBoost算法作为分类模型方法,保留最佳参数组作为最终参数输出该分类模型;将外部小分子数据集与靶点蛋白对接,输出每一化合物的全部能量辅助项作为测试的输入特征;将所有分子的能量辅助项输入到已经训练好的模型输出预测结果。

【技术实现步骤摘要】
一种基于机器学习算法提升对接软件虚拟筛选能力的方法
本专利技术涉及生物信息学分析
,尤其涉及一种基于机器学习算法提升对接软件虚拟筛选能力的方法。
技术介绍
早期药物发现通常依赖于高通量筛选,其筛选表现相对可靠但是费用较高且命中率低。随着计算化学和计算机技术的快速发展,虚拟筛选逐渐成为药物研发的核心技术之一。作为计算机辅助药物设计(CADD)的重要分支,虚拟筛选能够从大的化合物数据库中富集潜在的活性分子,从而加速药物研发过程并且极大地降低时间和资源成本。按照筛选起点的不同,虚拟筛选可以分为基于配体的虚拟筛选(LBVS)和基于结构的虚拟筛选(SBVS)。其中基于结构的虚拟筛选(SBVS)充分考虑了配体和受体的结合效果,能够避免局部作用,整体结合欠佳的情况,是虚拟筛选中发现新颖活性分子更为可靠的策略。分子对接是最广泛使用的基于结构药物设计方法,常用的对接软件包括MOE-Dock,DOCK,Glide,GOLD和AutoDockVina等。蛋白配体对接的一般过程是把配体小分子放在受体的活性口袋中,通过不断优化小分子的位置以及分子内部柔性键本文档来自技高网...

【技术保护点】
1.一种基于机器学习算法提升对接软件虚拟筛选能力的方法,其特征在于,所述方法包括:/n步骤1,构建机器学习模型,依照实施虚拟筛选的目标靶点,收集该靶点下小分子数据构成模型训练的数据集,从PDB数据集中下载靶点蛋白;/n步骤2,确定实施所述虚拟筛选的对接软件和打分函数,将数据集中的全部分子对接到靶点蛋白中,输出全部能量辅助项作为机器学习分类模型的输入特征;/n步骤3,对于数据集按照训练集:测试集=80%:20%的比例进行批分,其中对于数据集中的正样本和负样本进行分层抽样以使活性分子和非活性分子的比例在训练集和测试集中相同;/n步骤4,选择XGBoost算法作为分类模型的学习方法,使用网格搜索进行...

【技术特征摘要】
1.一种基于机器学习算法提升对接软件虚拟筛选能力的方法,其特征在于,所述方法包括:
步骤1,构建机器学习模型,依照实施虚拟筛选的目标靶点,收集该靶点下小分子数据构成模型训练的数据集,从PDB数据集中下载靶点蛋白;
步骤2,确定实施所述虚拟筛选的对接软件和打分函数,将数据集中的全部分子对接到靶点蛋白中,输出全部能量辅助项作为机器学习分类模型的输入特征;
步骤3,对于数据集按照训练集:测试集=80%:20%的比例进行批分,其中对于数据集中的正样本和负样本进行分层抽样以使活性分子和非活性分子的比例在训练集和测试集中相同;
步骤4,选择XGBoost算法作为分类模型的学习方法,使用网格搜索进行超参数寻优,保留最佳参数组作为模型的最终参数并输出该分类模型;
步骤5,将用于虚拟筛选的外部小分子数据集与靶点蛋白对接,输出每一化合物的全部能量辅助项作为测试的输入特征;
步骤6,将所有分子的能量辅助项输入到已经训练好的模型中,输出每一分子的预测为活性分子的概率值;
步骤7,将所述预测结果的值进行降序排列,确定排名前1%的化合物;
步骤8,对所述排名前1%的化合物做进一步的分子动力学和生物活性测定研究。


2.如权利要求1所述的一种基于机器学习算法提升对接软件虚拟筛选能力的方法,其特征在于,所述步骤1进一步包括:从ChEMBL数据集中挑选模型构建的活性分...

【专利技术属性】
技术研发人员:曹东升熊国丽叶文玲
申请(专利权)人:中南大学
类型:发明
国别省市:湖南;43

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1