【技术实现步骤摘要】
一种针对分类不平衡数据优化的随机森林模型训练方法
[0001]本专利技术涉及药物小分子筛选中的机器学习
,具体为一种针对分类不平衡数据优化的随机森林模型训练方法。
技术介绍
[0002]药物开发是一个经济代价巨大的过程,2014年的统计显示,平均每一个新药耗资超过20亿美元,同时,药物开发还受困于低成功率,以中国2017年的一组数据为例,新药开发的失败率高达90%,其中50%的失败归因于有效性,30%的失败归因于安全性。
[0003]在小分子药领域,确认药物活性同样代价巨大,在典型情况下,数千个小分子经过复杂论证以后,仅有少数可以成为药物候选物质,另外,设计新化合物的失败率经常败率高得难以承受,因此,简单快速地从现有类药化合物中挑选出有希望的小分子,减少不必要的活性论证工作对药物开发有重大意义。
[0004]从已知化合物寻找候选分子一般分为两个阶段:第一阶段是利用机器学习或深度学习给出候选分子名录;第二阶段是通过必要的实验手段进一步论证,第一阶段最成功的例子是麻省理工2020年在cell上发表的用图神经 ...
【技术保护点】
【技术特征摘要】
1.一种针对分类不平衡数据优化的随机森林模型训练方法,其特征在于,包括以下步骤:S1、计算小分子化合物的描述符和指纹;S2、构建采样
‑
机器学习流程,确定候选参数;S3、构建贝叶斯优化过程;S4、贝叶斯优化结果验证,给出模型。2.根据权利要求1所述的一种针对分类不平衡数据优化的随机森林模型训练方法,其特征在于,所述步骤S2中采用了针对不平衡样本的采样策略,同时,分类器是可用于不平衡样本的决策树。3.根据权利要求1所述的一种针对分类不平衡数据优化的随机森林模型训练方法,其特征在于,在步骤S2中,所述构建采样是针对不平衡样本的采样策略,所述机器学习流程的分类器是随机森林,可以应对不平衡样本,同时,采用随机森林模...
【专利技术属性】
技术研发人员:关申民,韦嘉,
申请(专利权)人:上海基绪康生物科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。