当前位置: 首页 > 专利查询>南通大学专利>正文

基于梯度提升决策树的ERα拮抗剂的生物活性定量预测方法技术

技术编号:32806422 阅读:23 留言:0更新日期:2022-03-26 19:58
本发明专利技术公开了基于梯度提升决策树的ERα拮抗剂的生物活性定量预测方法,属于生物制药和机器学习技术领域;解决了梯度提升决策树线性和非线性的多元回归模型不能很好的进行拟合的技术问题;其技术方案为:包括以下步骤:步骤一:对影响ERα拮抗剂的生物活性的变量数据进行预处理;步骤二:变量的筛选;步骤三:独立性检验;步骤四:模型建立。本发明专利技术的有益效果是:本发明专利技术在数据的采集过程中,先对数据进行预处理,删除全为零的列,降低了不良数据对预测模型的影响,也加快了变量的筛选速度;通过传统方法和机器学习方法筛选出特征变量,再通过特征变量建立ERα拮抗剂的生物活性定量预测模型。测模型。测模型。

【技术实现步骤摘要】
基于梯度提升决策树的ER
α
拮抗剂的生物活性定量预测方法


[0001]本专利技术涉及生物制药和机器学习
,尤其涉及基于梯度提升决策树的ERα拮抗剂的生物活性定量预测方法

技术介绍

[0002]乳腺癌是发生于乳腺上皮或导管上皮的一种恶性肿瘤,发病机制不明,且具有一定的遗传性。它是一类比较常见且具有较高死亡率的癌症。根据数据统计,乳腺癌常发病于女性之间,而男性患者较为罕见,令人担忧的是,近年来,乳腺癌的发病人口持续增加,且患者愈加年轻化。目前常见的乳腺癌治疗方法包含以下五种:1)手术治疗;2)化疗;3)放射治疗;4)靶向治疗;5)激素治疗。
[0003]大量的数据显示,超过一半的乳腺癌患者的雌激素受体α亚型异常,因而雌激素受体α亚型(ERα)在乳腺癌的临床治疗中具有重要意义。选取合适的候选药物拮抗ERα活性是治疗乳腺癌的一种重要的临床手段。目前,在拮抗ERα活性的药物临床研发过程中,为了降低研发成本,提高效率,针对雌激素受体α亚型,在数据库中抓取大量应用于该目标的化合物以及其相关数据,然后基于化合物的分子结构描述和本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.基于梯度提升决策树的ERα拮抗剂的生物活性定量预测方法,其特征在于:包括以下步骤:1、对影响ERα拮抗剂的生物活性的变量数据进行预处理:统计各个自变量的所有样本数据全为零的情况,将样本数据全为零的变量进行删除;2、变量的筛选:(1)皮尔逊(Pearson)相关系数筛选线性相关变量皮尔逊相关系数是描述两个变量之间线性相关性的度量方法,在区间

1到1之间取值;皮尔逊相关系数的定义为:取两个随机变量X,Y的N个观测值,其中X
i
,Y
i
分别代表变量X,Y的第i个观测值,分别代表两个变量的均值;(2)互信息筛选非线性相关变量:选取与目标变量高度相关的特征,对因变量与自变量求取互信息,选取互信息值比较大的自变量作为目标特征:信息熵:选取一个随机变量X,X
i
,i={1,2,3...,N},是变量X的一组观测值,p(x)为变量X取值x时的概率,信息熵如下表示:当H(x)取值越大时,变量X越不确定;条件熵:在选定随机变量X的条件下,定义随机变量Y关于X的条件熵:其中p(x,y)为随机变量X与Y的联合概率密度,p(y/x)为在确定x的条件下变量y的条件概率密度;互信息:I(X;Y)=H(X)

H(X/Y)在上述基础上,利用算法,依次计算因变量(生物活性)与自变量(分子描述符)的互信息,互信息值越大,两者之间的相关性越强,根据互信息大小进行排序,选取前200个与生物活性相关性强的作为目标特征变量;(3)随机森林筛选随机森林的基本分类器是决策树,它是一种机器算法,结构类似于倒立的树,由根节点,内部节点以及叶子节点组成,每一个非叶子节点都表示一个决策;
特征重要性度量:假设有N个样本数据,M个特征集,从样本数据中有放回地随机抽取n(n<N)个样本作为训练集,剩下的样本数据作为测试集(袋外样本),从特征集中有放回地随机抽取m(m<M)个特征,重复操作k次,选出k棵树组成一个随机森林,选定一棵树,它包含m个特征,对于这棵树中的某个特征,在测试集中,随机改变关于这个特征样本数据,求解前后的测试集误差率的差值作为该特征在这棵树中的重要程度,计算出所有特征在各棵树中的重要程度,得出某个特征在某些树中的重要程度,不能作为该特征在整个...

【专利技术属性】
技术研发人员:张晓峰陈哲欧垚君丁红陶秦施正阳魏东
申请(专利权)人:南通大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1