【技术实现步骤摘要】
基于遗传算法的ER
α
拮抗剂的生物活性和ADMET性质优化方法
[0001]本专利技术涉及生物制药、机器学习以及智能优化算法
,尤其涉及基于遗传算法的ERα拮抗剂的生物活性和ADMET性质优化方法。
技术介绍
[0002]乳腺癌是目前世界上最常见,致死率最高的癌症之一,发病机制不明,且具有一定的遗传性。根据数据统计,乳腺癌常发病于女性之间,而男性患者较为罕见,在我国,乳腺癌的发病率呈逐年上升趋势,每年有30余万女性被诊断出乳腺癌。在东部沿海地区及经济发达的大城市,乳腺癌发病率上升尤其明显。从发病年龄来看,我国乳腺癌发病率从20岁以后开始逐渐上升,45~50岁达到高值。随着新的治疗策略和方法的普及,全球乳腺癌的死亡率逐步下降。目前常见的乳腺癌治疗方法包含以下五种:1)手术治疗;2)化疗;3)放射治疗;4)靶向治疗;5)激素治疗。
[0003]大量的数据显示,超过一半的乳腺癌患者的雌激素受体ERα亚型异常,因而雌激素受体α亚型(ERα)在乳腺癌的临床治疗中具有重要意义。选取合适的候选药物拮抗ERα ...
【技术保护点】
【技术特征摘要】
1.基于遗传算法的ERα拮抗剂的生物活性和ADMET性质优化方法,其特征在于:包含以下步骤:1、变量筛选:(1)统计各自变量的数据全为零的情况,将所有样本数据全为零的变量进行删除;(2)随机森林重要度筛选随机森林算法在分类的基础上进行回归分析,通过将样本分类的结果进行一定的运算获得各个特征重要性特征的重要性表示特征对预测结果影响程度,某一特征重要性越大,表明该特征对预测结果的影响越大,重要性越小,表明该特征对预测结果越小,特征权值反映了操作变量的重要程度占比,对每一个操作变量的特征权值,其表示为该特征的平均袋外数据误差与全体特征平均袋外数据误差之和的比值,具体数学表达式如下所示:其中,weight
j
为特征j的权值,MOET
j
为特征j的平均袋外数据误差,D为特征总数,此处为预处理后的操作变量总数;(3)斯皮尔曼(Spearman)相关系数当样本不符合正态分布时,使用斯皮尔曼相关系数来做相关性分析,斯皮尔曼相关系数描述两个样本的数据是否在一条直线上,是描述两个样本之间是否具有相关性,以及两样本之间相关强度的指标,当相关系数的绝对值越接近于1时,代表两个样本越相关;斯皮尔曼相关系数的定义为:其中,x
i
,y
i
代表秩次,ρ表示相关系数,当ρ值得绝对值越接近于1时,表示两个样本之间越线性相关;2、预测模型建立:随机森林算法是一种集成学习方法,随机森林是以K个决策树{h(X,θ
k
),k=1,2,...,K}为基本分类器,不同决策树之间没有关联,进行集成学习后得到的一个组合分类器,基于bootstrap方法,随机森林通常能随机地生成数百甚至上千棵分类树,从这些分类树中,把重复度最高的树选作最终的结果,由回归树θ构成组合模型{h(X,θ
k
),k=1,2,...,K},采用K棵决策树h(X,θ
k
)预测值的平均值作为随机森林回归模型最终输出的预测结果;训练随机森林的过程就是训练各个决策树的过程,由于各个决策树的训练是相互独立的,随机森林的训练可以通过并行处理来实现;3、分类模型建立XGBoost以分类回归树为基分类器,采用集成学习中梯度提升的方法进行加法训练,将多个个体分类器组合成一个集成分类器;XGBoost模型的基学习器为分类回归树,对于一棵分类回归树,其复杂度由结构q和叶子节点输出值ω决定,对于一个确定的输入x,存在一个ω与之对应,表征分类回归树对当前输入的预测结果;对于一个有n个样本,m个特征的数据集D={x,y}(|D|=n,x
i
∈R
m
,y
i
∈R),K棵分类回归
树预测最终输出为:其中F={f(x)=ω
q(x)
},(q:R
m
→
T,ω∈R
T
)为分类回归树构成的集合;ω为叶子的重;T为叶子节点个数;q为表示每棵树的结构的向量,由样本指向相应的叶子标签;每个函数f
k
对应一棵独立的树结构qk和叶子权重k;每棵分类回归树的每个叶子节点对应一个连...
【专利技术属性】
技术研发人员:张晓峰,陈哲,欧垚君,丁红,陶秦,施正阳,魏东,
申请(专利权)人:南通大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。