抗乳腺癌候选药物分子描述符的筛选方法、系统及终端技术方案

技术编号:33038748 阅读:48 留言:0更新日期:2022-04-15 09:18
本发明专利技术公开了抗乳腺癌候选药物分子描述符的筛选方法、系统及终端,涉及医学数据挖掘技术领域,其技术方案要点是:获取多个化合物对ERα的生物活性数据,每个化合物配置有多个分子描述符,得到由分子描述符组成的自变量集;基于LASSO回归方法建立初步筛选模型,以初步筛选模型对自变量集进行降维处理,得到变量系数不为零的初筛变量集;基于随机森林递归特征消除法建立变量筛选模型,以变量筛选模型对初筛变量集对初筛变量集进行迭代特征选择,得到分类精度最高的最优特征变量组合。本发明专利技术能够较好的从大量数据中筛选出最具显著影响的分子描述符,具有效率高、可靠性强以及智能化实现等特点。实现等特点。实现等特点。

【技术实现步骤摘要】
抗乳腺癌候选药物分子描述符的筛选方法、系统及终端


[0001]本专利技术涉及医学数据挖掘
,更具体地说,它涉及抗乳腺癌候选药物分子描述符的筛选方法、系统及终端。

技术介绍

[0002]在我国,乳腺癌的发病率呈逐年上升趋势,每年有30余万女性被诊断出乳腺癌。从发病年龄来看,我国乳腺癌发病率从20岁以后开始逐渐上升,45~50岁达到高值。乳腺癌是乳腺上皮细胞在多种致癌因子的作用下,发生增殖失控的现象。作为一种激素依赖性肿瘤,是目前世界上最常见且致死率较高的癌症之一。
[0003]乳腺癌的发生、发展与雌激素受体α亚型(Estrogen receptors alpha,ERα)的表达密切相关。研究发现,雌激素受体ERα在50%

80%的乳腺肿瘤细胞中表达。而ERα的活性pIC
50
值有关,pIC
50
值越大表明生物活性越高,对抑制ERα活性越有效。因此,能够拮抗ERα活性的化合物可能是治疗乳腺癌的候选药物。近年来,数据挖掘技术通过揭示大量的数据中隐藏着未知的且具有潜在价值的信息,而引起了广大的关注,并提供给人们做决策。在药物研发中,因变量和自变量的切换频率较高、数据量较大,传统的人工处理、简单计算机分析已不能满足研究人员的需求。
[0004]因此,如何研究设计一种时间成本低、分析效率高的抗乳腺癌候选药物分子描述符的筛选方法、系统及终端是我们目前急需解决的问题。

技术实现思路

[0005]为解决现有技术中的不足,本专利技术的目的是提供抗乳腺癌候选药物分子描述符的筛选方法、系统及终端,建立化合物活性筛选模型来选择对活性具有显著影响的分子描述符,用来筛选潜在活性化合物或者预测新的化合物,具有效率高、可靠性强以及智能化实现等特点。
[0006]本专利技术的上述技术目的是通过以下技术方案得以实现的:
[0007]第一方面,提供了抗乳腺癌候选药物分子描述符的筛选方法,包括以下步骤:
[0008]获取多个化合物对ERα的生物活性数据,每个化合物配置有多个分子描述符,得到由分子描述符组成的自变量集;
[0009]基于LASSO回归方法建立初步筛选模型,以初步筛选模型对自变量集进行降维处理,得到变量系数不为零的初筛变量集;
[0010]基于随机森林递归特征消除法建立变量筛选模型,以变量筛选模型对初筛变量集对初筛变量集进行迭代特征选择,得到分类精度最高的最优特征变量组合。
[0011]进一步的,所述分子描述符为用于描述化合物的结构和性质特征的参数。
[0012]进一步的,所述初步筛选模型对自变量集进行降维处理时,综合考虑训练精度和正则化参数变化情况来确定实际降维处理的正则化参数取值。
[0013]进一步的,所述正则化参数取值的确定过程具体为:
[0014]获取不同惩罚项所对应的精度结果;
[0015]以惩罚项为横轴、精度结果为纵轴建立平滑拟合曲线;
[0016]分析得到平滑拟合曲线中不同惩罚项对应的曲线斜率绝对值;
[0017]将曲线斜率绝对值和惩罚项相乘计算得优先值;
[0018]以优先值最大的惩罚项所对应的正则化参数作为最终确定的正则化参数取值。
[0019]进一步的,所述初步筛选模型的计算公式具体为:
[0020][0021]其中,J(θ)表示真实值与预测值的变量;θ表示回归系数;h
θ
(x)
(i)
表示预测第i个样本的值;y
(i)
表示真实第i个样本的值,i∈[1,m];m表示样本个数;n表示参数个数;α表示正则化参数,随着α的增大,各变量的系数会逐渐趋于零;x为自变量,表示分子描述符;y为因变量,表示生物活性;θ
j
表示第j个变量的回归系数。
[0022]进一步的,所述最优特征变量组合的获得过程具体为:
[0023]将初筛变量集中的k个特征作为初始特征子集输入到随机森林分类器中,计算得到每个特征的重要性,并利用交叉验证方法得到初始特征子集的分类精度;
[0024]从当前特征子集中移除特征重要性最低的一个特征,得到一个新的特征子集,再次输入到随机森林分类器中,计算新的特征子集中每个特征的重要性,并利用交叉验证方法得到新的特征子集的分类精度;
[0025]递归的重复上述步骤,直至特征子集为空,最后得到k个不同特征数量的特征子集,选择分类精度最高的特征子集作为最优特征组合。
[0026]进一步的,该筛选方法还包括:
[0027]通过Pearson相关系数来度量最优特征变量组合中两个变量之间的相关程度,并建立相关系数热力分析图;
[0028]识别出相关系数热力分析图中相关系数的正负分布情况,依据正负分布情况将最优特征变量组合的变量分为正相关变量集和负相关变量集。
[0029]第二方面,提供了抗乳腺癌候选药物分子描述符的筛选系统,包括:
[0030]数据采集模块,用于获取多个化合物对ERα的生物活性数据,每个化合物配置有多个分子描述符,得到由分子描述符组成的自变量集;
[0031]初筛模块,用于基于LASSO回归方法建立初步筛选模型,以初步筛选模型对自变量集进行降维处理,得到变量系数不为零的初筛变量集;
[0032]终筛模块,用于基于随机森林递归特征消除法建立变量筛选模型,以变量筛选模型对初筛变量集对初筛变量集进行迭代特征选择,得到分类精度最高的最优特征变量组合。
[0033]第三方面,提供了一种计算机终端,包含存储器、处理器及存储在存储器并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如第一方面中任意一项所述的抗乳腺癌候选药物分子描述符的筛选方法。
[0034]第四方面,提供了一种计算机可读介质,其上存储有计算机程序,所述计算机程序被处理器执行可实现如第一方面中任意一项所述的抗乳腺癌候选药物分子描述符的筛选方法。
[0035]与现有技术相比,本专利技术具有以下有益效果:
[0036]1、本专利技术提出的抗乳腺癌候选药物分子描述符的筛选方法,通过分子描述符表征化合物对ERα的生物活性数据,并基于LASSO回归、随机森林递归特征消除两种算法对数据进行有效降维,能够较好的从大量数据中筛选出最具显著影响的分子描述符,可用于筛选潜在活性化合物或者预测新的化合物,具有效率高、可靠性强以及智能化实现等特点;
[0037]2、本专利技术通过综合考虑了训练精度和正则化参数变化情况来确定实际降维处理的正则化参数取值,使得初筛变量集的筛选更加合理,即在降低初筛变量集的整体数量的基础上,能够有效避免具有影响的分子描述符漏选,达到了数量和筛选质量的平衡;
[0038]3、本专利技术还通过皮尔逊相关系数来分析主要变量的相关性,实现了最优特征变量组合中不同变量的正相关和负相关的自动划分。
附图说明
[0039]此处所说明的附图用来提供对本专利技术实施例的进一步理解,构成本申请的一部分,并不构成本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.抗乳腺癌候选药物分子描述符的筛选方法,其特征是,包括以下步骤:获取多个化合物对ERα的生物活性数据,每个化合物配置有多个分子描述符,得到由分子描述符组成的自变量集;基于LASSO回归方法建立初步筛选模型,以初步筛选模型对自变量集进行降维处理,得到变量系数不为零的初筛变量集;基于随机森林递归特征消除法建立变量筛选模型,以变量筛选模型对初筛变量集对初筛变量集进行迭代特征选择,得到分类精度最高的最优特征变量组合。2.根据权利要求1所述的抗乳腺癌候选药物分子描述符的筛选方法,其特征是,所述分子描述符为用于描述化合物的结构和性质特征的参数。3.根据权利要求1所述的抗乳腺癌候选药物分子描述符的筛选方法,其特征是,所述初步筛选模型对自变量集进行降维处理时,综合考虑训练精度和正则化参数变化情况来确定实际降维处理的正则化参数取值。4.根据权利要求3所述的抗乳腺癌候选药物分子描述符的筛选方法,其特征是,所述正则化参数取值的确定过程具体为:获取不同惩罚项所对应的精度结果;以惩罚项为横轴、精度结果为纵轴建立平滑拟合曲线;分析得到平滑拟合曲线中不同惩罚项对应的曲线斜率绝对值;将曲线斜率绝对值和惩罚项相乘计算得优先值;以优先值最大的惩罚项所对应的正则化参数作为最终确定的正则化参数取值。5.根据权利要求1所述的抗乳腺癌候选药物分子描述符的筛选方法,其特征是,所述初步筛选模型的计算公式具体为:其中,J(θ)表示真实值与预测值的变量;θ表示回归系数;h
θ
(x)
(i)
表示预测第i个样本的值;y
(i)
表示真实第i个样本的值,i∈[1,m];m表示样本个数;n表示参数个数;α表示正则化参数,随着α的增大,各变量的系数会逐渐趋于零;x为自变量,表示分子描述符;y为因变量,表示生物活性;θ
j
表示第j个变量的回归系数。6.根据权利要求1所述的抗乳腺癌候选药物分子描述符的筛选方法,其...

【专利技术属性】
技术研发人员:陈家锐杨培浩李升林慧贤
申请(专利权)人:广东海洋大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1