【技术实现步骤摘要】
一种基于R
‑
CNN
‑
GA的抗乳腺癌候选药物分类预测方法
[0001]本专利技术属于人工智能
,同时属于医疗大数据分析与应用
,涉及抗乳腺癌候选药物信息数据挖掘选取,特别涉及一种基于R
‑
CNN
‑
GA的抗乳腺癌候选药物分类预测方法。
技术介绍
[0002]在目前的乳腺癌药物研发中,为了节省时间和成本,通常采用建立化合物活性预测模型的方法来筛选潜在活性化合物,因此抗乳腺癌候选药物的优化建模对乳腺药物研发具有深厚影响。高精度挖掘药物数据信息是必要的,但是由于特征变量选取效果低下等原因的存在,使得现有研究中的预测及优化模型效果差强人意,因此需根据多变量非线性降维等特点建立适应的预测及优化模型。
技术实现思路
[0003]为了克服上述现有技术的缺点,本专利技术的目的在于提供一种基于R
‑
CNN
‑
GA的抗乳腺癌候选药物分类预测方法,通过RFE(递归特征消除)和RF(随机森林)降维后,再通过基于C ...
【技术保护点】
【技术特征摘要】
1.一种基于R
‑
CNN
‑
GA的抗乳腺癌候选药物分类预测方法,其特征在于,包括如下步骤:步骤1,将原始抗乳腺癌候选药物数据集采用递归特征消除和随机森林相结合的方式进行主要特征提取,得到对生物活性影响重要性最强的20个主要特征,并根据数据特点,采用最大最小归一化方法对选取的20个主要特征进行数据归一化操作;步骤2,将步骤1中归一化后的数据作为模型输入,输入至ERα生物活性的定量预测模型中,获得每个作用于所述ERα生物活性的化合物的IC50值和PIC50值,其中所述定量预测模型采用CNN_FC模型架构;步骤3,根据原始抗乳腺癌候选药物数据集中的所有特征,采用基于CNN_FC的多标签分类预测方法对数据中化合物的Caco
‑
2、CYP3A4、hERG、HOB、MN特性进行分类预测,获得所有作用于所述ERα生物活性的化合物的分类结果;步骤4,计算步骤1中获得的20个主要特征与单一随机森林降维得到的20个特征的交集,并结合步骤3获得的分类结果,线性分析交集中特征对ADMET和PIC50值的影响正负相关性,取得对PIC50值影响正相关的特征,采用遗传算法计算优化后的取值范围,并结合lingo软件对ADMET和PIC50值之和进行线性规划,获得对应特征的取值,以此对候选药物选取提供数据支撑。2.根据权利要求1所述基于R
‑
CNN
‑
GA的抗乳腺癌候选药物分类预测方法,其特征在于,所述步骤1中,利用递归特征消除和随机森林相结合的方式进行主要特征提取的方法如下:步骤1.1,将原始数据中需要筛选的729个特征输入至随机森林分类器中,计算每个特征的重要性,利用交叉验证方法得到初试特征的分类精度,移除重要性最低的特征;步骤1.2,递归执行步骤1.1,直到剩余特征个数为1,以此获得每个特征重要性排序,取前最重要的20个主要特征,通过计算其相关性及原始特征变量列别划分,验证特征提取有效性。3.根据权利要求1所述基于R
‑
CNN
‑
GA的抗乳腺癌候选药物分类预测方法,其特征在于,所述步骤1中,将20个主要特征使用最大最小归一化的方法进行数据归一化操作,最大最小归一化公式如下所示:其中,x
′
为数据x归一化之后的数值;x
min
为数据x所在列中的最小值;x
max
为数据x所在列中的最大值。4.根据权利要求1所述基于R
‑
CNN
‑...
【专利技术属性】
技术研发人员:翟娜,郑博飞,徐昊,武煜昊,
申请(专利权)人:内蒙古工业大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。