化合物激素受体活性预测方法和装置制造方法及图纸

技术编号:37861375 阅读:17 留言:0更新日期:2023-06-15 20:51
本发明专利技术提供一种化合物激素受体活性预测方法和装置,所述方法包括以下步骤:获取已知雌雄激素受体活性的样本化合物数据;基于样本化合物数据中的IC50值绘制IC50值分布图,并根据IC50值分布图确定雌雄激素受体活性的强弱的分界点;根据分界点将样本化合物数据中的化合物分类为雌雄激素受体活性强和弱;将样本化合物数据中化合物的SMILES编码转换为相应的指纹信息;以指纹信息描述样本化合物数据中的化合物,并以活性强/弱作为标签对样本化合物数据中的化合物进行标注,以更新样本化合物数据;通过更新后的样本化合物数据对机器学习模型进行训练,得到化合物激素受体活性预测模型;以预测模型对待预测化合物的激素受体活性进行预测。进行预测。进行预测。

【技术实现步骤摘要】
化合物激素受体活性预测方法和装置


[0001]本专利技术涉及机器学习
,具体涉及一种化合物激素受体活性预测方法和一种化合物激素受体活性预测装置。

技术介绍

[0002]许多天然或者非天然的化合物广泛应用于人类的日常生活,如防腐剂、紫外线过滤器、增塑剂、香料、抗菌剂、杀虫剂和阻燃剂等个人护理和消费品,食品都有化合物的存在。值得注意的是,许多化合物作为内分泌干扰物(Endocrine Disrupting Chemicals,EDC),可干扰人类激素的合成和作用导致多种疾病,如生殖能力下降,癌症,甚至幼体死亡。根据内分泌学会的说法,内分泌干扰化学物质是“一种外源性的非自然的化学物质,或化学物质的混合物,它能干扰激素作用的任何方面”。目前国内外采取了许多方法来确定一种化合物是否具有内分泌活性。内分泌干扰者筛查计划和21世纪毒理学测试项目建立了各种体外或体内检测方法,以测量化学物质对人类或野生动物内分泌系统的潜在影响。尽管细胞培养特别是干细胞培养可以替代动物个体进行实验,从而缩短评估过程、提高实验的灵敏度、化合物毒性的实验评估仍然耗时费力。使用数学模型来预测化合物的活性已经成为计算机辅助药物设计的研究热点。数据建模工具在一定的框架下对现有的实验数据进行扩展,可以减少人力物力消耗。
[0003]定量构效关系(Quantitative Structure

Activity Relationship,QSAR)被广泛应用与预测化合物对内分泌蛋白如雌雄激素受体的活性预测,如协同雌激素受体活性预测项目和雄激素受体活性协同建模项目构建就是通过不同QSAR方法训练的雌激素或雄激素受体活性预测。该方法经常结合机器学习算法一起使用。在综合国内外利用机器学习预测化合物的雌雄激素受体活性的基础上,采用支持向量机,随机森林,K

近邻算法分类器,根据定量结构

活性关系方法,利用数据库建立了活性预测模型,有利于实现化合物的高通量筛选。
[0004]综上所述,虽然机器学习算法建立的定量构效关系数学预测模型虽然大大提高了化学品评价和性质快速筛查的进程,但由于算法复杂,操作困难,需要专业的,计算资源以及一定的学科基础,也一定程度限制了预测模型的应用。因此需要一种可以接受更加丰富输入信息的模型,实现化学结构到性质的直接映射,减小模型使用中知识储备的要求,提高模型的使用范围。

技术实现思路

[0005]本专利技术为解决上述技术问题,提供了一种化合物激素受体活性预测方法和装置,能够简单快速、准确高效地预测出化合物激素受体活性。
[0006]本专利技术采用的技术方案如下:
[0007]一种化合物激素受体活性预测方法,包括以下步骤:获取已知雌雄激素受体活性的样本化合物数据,其中,所述样本化合物数据包括化合物的SMILES编码和IC50值;基于所
述样本化合物数据中的IC50值绘制IC50值分布图,并根据所述IC50值分布图确定雌雄激素受体活性的强弱的分界点;根据所述分界点将所述样本化合物数据中的化合物分类为雌雄激素受体活性强和雌雄激素受体活性弱;将所述样本化合物数据中化合物的SMILES编码转换为相应的指纹信息;以所述指纹信息描述所述样本化合物数据中的化合物,并以雌雄激素受体活性强和雌雄激素受体活性弱作为标签对所述样本化合物数据中的化合物进行标注,以更新所述样本化合物数据;通过更新后的样本化合物数据对机器学习模型进行训练,得到化合物激素受体活性预测模型;将待预测化合物转换为SMILES编码,并转换为相应的指纹信息;将所述待预测化合物对应的指纹信息输入所述化合物激素受体活性预测模型,以得到所述待预测化合物的雌雄激素受体活性强/弱的预测结果。
[0008]在BindingDB数据库中获取所述样本化合物数据。
[0009]通过Pandas绘制所述IC50值分布图。
[0010]所述指纹信息为ECFP指纹或MACCS指纹。
[0011]所述机器学习模型为KNN模型、RF模型或SVM模型。
[0012]一种化合物激素受体活性预测装置,包括:获取模块,用于获取已知雌雄激素受体活性的样本化合物数据,其中,所述样本化合物数据包括化合物的SMILES编码和IC50值;绘图模块,用于基于所述样本化合物数据中的IC50值绘制IC50值分布图,并根据所述IC50值分布图确定雌雄激素受体活性的强弱的分界点;分类模块,用于根据所述分界点将所述样本化合物数据中的化合物分类为雌雄激素受体活性强和雌雄激素受体活性弱;第一转换模块,用于将所述样本化合物数据中化合物的SMILES编码转换为相应的指纹信息;更新模块,用于以所述指纹信息描述所述样本化合物数据中的化合物,并以雌雄激素受体活性强和雌雄激素受体活性弱作为标签对所述样本化合物数据中的化合物进行标注,以更新所述样本化合物数据;训练模块,用于通过更新后的样本化合物数据对机器学习模型进行训练,得到化合物激素受体活性预测模型;第二转换模块,用于将待预测化合物转换为SMILES编码,并转换为相应的指纹信息;预测模块,用于将所述待预测化合物对应的指纹信息输入所述化合物激素受体活性预测模型,以得到所述待预测化合物的雌雄激素受体活性强/弱的预测结果。
[0013]所述获取模块在BindingDB数据库中获取所述样本化合物数据。
[0014]所述绘图模块通过Pandas绘制所述IC50值分布图。
[0015]所述指纹信息为ECFP指纹或MACCS指纹。
[0016]所述机器学习模型为KNN模型、RF模型或SVM模型。
[0017]本专利技术的有益效果:
[0018]本专利技术的化合物激素受体活性预测方法和装置,通过SMILES编码和指纹信息的转换,所采用的机器学习模型无需人为定义可量化的结构参数作为分子描述符,节省了分子描述符计算和描述符挑选的时间和计算资源,且应用时对计算化学基础的要求更低;通过绘制IC50值分布图并以确定的分界点进行活性强弱的分类,能够直接建立化学结构与雌雄激素活性之间的映射,可以实现从化学品活性向化学结构的反推,寻找雌雄激素活性的化学结构特征,有助于特定活性化合物的设计发现;适用于大规模化学品雌激素活性的筛查,简单快速,准确率和效率较高;在化合物风险评价、环境安全性评估等领域具有广阔的应用前景。
附图说明
[0019]图1为本专利技术实施例的化合物激素受体活性预测方法的流程图;
[0020]图2为本专利技术一个实施例的化合物指纹示意图;
[0021]图3为本专利技术一个具体实施例的Roc曲线图;
[0022]图4为本专利技术实施例的化合物激素受体活性预测装置的方框示意图。
具体实施方式
[0023]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种化合物激素受体活性预测方法,其特征在于,包括以下步骤:获取已知雌雄激素受体活性的样本化合物数据,其中,所述样本化合物数据包括化合物的SMILES编码和IC50值;基于所述样本化合物数据中的IC50值绘制IC50值分布图,并根据所述IC50值分布图确定雌雄激素受体活性的强弱的分界点;根据所述分界点将所述样本化合物数据中的化合物分类为雌雄激素受体活性强和雌雄激素受体活性弱;将所述样本化合物数据中化合物的SMILES编码转换为相应的指纹信息;以所述指纹信息描述所述样本化合物数据中的化合物,并以雌雄激素受体活性强和雌雄激素受体活性弱作为标签对所述样本化合物数据中的化合物进行标注,以更新所述样本化合物数据;通过更新后的样本化合物数据对机器学习模型进行训练,得到化合物激素受体活性预测模型;将待预测化合物转换为SMILES编码,并转换为相应的指纹信息;将所述待预测化合物对应的指纹信息输入所述化合物激素受体活性预测模型,以得到所述待预测化合物的雌雄激素受体活性强/弱的预测结果。2.根据权利要求1所述的化合物激素受体活性预测方法,其特征在于,在BindingDB数据库中获取所述样本化合物数据。3.根据权利要求1所述的化合物激素受体活性预测方法,其特征在于,通过Pandas绘制所述IC50值分布图。4.根据权利要求1所述的化合物激素受体活性预测方法,其特征在于,所述指纹信息为ECFP指纹或MACCS指纹。5.根据权利要求1所述的化合物激素受体活性预测方法,其特征在于,所述机器学习模型为KNN模型、RF模型或SVM模型。6.一种化合物激素受体活性预测装置,其特征在于,包括:获取模块,用于获取已知雌雄激...

【专利技术属性】
技术研发人员:胡帅许志旺孔韧谢良旭
申请(专利权)人:江苏理工学院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1