化学品雌激素受体激活活性的预测模型及筛查方法技术

技术编号:28042142 阅读:39 留言:0更新日期:2021-04-09 23:25
一种化学品雌激素受体激活活性的预测模型及筛查方法,该化学品雌激素受体激活活性预测模型的建立方法包括获取已知雌激素受体激活活性的化学品数据,其中,所述化学品数据包括化学品的SMILES编码;将SMILES编码转换得到M×N的数字矩阵;将获得的已知化学品的数据分为训练集和验证集,构建以SMILES数字矩阵为输入的卷积神经网络模型;使用训练集训练卷积神经网络模型,使用验证集确定卷积神经网络模型的最优超参数,得到最优卷积神经网络模型。本发明专利技术适用于大规模化学品雌激素激活活性的筛查,方法简单快速,效率高,该方法在化学品风险评价、环境安全性评估等领域具有广阔的应用前景。

【技术实现步骤摘要】
化学品雌激素受体激活活性的预测模型及筛查方法
本专利技术涉及化学品环境健康风险评价
,更具体地涉及一种化学品雌激素受体激活活性的预测模型及筛查方法。
技术介绍
随着工业的发展,人类更多地暴露于环境化学品,其中环境内分泌干扰物通过干扰人体激素正常功能,引起人体可逆或者不可逆的生物效应,而受到了政府和研究者的极大关注。早在1999年,美国环保署(EnvironmentalProtectionAgency,EPA)就实施了内分泌干扰物筛选计划。我国国家自然科学基金委员会于2000年也以“环境类激素影响人类健康的机理”为重点项目进行招标,开始了我国在环境类激素方面的大规模研究。而环境雌激素干扰物作为其中重要一类,通过干扰人体内源性雌激素正常功能,可能导致生殖功能障碍、出生缺陷、生长发育异常和生殖系统肿瘤等生理效应,也是当今化学品管理中环境健康风险评价的重要部分。截止2017年,在欧洲化学品登记、评估、授权及限制法规(RegulationofRegistration,Evaluation,Authorization,andRestrictionofChemicals)下进行预注册的化学品数量已达145,297种。对于潜在的内分泌干扰物进行筛选和测试,美国EPA环境内分泌干扰物筛选和测试顾问委员会推荐了由20余种离体与活体测试方法联合组成的多终点方法体系,但是如此实验方法耗费的实验资源和时间巨大。面对如此庞大数量的化学品,应用此方法一一筛查显然不切实际。因此,迫切需要计算方法对化学品潜在雌激素干扰效应进行快速筛查评价。r>定量活性构效关系(QuantitativeStructureActivityRelationships,QSAR)根据已知化学结构性质即分子描述符和生理活性间的定性/定量变化关系,建立基于分子描述符的定性/定量活性预测模型。这一方法的使用大大提高了化学品筛查的效率,成为化学品评价的重要工具之一。传统QSAR预测模型需预先计算和设定一定数量的分子描述符。分子描述符种类繁多,包括分子构成、分析指纹、拓扑指数和三维结构特征等千种描述符。然而受模型方法本身所限,大量与所研究性质无关的描述符的输入会导致模型稳健性较差,并且增加计算复杂性。从统计学角度,分子描述符往往需要进行预先筛选,剔除冗余、相关性高和代表性低的描述符信息。此外,分子描述符的计算亦需要具备一定经验和化学基础,先验知识的判断也一定程度限制了QSAR预测模型的应用和预测性能。随着深度学习(DeepLearning)浪潮的再一次兴起,深度神经网络(DeepNeuralNetwork,DNN)模型在众多领域取得了优异的成果,尤其是在计算机视觉和自然语言处理方面的成功让我们看到将其用于化学品分子识别以至分子性质预测的潜力。深度神经网络模型有着不同于传统机器学习算法的更灵活的结构,使得其可以接受更加丰富多样的输入信息,而不再局限于人为定义的描述符特征,不仅减小了模型使用时前期数据准备的要求,也大幅度提升了模型预测效果。卷积神经网络(ConvolutionalNeuralNetworks,CNN)是一类包含卷积计算且具有深度结构的前馈神经网络,是深度学习的代表算法之一。由于其稀疏连接和权值共享的特点,使其可以提取输入信息的局部特征,并减少了待学习的模型参数从而提高模型的学习效率。而目前CNN在环境雌激素活性评价领域尚未应用。综上所述,基于传统机器学习算法建立的定量构效关系数学预测模型虽然大大提高了化学品评价和性质快速筛查的进程,但由于可用描述符的限制,使其在较为复杂的体系中难以实现足够的预测效果;且描述符的计算和收集需要一定的时间、计算资源以及一定的学科基础,也一定程度限制了预测模型的应用。因此需要一种可以接受更加丰富输入信息的端到端模型,实现化学结构到性质的直接映射,减小模型使用中前期数据准备的要求,提高模型的预测效果和筛查能力。
技术实现思路
有鉴于此,本专利技术的主要目的在于提供一种化学品雌激素受体激活活性的预测模型及筛查方法,以期至少部分地解决上述技术问题中的至少之一。为了实现上述目的,作为本专利技术的一个方面,提供了一种化学品雌激素受体激活活性预测模型的建立方法,包括:S1获取已知雌激素受体激活活性的化学品数据,其中,所述化学品数据包括化学品的SMILES编码;S2将SMILES编码转换得到M×N的数字矩阵;S3将获得的已知化学品的数字矩阵数据分为训练集和验证集,构建以SMILES数字矩阵为输入的卷积神经网络模型;S4使用训练集训练卷积神经网络模型,使用验证集确定卷积神经网络模型的最优超参数,得到最优卷积神经网络模型。作为本专利技术的另一个方面,还提供了一种化学品雌激素受体激活活性的预测模型,采用如上所述的建立方法获得。作为本专利技术的又一个方面,还提供了一种化学品雌激素受体激活活性的筛查方法,采用如上所述的预测模型,包括:将待评价化学品的SMILES编码,转换成大小为M×N的数字矩阵后输入所述的预测模型中,得到雌激素受体激活活性预测值;若预测值大于或等于预设阈值则认为化学品具有雌激素受体激活活性,若预测值小于预设阈值则认为化学品不具有雌激素受体激活活性。基于上述技术方案可知,本专利技术的化学品雌激素受体激活活性的预测模型及筛查方法,具有如下有益效果:(1)不同于传统机器学习算法建立的数学预测模型,本专利技术所采用的卷积神经网络模型无需人为定义的可量化的结构参数作为分子描述符,节省了分子描述符计算和描述符挑选的时间和计算资源,且应用时对计算化学基础的要求更低;(2)本专利技术所采用的卷积神经网络模型,相比于使用固定长度的分子指纹和传统机器学习预测模型有着更优异的预测性能;(3)本专利技术建立了一个端到端的化学品雌激素受体激活活性预测模型,直接建立化学结构与雌激素激活活性之间的映射,可以实现从化学品活性向化学结构的反推,寻找雌激素激活活性的化学结构特征,有助于特定活性化学品的设计发现;(4)本专利技术适用于大规模化学品雌激素激活活性的筛查;方法简单快速,效率高,该方法在化学品风险评价、环境安全性评估等领域具有广阔的应用前景。附图说明图1为本专利技术实施例1采用基于化学品SMILES编码的端到端雌激素受体激活活性快速筛查方法进行化学品评价示意图;图2为本专利技术实施例1中深度神经网络结构示意图;图3为本专利技术实施例1中炔雌醇SMILES经一位有效编码法转换后的数字矩阵的图。具体实施方式为使本专利技术的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本专利技术作进一步的详细说明。根据对现有化学品雌激素受体激活活性预测模型的文献调研,可见所涉及的方法或技术存在缺点。使用传统机器学习方法建立的数学模型,需要以人为定义的量化分子结构参数作为分子描述符,不仅可能造成分子结构信息确实,分子数据的前期准备也会消耗较多时间和计算资源。本专利技术的目的是要提供一种基于分子结构SMILES编码的深度神经网络模型,建立分子结构到性质的端到本文档来自技高网...

【技术保护点】
1.一种化学品雌激素受体激活活性预测模型的建立方法,包括:/nS1获取已知雌激素受体激活活性的化学品数据,其中,所述化学品数据包括化学品的SMILES编码;/nS2将SMILES编码转换得到M×N的数字矩阵;/nS3将获得的已知化学品的数字矩阵数据分为训练集和验证集,构建以SMILES数字矩阵为输入的卷积神经网络模型;/nS4使用训练集训练卷积神经网络模型,使用验证集确定卷积神经网络模型的最优超参数,得到最优卷积神经网络模型。/n

【技术特征摘要】
1.一种化学品雌激素受体激活活性预测模型的建立方法,包括:
S1获取已知雌激素受体激活活性的化学品数据,其中,所述化学品数据包括化学品的SMILES编码;
S2将SMILES编码转换得到M×N的数字矩阵;
S3将获得的已知化学品的数字矩阵数据分为训练集和验证集,构建以SMILES数字矩阵为输入的卷积神经网络模型;
S4使用训练集训练卷积神经网络模型,使用验证集确定卷积神经网络模型的最优超参数,得到最优卷积神经网络模型。


2.根据权利要求1所述的建立方法,其特征在于,
步骤S1中所述化学品数据还包括化学品雌激素受体激活活性二元类别。


3.根据权利要求1所述的建立方法,其特征在于,
步骤S2中将所述SMILES编码转换得到M×N的数字矩阵的方法具体包括:
S2.1将化学品的SMILES编码的字符串拆分为单个字符组成的字符向量;
S2.2设定字符向量为固定长度N,若字符向量长度小于N,则在字符向量后填充字符“0”,使字符向量长度为N;若字符向量长度大于N,则取前N个字符;
S2.3化学品数据中的化学物共涵盖M种字符,将该M个字符按照一定顺序排列为字符列表;对于每个化学品,遍历其长度为N的SMILES字符向量,根据字符在字符列表中对应的位置i,将该字符转换为位置i处为1,其余均为0的长度为M的数字向量;对于字符向量后填充的字符“0”,则转换为长度为M的均为0的数字向量,得到M×N的数字矩阵。


4.根据权利要求1所述的建立方法,其特征在于,
步骤S3中所述卷积神经网络模型包括ncv层的卷积层和nfc层全连接层。


5.根据权利要求4所述的建立方法,其特征在于,
第i层卷积层包含channeli个卷积核,卷积核尺寸为channeli-1×ki,其中,卷积步长为stridei,输出为大小为channeli×Li的数据,其中,
其中,将最后一层卷积的输出大小为的矩阵转换为长度为的向量作为全连接层的输入;
其中,全连接层中当前层的每一个结点都与上一...

【专利技术属性】
技术研发人员:刘娴王理国张爱茜薛峤潘文筱
申请(专利权)人:中国科学院生态环境研究中心
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1