基于深度学习的类药化合物毒性预测方法技术

技术编号:20922058 阅读:24 留言:0更新日期:2019-04-20 10:52
本发明专利技术涉及类药化合物毒性预测技术领域,是一种基于深度学习的类药化合物毒性预测方法,包括第一步,特征提取,将待检测的类药化合物通过分子指纹生成软件生成指纹序列;第二步,对分子指纹序列的特征进行降噪预处理;第三步,采用DX算法对经过特征预处理的分子指纹序列进行特征降维,更新分子指纹序列;第四步,采用栈式自编码神经网络模型对经过降维筛选后的分子指纹序列进行毒性预测。本发明专利技术选用分子指纹序列作为分子特征描述,类药化合物指纹特征项的大量冗余,设计并实现特征降维方法。将降维评估后重新筛选的指纹特征作为级联隐藏层学习的输入,实现对类药化合物毒性的高效预测。

Toxicity Prediction of Drug-like Compounds Based on Deep Learning

The invention relates to the technical field of toxicity prediction of drug-like compounds, which is a method of toxicity prediction based on in-depth learning, including the first step, feature extraction, generating fingerprint sequence of drug-like compounds to be detected by molecular fingerprint generation software; the second step, denoising pretreatment of the features of molecular fingerprint sequence; the third step, using DX algorithm to pre-process the features. The processed molecular fingerprint sequences are dimensionally reduced and updated. In the fourth step, the stack self-coding neural network model is used to predict the toxicity of molecular fingerprint sequences after dimensionality reduction screening. The present invention chooses molecular fingerprint sequence as the description of molecular characteristics and redundancy of fingerprint features of drug-like compounds, and designs and realizes feature dimension reduction method. The fingerprint features re-screened after dimensionality reduction assessment are used as input of cascade hidden layer learning to realize efficient prediction of toxicity of drug-like compounds.

【技术实现步骤摘要】
基于深度学习的类药化合物毒性预测方法
本专利技术涉及类药化合物毒性预测
,是一种基于深度学习的类药化合物毒性预测方法。
技术介绍
化合物毒性是药代动力学的重要属性之一,也是导致药物研发失败的主要原因之一。将药物安全性评价置于新药研发的早期阶段有助于缩短研发周期,降低研发成本。化合物毒性也是人类日常生活安全保障的重要出发点,人们每天接触的大量化学制品,提高生活质量的同时,也对人体健康和环境存在潜在的危害,可见对化合物安全性评估是十分有必要的。不同于传统的体内和体外毒性评估实验。随着组合化学的发展和应用,当前对于测定大量化合物毒性的实验都基于高通量筛选。机器学习的出现为高通量筛选实验的实施提供了可能。但当数据集极具纷繁复杂,单层的线性模式识别在表达和提取特征方面具有一定的缺陷性,如支持向量机(SupportVectorMachine,SVM)只限于二分类且随着数据量增大训练速度减慢,耗时长。人工神经网络(ArtificialNeuralNetwork,ANN)则存在过拟合的风险,邻近算法(K-NearestNeighbor,KNN)过度敏感于近邻距离的衡量类型等。浅层机器学习之所以在药学领域具有高应用性价值归因于将分子间相互作用的复杂性具体化为分子描述符工程,并以此模式进行模型训练。因此,改造机器学习系统的结构和其涉及的算法,降低对描述符工程的依赖度,高效的处理数据复杂性,提取隐性特征,则是机器学习技术研究的聚焦点所在。此外,常规毒理学实验方法周期长,耗资高,对现代药物研发和环境化合物安全性评估具有局限性。
技术实现思路
本专利技术提供了一种基于深度学习的类药化合物毒性预测方法,克服了上述现有技术之不足,其能有效解决现有技术中对药物先导物的高通量筛选和判别存在技术障碍,导致大批量类药化合物的安全性评估的成本高的问题。本专利技术的技术方案是通过以下措施来实现的:基于深度学习的类药化合物毒性预测方法,包括以下步骤:第一步,特征提取,将待检测的类药化合物通过分子指纹生成软件生成分子指纹序列;第二步,对分子指纹序列的特征进行降噪预处理,包括以下过程:(1)对转换后的分子指纹序列去除多组分的化合物;(2)移除冗余信息的化合物成分;(3)移除存在冲突的化合物成分;第三步,采用DX算法对经过特征预处理的分子指纹序列进行特征降维,以用于更新分子指纹序列,包括以下过程:(1)以X为输入指纹特征,x为特征值,设P(x|class=1)以及P(x|class=0)为指纹特征X的类密度函数;class=1为目标类,class=0为非目标类,则P(x|class=1)和P(x|class=0)之间的距离函数D(X)公式为:D(X)=∫|P(x|class=1)-P(x|class=0)|dx(1)设指纹序列中的现有特征分别为特征H和特征G,若D(H)>D(G),则表示特征H比特征G更易区别目标特征class=1和非目标特征class=0之间的距离;(2)设m1和d1分别为分子指纹序列中正样本的样本均值和标准偏差,m0和d0分别是分子指纹序列中负样本的样本均值和标准偏差;将公式(1)转换后表示为:第四步,采用栈式自编码神经网络模型对经过降维筛选后的分子指纹序列进行毒性预测。下面是对上述专利技术技术方案的进一步优化或/和改进:上述第四步中,栈式自编码神经网络模型进行毒性预测的过程如下:(1)初始毒性化合物的分子指纹特征经过降噪降维处理后作为腐败特征输入;(2)通过级联隐藏层学习并提取高阶指纹特征;(3)将高阶指纹特征作为Softmax分类器的输入,最终获得有效的预测反馈结果。本专利技术选用分子指纹序列作为分子特征描述,类药化合物指纹特征项的大量冗余,设计并实现特征降维方法。将降维评估后重新筛选的指纹特征作为级联隐藏层学习的输入,实现对类药化合物毒性的高效预测。附图说明附图1为本专利技术的方法流程图。附图2为本专利技术的分子指纹序列的生成过程示意图。附图3为本专利技术的栈式自编码神经网络模型进行毒性预测的流程图。具体实施方式本专利技术不受下述实施例的限制,可根据本专利技术的技术方案与实际情况来确定具体的实施方式。下面结合实施例及附图对本专利技术作进一步描述:实施例1:如附图1、2、3所示,该基于深度学习的类药化合物毒性预测方法,包括以下步骤:第一步,特征提取,将待检测的类药化合物通过分子指纹生成软件生成分子指纹序列;分子指纹生成软件可为PaDEL-Descripter,分别生成166维MACCS指纹序列和881维PubChem指纹序列,PubChem分子指纹序列包含了881种化合物的子结构属性描述,作为一种新的指纹序列,PubChem的生成原理与MACCS分子指纹相似之处在于都用一组二进制数来表示化合物成分的三维结构。第二步,对分子指纹序列的特征进行降噪预处理,包括以下过程:(1)对转换后的分子指纹序列去除多组分的化合物;例如:混合物、盐类需要被删除。(2)移除冗余信息的化合物成分;例如:与指纹信息相同的成分。(3)移除存在冲突的化合物成分;例如:两个化合物的结构特征被分子指纹信息描述的一致,但是其药代动力学性质(水溶性,毒性等)不相符,需要删除避免冲突。第三步,采用DX算法对经过特征预处理的分子指纹序列进行特征降维,以用于更新分子指纹序列,包括以下过程:(1)以X为输入指纹特征,x为特征值,设P(x|class=1)以及P(x|class=0)为指纹特征X的类密度函数;class=1为目标类,class=0为非目标类,则P(x|class=1)和P(x|class=0)之间的距离函数D(X)公式为:D(X)=∫|P(x|class=1)-P(x|class=0)|dx(1)设指纹序列中的现有特征分别为特征H和特征G,若D(H)>D(G),则表示特征H比特征G更易区别目标特征class=1和非目标特征class=0之间的距离;(2)设m1和d1分别为分子指纹序列中正样本的样本均值和标准偏差,m0和d0分别是分子指纹序列中负样本的样本均值和标准偏差;将公式(1)转换后表示为:上述D(X)值可被视为信噪比,D(X)值越大,则区分class=1和class=0的概率越高;为每个指纹特征给出合理地评估,完整流程如图2所示。为避免模型训练过程中对冗余特征学习造成的无效耗时,由此引入DX算法进行特征抽取,以实现降维降噪。第四步,采用栈式自编码神经网络模型对经过降维筛选后的分子指纹序列进行毒性预测。本专利技术选用分子指纹序列作为分子特征描述,类药化合物指纹特征项的大量冗余,设计并实现特征降维方法。将降维评估后重新筛选的指纹特征作为级联隐藏层学习的输入,实现对类药化合物毒性的高效预测。可根据实际需要,对上述基于深度学习的类药化合物毒性预测方法作进一步优化或/和改进:如附图1、2、3所示,上述第四步中,栈式自编码神经网络模型进行毒性预测的过程如下:(1)初始毒性化合物的分子指纹特征经过降噪降维处理后作为腐败特征输入;(2)通过级联隐藏层学习并提取高阶指纹特征;(3)将高阶指纹特征作为Softmax分类器的输入,最终获得有效的预测反馈结果。上述自编码器是只有一个隐藏层人工神经网络的一类人工神经网络。训练时,权重被调整到最准确的再现于输出节点的输入值。因此是一个实现了降维的无监本文档来自技高网...

【技术保护点】
1.一种基于深度学习的类药化合物毒性预测方法,其特征在于包括以下步骤:第一步,特征提取,将待检测的类药化合物通过分子指纹生成软件生成分子指纹序列;第二步,对分子指纹序列的特征进行降噪预处理,包括以下过程:(1)对转换后的分子指纹序列去除多组分的化合物;(2)移除冗余信息的化合物成分;(3)移除存在冲突的化合物成分;第三步,采用DX算法对经过特征预处理的分子指纹序列进行特征降维,以用于更新分子指纹序列,包括以下过程:(1)以X为输入指纹特征,x为特征值,设P(x|class=1)以及P(x|class=0)为指纹特征X的类密度函数;class=1为目标类,class=0为非目标类,则P(x|class=1)和P(x|class=0)之间的距离函数D(X)公式为:D(X)=∫|P(x|class=1)‑P(x|class=0)|dx   (1)设指纹序列中的现有特征分别为特征H和特征G,若D(H)>D(G),则表示特征H比特征G更易区别目标特征class=1和非目标特征class=0之间的距离;(2)设m1和d1分别为分子指纹序列中正样本的样本均值和标准偏差,m0和d0分别是分子指纹序列中负样本的样本均值和标准偏差;将公式(1)转换后表示为:...

【技术特征摘要】
1.一种基于深度学习的类药化合物毒性预测方法,其特征在于包括以下步骤:第一步,特征提取,将待检测的类药化合物通过分子指纹生成软件生成分子指纹序列;第二步,对分子指纹序列的特征进行降噪预处理,包括以下过程:(1)对转换后的分子指纹序列去除多组分的化合物;(2)移除冗余信息的化合物成分;(3)移除存在冲突的化合物成分;第三步,采用DX算法对经过特征预处理的分子指纹序列进行特征降维,以用于更新分子指纹序列,包括以下过程:(1)以X为输入指纹特征,x为特征值,设P(x|class=1)以及P(x|class=0)为指纹特征X的类密度函数;class=1为目标类,class=0为非目标类,则P(x|class=1)和P(x|class=0)之间的距离函数D(X)公式为:D(X)=∫|P(x|class=1)-P(x|class...

【专利技术属性】
技术研发人员:黎红杨柳李雅洁李坤源何伟冯磊胡美慧赵刚蒋诗百李志刚杨丽娜王巧莉马斌李德高张烜尹蕊刘信
申请(专利权)人:国网新疆电力有限公司信息通信公司国家电网有限公司
类型:发明
国别省市:新疆,65

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1