The invention relates to the technical field of toxicity prediction of drug-like compounds, which is a method of toxicity prediction based on in-depth learning, including the first step, feature extraction, generating fingerprint sequence of drug-like compounds to be detected by molecular fingerprint generation software; the second step, denoising pretreatment of the features of molecular fingerprint sequence; the third step, using DX algorithm to pre-process the features. The processed molecular fingerprint sequences are dimensionally reduced and updated. In the fourth step, the stack self-coding neural network model is used to predict the toxicity of molecular fingerprint sequences after dimensionality reduction screening. The present invention chooses molecular fingerprint sequence as the description of molecular characteristics and redundancy of fingerprint features of drug-like compounds, and designs and realizes feature dimension reduction method. The fingerprint features re-screened after dimensionality reduction assessment are used as input of cascade hidden layer learning to realize efficient prediction of toxicity of drug-like compounds.
【技术实现步骤摘要】
基于深度学习的类药化合物毒性预测方法
本专利技术涉及类药化合物毒性预测
,是一种基于深度学习的类药化合物毒性预测方法。
技术介绍
化合物毒性是药代动力学的重要属性之一,也是导致药物研发失败的主要原因之一。将药物安全性评价置于新药研发的早期阶段有助于缩短研发周期,降低研发成本。化合物毒性也是人类日常生活安全保障的重要出发点,人们每天接触的大量化学制品,提高生活质量的同时,也对人体健康和环境存在潜在的危害,可见对化合物安全性评估是十分有必要的。不同于传统的体内和体外毒性评估实验。随着组合化学的发展和应用,当前对于测定大量化合物毒性的实验都基于高通量筛选。机器学习的出现为高通量筛选实验的实施提供了可能。但当数据集极具纷繁复杂,单层的线性模式识别在表达和提取特征方面具有一定的缺陷性,如支持向量机(SupportVectorMachine,SVM)只限于二分类且随着数据量增大训练速度减慢,耗时长。人工神经网络(ArtificialNeuralNetwork,ANN)则存在过拟合的风险,邻近算法(K-NearestNeighbor,KNN)过度敏感于近邻距离的衡量类型等。浅层机器学习之所以在药学领域具有高应用性价值归因于将分子间相互作用的复杂性具体化为分子描述符工程,并以此模式进行模型训练。因此,改造机器学习系统的结构和其涉及的算法,降低对描述符工程的依赖度,高效的处理数据复杂性,提取隐性特征,则是机器学习技术研究的聚焦点所在。此外,常规毒理学实验方法周期长,耗资高,对现代药物研发和环境化合物安全性评估具有局限性。
技术实现思路
本专利技术提供了一种基于深度学习的类 ...
【技术保护点】
1.一种基于深度学习的类药化合物毒性预测方法,其特征在于包括以下步骤:第一步,特征提取,将待检测的类药化合物通过分子指纹生成软件生成分子指纹序列;第二步,对分子指纹序列的特征进行降噪预处理,包括以下过程:(1)对转换后的分子指纹序列去除多组分的化合物;(2)移除冗余信息的化合物成分;(3)移除存在冲突的化合物成分;第三步,采用DX算法对经过特征预处理的分子指纹序列进行特征降维,以用于更新分子指纹序列,包括以下过程:(1)以X为输入指纹特征,x为特征值,设P(x|class=1)以及P(x|class=0)为指纹特征X的类密度函数;class=1为目标类,class=0为非目标类,则P(x|class=1)和P(x|class=0)之间的距离函数D(X)公式为:D(X)=∫|P(x|class=1)‑P(x|class=0)|dx (1)设指纹序列中的现有特征分别为特征H和特征G,若D(H)>D(G),则表示特征H比特征G更易区别目标特征class=1和非目标特征class=0之间的距离;(2)设m1和d1分别为分子指纹序列中正样本的样本均值和标准偏差,m0和d0分别是分子指纹 ...
【技术特征摘要】
1.一种基于深度学习的类药化合物毒性预测方法,其特征在于包括以下步骤:第一步,特征提取,将待检测的类药化合物通过分子指纹生成软件生成分子指纹序列;第二步,对分子指纹序列的特征进行降噪预处理,包括以下过程:(1)对转换后的分子指纹序列去除多组分的化合物;(2)移除冗余信息的化合物成分;(3)移除存在冲突的化合物成分;第三步,采用DX算法对经过特征预处理的分子指纹序列进行特征降维,以用于更新分子指纹序列,包括以下过程:(1)以X为输入指纹特征,x为特征值,设P(x|class=1)以及P(x|class=0)为指纹特征X的类密度函数;class=1为目标类,class=0为非目标类,则P(x|class=1)和P(x|class=0)之间的距离函数D(X)公式为:D(X)=∫|P(x|class=1)-P(x|class...
【专利技术属性】
技术研发人员:黎红,杨柳,李雅洁,李坤源,何伟,冯磊,胡美慧,赵刚,蒋诗百,李志刚,杨丽娜,王巧莉,马斌,李德高,张烜,尹蕊,刘信,
申请(专利权)人:国网新疆电力有限公司信息通信公司,国家电网有限公司,
类型:发明
国别省市:新疆,65
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。