【技术实现步骤摘要】
一种基于SMILES的定量构效方法和装置
本专利技术涉及定量构效
,特别涉及一种基于SMILES的定量构效方法和装置。
技术介绍
简化分子线性输入规范(SimplifiedMolecularInputLineEntrySpecification,简称“SMILES”)字符串是一种用ASCII字符串明确描述分子结构的规范,可以被大多数分子编辑软件导入并转换成二维图形或分子的三维模型。因SMILES字符串的适用性强,可作为输入可以处理绝大部分分子数据。定量构效方法(QuantitativeStructure-ActivityRelationship,简称“QSAR”)是计算机辅助药物分子设计应用最为广泛的药物设计方法,其是将化合物的结构信息、理化参数与生物活性进行分析计算,建立合理的数学模型,研究结构和活性之间的量变规律,可以预测化合物的生理活性或某些性质,为药物设计、先导化合物结构改造提供理论依据。现代计算机辅助小分子药物发现和开发中,传统学习方法被广泛用于构建预测模型。传统的QSAR方法广义上可以延伸成 ...
【技术保护点】
1.一种基于SMILES的定量构效方法,其特征在于,所述方法包括:/n构建化学分子属性预测模型,所述化学分子属性预测模型包括:Embedding层、多层双向GRU层、以及全连接层;/n将化学分子规范表达所需的SMILES字符串转化为相应的One-Hot数字编码,并采用Embedding层对One-Hot数字编码进行降维处理;/n将降维处理后的One-Hot数字编码按次序输入多层双向GRU层,并采用多层双向GRU层来学习SMILES字符串的前后关联特征;/n采用全连接层对学习到的SMILES字符串的前后关联特征进行非线性组合,完成化学分子属性预测模型的训练,并根据训练好的化学 ...
【技术特征摘要】
1.一种基于SMILES的定量构效方法,其特征在于,所述方法包括:
构建化学分子属性预测模型,所述化学分子属性预测模型包括:Embedding层、多层双向GRU层、以及全连接层;
将化学分子规范表达所需的SMILES字符串转化为相应的One-Hot数字编码,并采用Embedding层对One-Hot数字编码进行降维处理;
将降维处理后的One-Hot数字编码按次序输入多层双向GRU层,并采用多层双向GRU层来学习SMILES字符串的前后关联特征;
采用全连接层对学习到的SMILES字符串的前后关联特征进行非线性组合,完成化学分子属性预测模型的训练,并根据训练好的化学分子属性预测模型来预测化学分子的物理化学性质。
2.根据权利要求1所述的方法,其特征在于,多层双向GRU层中的每层双向GRU层均包括:正向GRU和反向GRU,
多层双向GRU层的输出为最后一层GRU层的正向GRU的最后一个时间步的输出和后向GRU的第一个时间步的输出的拼接;
多层双向GRU层的中间层的输入是其上一层双向GRU层同一个时间步的输出。
3.根据权利要求2所述的方法,其特征在于,所述将降维处理后的One-Hot数字编码按次序输入多层双向GRU层,并采用多层双向GRU层来学习SMILES字符串的前后关联特征,包括:
将降维处理后的One-Hot数字编码进行dropout技术处理,并将dropout技术处理后的数据作为多层双向GRU层中第一层双向GRU层的输入;
在同一个时刻中,对除最后一层双向GRU层外其他双向GRU层之间的信息传递进行dropout技术处理。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
采用迁移学习方式,利用新的全连接层来替换完成训练的化学分子属性预测模型中的全连接层,形成新的化学分子属性预测模型;
采用新的全连接层对新的化学分子属性预测模型中已有的前后关联特征进行非线性组合,完成新的化学分子属性预测模型的训练。
5.根据权利要求4所述的方法,其特征在于,所述化学分子属性预测模型采用拥有大量数据的物理化学性质数据进行训练;
所述新的化学分子属性预测模型采用只有少量数据的物理化学性质数据进行微调训练...
【专利技术属性】
技术研发人员:黄辉,汪念,
申请(专利权)人:深圳市云网拜特科技有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。