一种基于良好分子表征的化合物ADMET性质预测方法技术

技术编号：40667917 阅读：4 留言：0更新日期：2024-03-18 19:03

本发明专利技术涉及一种基于良好分子表征的化合物ADMET性质预测方法，包括以下步骤：获取原始化合物数据集并进行预处理，获取表达化合物良好分子表征的特征数据；基于各特征数据及对应的ADMET性质构建若干训练数据集；构建若干基于机器学习的预测模型，通过各训练数据集对各预测模型进行训练，得到基于不同特征数据的性质预测模型；针对不同ADMET性质的预测任务，将各性质预测模型进行融合，基于预测结果的精度确定对应ADMET性质的预测任务模型的模型融合参数并保存融合后的模型为对应的最佳模型；获取待预测的化合物数据及需要预测的ADMET性质，对化合物数据进行预处理后输入至对应的最佳模型中，输出相应的预测结果。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及一种基于良好分子表征的化合物admet性质预测方法，属于化合物性质预测。

技术介绍

1、现有技术中的admet性质预测方案关注信息片面，如仅关注1d/2d分子描述符或图神经网络对原子（节点）、键（边）的片面关注，未提供良好的全局化学视角整合化合物化学反应、药效团、片段信息且缺乏对原子、键、片段不同类型和特征维度的泛化能力，化合物admet性质的预测准确度不够高。

技术实现思路

1、为了解决上述现有技术中存在的问题，本专利技术提出了一种基于良好分子表征的化合物admet性质预测方法。

2、本专利技术的技术方案如下：

3、一方面，本专利技术提供一种基于良好分子表征的化合物admet性质预测方法，包括以下步骤：

4、获取原始化合物数据集，化合物数据包括化合物smiles和对应的admet性质，并对化合物smiles进行预处理，获取从不同维度表达化合物良好分子表征的特征数据；基于每一维度的特征数据及对应的admet性质构建若干训练数据集；

5、构建与特征数据维度一致的若干基于机器学习的预测模型，分别通过各训练数据集中的特征数据作为输入，admet性质作为输出对各预测模型进行训练，得到若干基于不同特征数据的性质预测模型；

6、针对不同admet性质的预测任务，将各性质预测模型基于不同融合方式进行融合后输出最终预测结果，基于最终预测结果的精度确定对应admet性质的预测任务模型的模型融合参数并保存融合后的模型为对应的最佳模型；

7、获取待预测的化合物数据及需要预测的admet性质，对化合物数据进行预处理后输入至admet性质对应的最佳模型中，输出相应的预测结果。

8、作为优选实施方式，所述对化合物smiles进行预处理，获取从不同维度表达化合物良好分子表征的特征数据的过程具体为：

9、对化合物smiles进行randomize处理，得到化合物增强数据作为一个维度的特征数据；

10、基于化合物smiles对相应的化合物分子进行三维结构初始化，基于分子三维结构在特定力场下进行最低能量优化，获取分子中每一原子的位置信息及原子间的连接键信息，并对所有分子的坐标进行统一中心化，得到化合物三维信息数据作为一个维度的特征数据；

11、基于化合物smiles获取化合物分子中的每一原子的化学信息及原子间的连接关系，构建原子层级的图；将分子拆分为多个官能团并得到官能团间的连接关系，构建官能团层的图；将原子层级的图中的节点与官能团层级的图中的节点连接，得到多层次、多角度的化合物异构图结构数据作为一个维度的特征数据。

12、作为优选实施方式，所述若干基于机器学习的预测模型包括自然语言模型、卷积神经网络模型以及图神经网络模型；

13、所述化合物增强数据用于自然语言模型的训练；

14、所述化合物三维信息数据用于卷积神经网络模型的训练；

15、所述化合物异构图结构数据用于图神经网络模型的训练。

16、作为优选实施方式，所述针对不同admet性质的预测任务，将各性质预测模型基于不同融合方式进行融合的方法具体为：

17、将测试数据拆分成多个分布不接近的集合，使用不同模态的数据预处理方法得到对应的特征数据集；将特征数据集输入对应模态的预测模型中，得到预测结果；

18、其中，在分类任务中采用voting的融合方式，在回归任务中则采用加权平均的方式，得到多个性质预测模型融合后的输出结果；

19、基于最终预测结果的精度确定对应admet性质的预测任务模型的模型融合的权重参数，并保存融合后的模型为对应的最佳模型。

20、另一方面，本专利技术还提供一种基于良好分子表征的化合物admet性质预测系统，包括：

21、数据处理模块，用于获取原始化合物数据集，化合物数据包括化合物smiles和对应的admet性质，并对化合物smiles进行预处理，获取从不同维度表达化合物良好分子表征的特征数据；基于每一维度的特征数据及对应的admet性质构建若干训练数据集；

22、模型训练模块，用于构建与特征数据维度一致的若干基于机器学习的预测模型，分别通过各训练数据集中的特征数据作为输入，admet性质作为输出对各预测模型进行训练，得到若干基于不同特征数据的性质预测模型；

23、模型融合模块，用于针对不同admet性质的预测任务，将各性质预测模型基于不同融合方式进行融合后输出最终预测结果，基于最终预测结果的精度确定对应admet性质的预测任务模型的模型融合参数并保存融合后的模型为对应的最佳模型；

24、预测模块，用于获取待预测的化合物数据及需要预测的admet性质，对化合物数据进行预处理后输入至admet性质对应的最佳模型中，输出相应的预测结果。

25、作为优选实施方式，所述数据处理模块包括：

26、数据增强单元，用于对化合物smiles进行randomize处理，得到化合物增强数据作为一个维度的特征数据；

27、三维信息构建单元，基于化合物smiles对相应的化合物分子进行三维结构初始化，基于分子三维结构在特定力场下进行最低能量优化，获取分子中每一原子的位置信息及原子间的连接键信息，并对所有分子的坐标进行统一中心化，得到化合物三维信息数据作为一个维度的特征数据；

28、异构图结构构建单元，基于化合物smiles获取化合物分子中的每一原子的化学信息及原子间的连接关系，构建原子层级的图；将分子拆分为多个官能团并得到官能团间的连接关系，构建官能团层的图；将原子层级的图中的节点与官能团层级的图中的节点连接，得到多层次、多角度的化合物异构图结构数据作为一个维度的特征数据。

29、作为优选实施方式，所述模型训练模块中的若干基于机器学习的预测模型包括自然语言模型、卷积神经网络模型以及图神经网络模型；

30、所述化合物增强数据用于自然语言模型的训练；

31、所述化合物三维信息数据用于卷积神经网络模型的训练；

32、所述化合物异构图结构数据用于图神经网络模型的训练。

33、作为优选实施方式，所述模型融合模块针对不同admet性质的预测任务，将各性质预测模型基于不同融合方式进行融合的方法具体为：

34、将测试数据拆分成多个分布不接近的集合，使用不同模态的数据预处理方法得到对应的特征数据集；将特征数据集输入对应模态的预测模型中，得到预测结果；

35、其中，在分类任务中采用voting的融合方式，在回归任务中则采用加权平均的方式，得到多个性质预测模型融合后的输出结果；

36、基于最终预测结果的精度确定对应admet性质的预测任务模型的模型融合的权重参数，并保存融合后的模型为对应的最佳模型。

37、再一方面，本专利技术还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机本文档来自技高网...

【技术保护点】

1.一种基于良好分子表征的化合物ADMET性质预测方法，其特征在于，包括以下步骤：获取原始化合物数据集，化合物数据包括化合物SMILES和对应的ADMET性质，并对化合物SMILES进行预处理，获取从不同维度表达化合物良好分子表征的特征数据；基于每一维度的特征数据及对应的ADMET性质构建若干训练数据集；构建与特征数据维度一致的若干基于机器学习的预测模型，分别通过各训练数据集中的特征数据作为输入，ADMET性质作为输出对各预测模型进行训练，得到若干基于不同特征数据的性质预测模型；针对不同ADMET性质的预测任务，将各性质预测模型基于不同融合方式进行融合后输出最终预测结果，基于最终预测结果的精度确定对应ADMET性质的预测任务模型的模型融合参数并保存融合后的模型为对应的最佳模型；获取待预测的化合物数据及需要预测的ADMET性质，对化合物数据进行预处理后输入至ADMET性质对应的最佳模型中，输出相应的预测结果。

2.根据权利要求1所述的一种基于良好分子表征的化合物ADMET性质预测方法，其特征在于，所述对化合物SMILES进行预处理，获取从不同维度表达化合物良好分子表征的

3.根据权利要求2所述的一种基于良好分子表征的化合物ADMET性质预测方法，其特征在于：所述若干基于机器学习的预测模型包括自然语言模型、卷积神经网络模型以及图神经网络模型；所述化合物增强数据用于自然语言模型的训练；所述化合物三维信息数据用于卷积神经网络模型的训练；所述化合物异构图结构数据用于图神经网络模型的训练。

4.根据权利要求1所述的一种基于良好分子表征的化合物ADMET性质预测方法，其特征在于，所述针对不同ADMET性质的预测任务，将各性质预测模型基于不同融合方式进行融合的方法具体为：将测试数据拆分成多个分布不接近的集合，使用不同模态的数据预处理方法得到对应的特征数据集；将特征数据集输入对应模态的预测模型中，得到预测结果；其中，在分类任务中采用Voting的融合方式，在回归任务中则采用加权平均的方式，得到多个性质预测模型融合后的输出结果；基于最终预测结果的精度确定对应ADMET性质的预测任务模型的模型融合的权重参数，并保存融合后的模型为对应的最佳模型。

5.一种基于良好分子表征的化合物ADMET性质预测系统，其特征在于，包括：数据处理模块，用于获取原始化合物数据集，化合物数据包括化合物SMILES和对应的ADMET性质，并对化合物SMILES进行预处理，获取从不同维度表达化合物良好分子表征的特征数据；基于每一维度的特征数据及对应的ADMET性质构建若干训练数据集；模型训练模块，用于构建与特征数据维度一致的若干基于机器学习的预测模型，分别通过各训练数据集中的特征数据作为输入，ADMET性质作为输出对各预测模型进行训练，得到若干基于不同特征数据的性质预测模型；模型融合模块，用于针对不同ADMET性质的预测任务，将各性质预测模型基于不同融合方式进行融合后输出最终预测结果，基于最终预测结果的精度确定对应ADMET性质的预测任务模型的模型融合参数并保存融合后的模型为对应的最佳模型；预测模块，用于获取待预测的化合物数据及需要预测的ADMET性质，对化合物数据进行预处理后输入至ADMET性质对应的最佳模型中，输出相应的预测结果。

6.根据权利要求5所述的一种基于良好分子表征的化合物ADMET性质预测系统，其特征在于，所述数据处理模块包括：数据增强单元，用于对化合物SMILES进行Randomize处理，得到化合物增强数据作为一个维度的特征数据；三维信息构建单元，基于化合物SMILES对相应的化合物分子进行三维结构初始化，基于分子三维结构在特定力场下进行最低能量优化，获取分子中每一原子的位置信息及原子间的连接键信息，并对所有分子的坐标进行统一中心化，得到化合物三维信息数据作为一个维度的特征数据；异构图结构构建单元，基于化合物SMILES获取化合物分子中的每一原子的化学信息及原子间的连接关系，构建原子层级的图；将分子拆分为多个官能团并得到官能团间的连接关系，构建官能团层的图；将原子层级的图中的节点与官能团层级的图中的节点连接，得到多层次、多角度的化合物异构图结构数据作为一个维度的特征数据。

7.根据权利要求6所述的一种基于良好分子表征的化合物ADMET性质预测系统，其特征在于，所述模型训练模块中的若干基于机器学习的预测模型包括自然语言模型、卷积神经网络模型以及图神经网络模型；所述化合物增强数据用于自然语言模型的训练；

8.根据权利要求5所述的一种基于良好分子表征的化合物ADM...

【技术特征摘要】

1.一种基于良好分子表征的化合物admet性质预测方法，其特征在于，包括以下步骤：获取原始化合物数据集，化合物数据包括化合物smiles和对应的admet性质，并对化合物smiles进行预处理，获取从不同维度表达化合物良好分子表征的特征数据；基于每一维度的特征数据及对应的admet性质构建若干训练数据集；构建与特征数据维度一致的若干基于机器学习的预测模型，分别通过各训练数据集中的特征数据作为输入，admet性质作为输出对各预测模型进行训练，得到若干基于不同特征数据的性质预测模型；针对不同admet性质的预测任务，将各性质预测模型基于不同融合方式进行融合后输出最终预测结果，基于最终预测结果的精度确定对应admet性质的预测任务模型的模型融合参数并保存融合后的模型为对应的最佳模型；获取待预测的化合物数据及需要预测的admet性质，对化合物数据进行预处理后输入至admet性质对应的最佳模型中，输出相应的预测结果。

2.根据权利要求1所述的一种基于良好分子表征的化合物admet性质预测方法，其特征在于，所述对化合物smiles进行预处理，获取从不同维度表达化合物良好分子表征的特征数据的过程具体为：对化合物smiles进行randomize处理，得到化合物增强数据作为一个维度的特征数据；

3.根据权利要求2所述的一种基于良好分子表征的化合物admet性质预测方法，其特征在于：所述若干基于机器学习的预测模型包括自然语言模型、卷积神经网络模型以及图神经网络模型；所述化合物增强数据用于自然语言模型的训练；所述化合物三维信息数据用于卷积神经网络模型的训练；所述化合物异构图结构数据用于图神经网络模型的训练。

4.根据权利要求1所述的一种基于良好分子表征的化合物admet性质预测方法，其特征在于，所述针对不同admet性质的预测任务，将各性质预测模型基于不同融合方式进行融合的方法具体为：将测试数据拆分成多个分布不接近的集合，使用不同模态的数据预处理方法得到对应的特征数据集；将特征数据集输入对应模态的预测模型中，得到预测结果；其中，在分类任务中采用voting的融合方式，在回归任务中则采用加权平均的方式，得到多个性质预测模型融合后的输出结果；基于最终预测结果的精度确定对应admet性质的预测任务模型的模型融合的权重参数，并保存融合后的模型为对应的最佳模型。

5.一种基于良好分子表征的化合物admet性质预测系统，其特征在于，包括：数据处理模块，用于获取原始化合物数据集，化合物数据包括化合物smiles和对应的admet性质，并对化合物smiles进行预处理，获取从不同维度表达化合物良好分子表征的特征数据；基于每一维度的特征数据及对应的admet性质构建若干训练数据集；模型训练模块，用于构建与特征数据维度一致的若干基于机器学习的预测模型，分别通过各训练数据集中的特征数据作为输入，ad...

【专利技术属性】
技术研发人员：吴文凡，张明，肖祥路，蔡绮薇，江荧辉，王旻皓，林智敏，金王震，杨国建，晋旭锐，唐博文，张龙，
申请(专利权)人：杭州德睿智药科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人