【技术实现步骤摘要】
属性预测模型的训练方法、属性预测方法、装置及设备
[0001]本申请涉及化学分子属性预测领域,特别涉及一种属性预测模型的训练方法、属性预测方法、装置及设备。
技术介绍
[0002]在药物分析中,如何根据化合物/蛋白质结构判断其的一些化学/生物性质,例如毒性、溶解性,致癌性等等,是一件非常重要的任务。
[0003]相关技术中,将上述任务建模成机器学习中的分类问题,通过表示学习的方式将化合物/蛋白质的结构式转化为在欧式空间中的向量,将向量作为机器学习模型的输入,使用有标签数据对机器学习模型进行监督训练,使机器学习模型根据化合物/蛋白质的向量输出其化学/生物性质。
[0004]相关技术中的方法,需要使用大量的有标签数据来训练模型,而对化合物/蛋白质化学/生物性质的测定,需要经过大量的实验,因此,有标签数据的数据量往往很少,存在有标签数据不足的问题,会影响机器学习模型的精度。
技术实现思路
[0005]本申请实施例提供了一种属性预测模型的训练方法、属性预测方法、装置及设备,可以减少训练属性预测模型所需的有标签数据量,提高属性预测模型的预测精准度。所述技术方案如下。
[0006]根据本申请的一方面,提供了一种属性预测模型的训练方法,所述方法包括:
[0007]获取第一组样本数据,所述第一组样本数据包括第一化学物质和所述第一化学物质的结构标签,所述结构标签用于描述化学物质中的原子结构;
[0008]基于所述第一组样本数据训练得到预训练模型,所述预训练模型用于根据输入的所述化 ...
【技术保护点】
【技术特征摘要】
1.一种属性预测模型的训练方法,其特征在于,所述方法包括:获取第一组样本数据,所述第一组样本数据包括第一化学物质和所述第一化学物质的结构标签,所述结构标签用于描述化学物质中的原子结构;基于所述第一组样本数据训练得到预训练模型,所述预训练模型用于根据输入的所述化学物质输出所述化学物质的所述结构标签;获取第二组样本数据,所述第二组样本数据包括第二化学物质和所述第二化学物质的属性标签,所述属性标签用于描述所述化学物质的性质;基于所述第二组样本数据和所述预训练模型训练得到所述属性预测模型,所述属性预测模型用于根据输入的所述化学物质输出所述化学物质的所述属性标签。2.根据权利要求1所述的方法,其特征在于,所述预训练模型包括特征提取层和第一分类器;所述基于所述第一组样本数据训练得到预训练模型,包括:调用所述特征提取层对所述第一化学物质进行特征提取,得到所述第一化学物质的第一物质特征;调用所述第一分类器对所述第一物质特征进行分类,得到所述第一化学物质的预测结构标签;根据所述第一化学物质的预测结构标签,与所述第一化学物质的结构标签的损失,训练所述预训练模型。3.根据权利要求2所述的方法,其特征在于,所述第一化学物质包括X个原子和Y个化学键;所述第一组样本数据包括所述第一化学物质、所述X个原子对应的X个节点向量、所述Y个化学键对应的Y个边向量和所述X个原子对应的X个结构标签,X、Y为正整数;所述调用所述特征提取层对所述第一化学物质进行特征提取,得到所述第一化学物质的第一物质特征,包括:调用所述特征提取层基于所述X个节点向量和所述Y个边向量进行特征提取,得到所述第一化学物质中所述X个原子对应的X个节点特征;所述调用所述第一分类器对所述第一物质特征进行分类,得到所述第一化学物质的预测结构标签,包括:调用所述第一分类器对第x个节点特征进行分类,得到第x个原子的预测结构标签,x是不大于X的正整数;所述根据所述第一化学物质的所述预测结构标签,与所述第一化学物质的所述结构标签的损失,训练所述预训练模型,包括:根据所述第x个原子的预测结构标签,与所述第x个原子的结构标签的损失,训练所述预训练模型。4.根据权利要求3所述的方法,其特征在于,所述特征提取层包括消息传播网络;所述第一组样本数据还包括所述第一化学物质的图数据,所述图数据包括基于所述第一化学物质的化学式构建的拓扑结构图,所述图数据中的第x个节点表示所述第x个原子,所述图数据中的第y个边表示第y个化学键;所述调用所述特征提取层对所述X个节点向量和所述Y个边向量进行特征提取,得到所述第一化学物质中所述X个原子对应的X个节点特征,包括:
基于所述第一化学物质的所述图数据,进行至少一次消息传播和状态更新,得到所述第一化学物质中所述X个原子对应的X个节点特征;其中,所述消息传播用于使所述图数据中的所述第x个节点接收邻居节点的节点特征和邻居边的边特征;所述状态更新用于使所述图数据中的所述第x个节点根据所述邻居节点的节点特征、所述邻居边的边特征更新所述第x个节点的节点特征,X、Y为正整数,x是不大于X的正整数;所述图数据中所述第x个节点的初始的节点特征为所述第x个原子的节点向量,所述图数据中所述第y个边的初始的边特征为所述第y个化学键的边向量。5.根据权利要求3或4所述的方法,其特征在于,所述方法还包括:基于所述第一化学物质中第x个原子的属性构造所述第x个原子的节点向量;基于所述第一化学物质中第y个化学键的属性构造所述第y个化学键的边向量;基于所述第x个原子、所述第x个原子的邻居原子、所述第x个原子与邻居原子的化学键构造所述第x个原子的结构标签。6.根据权利要求2至4任一所述的方法,其特征在于,所述属性预测模型包括所述特征提取层和第二分类器;所述基于所述第二组样本数据和所述预训练模型训练得到所述属性预测模型,包括:调用所述特征提取层对所述第二化学物质进行特征提取,得到所述第二化学物质的第二物质特征;调用所述第二分类器对所述第二物质特征进行分类,得到所述第二化学物质的预测属性标签;根据所述第二化学物质的所述预测属性标签,与所述第二化学物质的所述属性标签的损失,训练所述属性预测模型。7.根据权利要求6所述的方法,其特征在于,所述方法还包括:根据已训...
【专利技术属性】
技术研发人员:荣钰,卞亚涛,徐挺洋,谢未央,魏颖,黄俊洲,黄文炳,
申请(专利权)人:清华大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。