当前位置: 首页 > 专利查询>清华大学专利>正文

属性预测模型的训练方法、属性预测方法、装置及设备制造方法及图纸

技术编号:34169230 阅读:20 留言:0更新日期:2022-07-17 10:21
本申请公开了一种属性预测模型的训练方法、属性预测方法、装置及设备,涉及化学分子属性预测领域。该方法包括:获取第一组样本数据,第一组样本数据包括第一化学物质和第一化学物质的结构标签,结构标签用于描述化学物质中的原子结构;基于第一组样本数据训练得到预训练模型,预训练模型用于根据输入的化学物质输出化学物质的结构标签;获取第二组样本数据,第二组样本数据包括第二化学物质和第二化学物质的属性标签,属性标签用于描述化学物质的性质;基于第二组样本数据和预训练模型训练得到属性预测模型,属性预测模型用于根据输入的化学物质输出化学物质的属性标签。该方法可以减少训练属性预测模型所需的有标签数据量。减少训练属性预测模型所需的有标签数据量。减少训练属性预测模型所需的有标签数据量。

Training method, attribute prediction method, device and equipment of attribute prediction model

【技术实现步骤摘要】
属性预测模型的训练方法、属性预测方法、装置及设备


[0001]本申请涉及化学分子属性预测领域,特别涉及一种属性预测模型的训练方法、属性预测方法、装置及设备。

技术介绍

[0002]在药物分析中,如何根据化合物/蛋白质结构判断其的一些化学/生物性质,例如毒性、溶解性,致癌性等等,是一件非常重要的任务。
[0003]相关技术中,将上述任务建模成机器学习中的分类问题,通过表示学习的方式将化合物/蛋白质的结构式转化为在欧式空间中的向量,将向量作为机器学习模型的输入,使用有标签数据对机器学习模型进行监督训练,使机器学习模型根据化合物/蛋白质的向量输出其化学/生物性质。
[0004]相关技术中的方法,需要使用大量的有标签数据来训练模型,而对化合物/蛋白质化学/生物性质的测定,需要经过大量的实验,因此,有标签数据的数据量往往很少,存在有标签数据不足的问题,会影响机器学习模型的精度。

技术实现思路

[0005]本申请实施例提供了一种属性预测模型的训练方法、属性预测方法、装置及设备,可以减少训练属性预测模型所需的有标签数据量,提高属性预测模型的预测精准度。所述技术方案如下。
[0006]根据本申请的一方面,提供了一种属性预测模型的训练方法,所述方法包括:
[0007]获取第一组样本数据,所述第一组样本数据包括第一化学物质和所述第一化学物质的结构标签,所述结构标签用于描述化学物质中的原子结构;
[0008]基于所述第一组样本数据训练得到预训练模型,所述预训练模型用于根据输入的所述化学物质输出所述化学物质的所述结构标签;
[0009]获取第二组样本数据,所述第二组样本数据包括第二化学物质和所述第二化学物质的属性标签,所述属性标签用于描述所述化学物质的性质;
[0010]基于所述第二组样本数据和所述预训练模型训练得到所述属性预测模型,所述属性预测模型用于根据输入的所述化学物质输出所述化学物质的所述属性标签。
[0011]根据本申请的另一方面,提供了一种属性预测方法,所述方法包括:
[0012]获取待预测的第三化学物质;
[0013]将所述第三化学物质输入属性预测模型,得到所述第三化学物质的预测属性标签;
[0014]其中,所述属性预测模型是基于预训练模型进行训练得到的,所述预训练模型用于根据输入的化学物质输出所述化学物质的结构标签,所述结构标签用于描述所述化学物质中的原子结构,所述属性预测模型用于根据输入的所述化学物质输出所述化学物质的属性标签,所述属性标签用于描述所述化学物质的性质。
[0015]根据本申请的另一方面,提供了一种属性预测模型的训练装置,所述装置包括:
[0016]第一获取模块,用于获取第一组样本数据,所述第一组样本数据包括第一化学物质和所述第一化学物质的结构标签,所述结构标签用于描述化学物质中的原子结构;
[0017]预训练模块,用于基于所述第一组样本数据训练得到预训练模型,所述预训练模型用于根据输入的所述化学物质输出所述化学物质的所述结构标签;
[0018]所述第一获取模块,用于获取第二组样本数据,所述第二组样本数据包括第二化学物质和所述第二化学物质的属性标签,所述属性标签用于描述所述化学物质的性质;
[0019]训练模块,用于基于所述第二组样本数据和所述预训练模型训练得到所述属性预测模型,所述属性预测模型用于根据输入的所述化学物质输出所述化学物质的所述属性标签。
[0020]根据本申请的另一方面,提供了一种属性预测装置,所述装置包括:
[0021]第二获取模块,用于获取待预测的第三化学物质;
[0022]预测模块,用于将所述第三化学物质输入属性预测模型,得到所述第三化学物质的预测属性标签;
[0023]其中,所述属性预测模型是基于预训练模型进行训练得到的,所述预训练模型用于根据输入的化学物质输出所述化学物质的结构标签,所述结构标签用于描述所述化学物质中的原子结构,所述属性预测模型用于根据输入的所述化学物质输出所述化学物质的属性标签,所述属性标签用于描述所述化学物质的性质。
[0024]根据本申请的另一方面,提供了一种计算机设备,所述计算机设备包括:处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上方面所述的属性预测模型的训练方法或属性预测方法。
[0025]根据本申请的另一方面,提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如上方面所述的属性预测模型的训练方法或属性预测方法。
[0026]根据本公开实施例的另一个方面,提供一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述可选实现方式中提供的属性预测模型的训练方法或属性预测方法。
[0027]本申请实施例提供的技术方案带来的有益效果至少包括如下的有益效果。
[0028]通过先使用化学物质的结构标签,训练得到能够输出化学物质的结构标签的预训练模型,然后在预训练模型的基础上,使用带有属性标签的样本数据对预训练模型进行调整,最终得到能够进行属性预测的属性预测模型。由于化学物质的属性通常取决于化学物质的结构,而化学物质的结构是容易获得的,因此,先根据数据量较多的第一组样本数据(包含结构标签的样本数据)来训练预训练模型,使之能够学习到化学物质的浅层结构特征。在预训练模型学习到化学物质的浅层特征之后,使用第二组样本数据(包含属性标签的样本数据),对预训练模型进行调整,使之学习化学物质的深层属性特征。如此,只需要使用
少量的第二组样本数据对预训练模型进行调整,就可以得到能够准确预测属性的属性预测模型,降低属性预测模型在训练过程中对属性标签数据的数据量要求,提高属性预测模型的预测准确度。
附图说明
[0029]为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0030]图1是本申请一个示例性实施例提供的计算机设备的框图;
[0031]图2是本申请另一个示例性实施例提供的属性预测模型的训练方法的方法流程图;
[0032]图3是本申请另一个示例性实施例提供的属性预测模型的训练方法的方法流程图;
[0033]图4是本申请另一个示例性实施例提供的属性预测模型的训练方法的方法流程图;
[0034]图5是本申请另一个示例性实施例提供的属性预测模型的训练方法的图数据的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种属性预测模型的训练方法,其特征在于,所述方法包括:获取第一组样本数据,所述第一组样本数据包括第一化学物质和所述第一化学物质的结构标签,所述结构标签用于描述化学物质中的原子结构;基于所述第一组样本数据训练得到预训练模型,所述预训练模型用于根据输入的所述化学物质输出所述化学物质的所述结构标签;获取第二组样本数据,所述第二组样本数据包括第二化学物质和所述第二化学物质的属性标签,所述属性标签用于描述所述化学物质的性质;基于所述第二组样本数据和所述预训练模型训练得到所述属性预测模型,所述属性预测模型用于根据输入的所述化学物质输出所述化学物质的所述属性标签。2.根据权利要求1所述的方法,其特征在于,所述预训练模型包括特征提取层和第一分类器;所述基于所述第一组样本数据训练得到预训练模型,包括:调用所述特征提取层对所述第一化学物质进行特征提取,得到所述第一化学物质的第一物质特征;调用所述第一分类器对所述第一物质特征进行分类,得到所述第一化学物质的预测结构标签;根据所述第一化学物质的预测结构标签,与所述第一化学物质的结构标签的损失,训练所述预训练模型。3.根据权利要求2所述的方法,其特征在于,所述第一化学物质包括X个原子和Y个化学键;所述第一组样本数据包括所述第一化学物质、所述X个原子对应的X个节点向量、所述Y个化学键对应的Y个边向量和所述X个原子对应的X个结构标签,X、Y为正整数;所述调用所述特征提取层对所述第一化学物质进行特征提取,得到所述第一化学物质的第一物质特征,包括:调用所述特征提取层基于所述X个节点向量和所述Y个边向量进行特征提取,得到所述第一化学物质中所述X个原子对应的X个节点特征;所述调用所述第一分类器对所述第一物质特征进行分类,得到所述第一化学物质的预测结构标签,包括:调用所述第一分类器对第x个节点特征进行分类,得到第x个原子的预测结构标签,x是不大于X的正整数;所述根据所述第一化学物质的所述预测结构标签,与所述第一化学物质的所述结构标签的损失,训练所述预训练模型,包括:根据所述第x个原子的预测结构标签,与所述第x个原子的结构标签的损失,训练所述预训练模型。4.根据权利要求3所述的方法,其特征在于,所述特征提取层包括消息传播网络;所述第一组样本数据还包括所述第一化学物质的图数据,所述图数据包括基于所述第一化学物质的化学式构建的拓扑结构图,所述图数据中的第x个节点表示所述第x个原子,所述图数据中的第y个边表示第y个化学键;所述调用所述特征提取层对所述X个节点向量和所述Y个边向量进行特征提取,得到所述第一化学物质中所述X个原子对应的X个节点特征,包括:
基于所述第一化学物质的所述图数据,进行至少一次消息传播和状态更新,得到所述第一化学物质中所述X个原子对应的X个节点特征;其中,所述消息传播用于使所述图数据中的所述第x个节点接收邻居节点的节点特征和邻居边的边特征;所述状态更新用于使所述图数据中的所述第x个节点根据所述邻居节点的节点特征、所述邻居边的边特征更新所述第x个节点的节点特征,X、Y为正整数,x是不大于X的正整数;所述图数据中所述第x个节点的初始的节点特征为所述第x个原子的节点向量,所述图数据中所述第y个边的初始的边特征为所述第y个化学键的边向量。5.根据权利要求3或4所述的方法,其特征在于,所述方法还包括:基于所述第一化学物质中第x个原子的属性构造所述第x个原子的节点向量;基于所述第一化学物质中第y个化学键的属性构造所述第y个化学键的边向量;基于所述第x个原子、所述第x个原子的邻居原子、所述第x个原子与邻居原子的化学键构造所述第x个原子的结构标签。6.根据权利要求2至4任一所述的方法,其特征在于,所述属性预测模型包括所述特征提取层和第二分类器;所述基于所述第二组样本数据和所述预训练模型训练得到所述属性预测模型,包括:调用所述特征提取层对所述第二化学物质进行特征提取,得到所述第二化学物质的第二物质特征;调用所述第二分类器对所述第二物质特征进行分类,得到所述第二化学物质的预测属性标签;根据所述第二化学物质的所述预测属性标签,与所述第二化学物质的所述属性标签的损失,训练所述属性预测模型。7.根据权利要求6所述的方法,其特征在于,所述方法还包括:根据已训...

【专利技术属性】
技术研发人员:荣钰卞亚涛徐挺洋谢未央魏颖黄俊洲黄文炳
申请(专利权)人:清华大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1