分子分类方法、装置、设备及计算机可读存储介质制造方法及图纸

技术编号:35095510 阅读:8 留言:0更新日期:2022-10-01 16:58
本申请提供了一种基于人工智能的分子分类方法、装置、设备及计算机可读存储介质;方法包括:获取初步训练好的预训练模型,所述初步训练好的预训练模型是利用无标签的第一训练数据通过自监督训练得到的;获取目标检测属性对应的第二训练数据,所述第二训练数据为具有标签信息的训练数据;利用所述第二训练数据对所述初步训练好的预训练模型进行参数调整,得到所述目标检测属性对应的训练好的目标模型;获取待预测分子,并利用所述训练好的目标模型对待预测分子进行预测处理,得到所述待预测分子的分类结果。通过本申请,能够提高分类效率。能够提高分类效率。能够提高分类效率。

【技术实现步骤摘要】
分子分类方法、装置、设备及计算机可读存储介质


[0001]本申请涉及智慧医学技术,尤其涉及一种基于人工智能的分子分类方法、装置、设备及计算机可读存储介质。

技术介绍

[0002]在药物分析中,如何根据化合物/蛋白质结构判断其的一些化学/生物性质,例如毒性、溶解性,致癌性等等,是一件非常重要的任务。这类任务可以建模成机器学习中的分类问题。在实现时可以通过表示学习的方式,将化合物/蛋白质的结构式转化为在欧式空间中的向量,然后通过经典机器学习算法对其进行分类,进而判断其化学/生物性质。
[0003]在实际应用中,对于特征分子属性来说,经过化学实验测定过的分子数目往往是很少的(例如,几百到几千个分子)。这就使得在使用监督学习方法来训练模型的时候,会面临标签数据不足的问题,进而影响模型的精度和泛化性。

技术实现思路

[0004]本申请实施例提供一种基于人工智能的分子分类方法、装置、设备及计算机可读存储介质,能够通过对利用无标签的训练数据进行自监督训练得到的预训练模型进行精调,得到目标检测属性对应的目标模型,提高模型训练效率和精度,从而提高分类处理效率。
[0005]本申请实施例的技术方案是这样实现的:
[0006]本申请实施例提供一种基于人工智能的分子分类方法,包括:
[0007]获取初步训练好的预训练模型,所述初步训练好的预训练模型是利用无标签的第一训练数据通过自监督训练得到的;
[0008]获取目标检测属性对应的第二训练数据,所述第二训练数据为具有标签信息的训练数据;
[0009]利用所述第二训练数据对所述初步训练好的预训练模型进行参数调整,得到所述目标检测属性对应的训练好的目标模型;
[0010]获取待预测分子,并利用所述训练好的目标模型对待预测分子进行预测处理,得到所述待预测分子的分类结果。
[0011]本申请实施例提供一种基于人工智能的分子分类装置,包括:。
[0012]第一获取模块,用于获取初步训练好的预训练模型,所述初步训练好的预训练模型是利用无标签的第一训练数据通过自监督训练得到的;
[0013]第二获取模块,用于获取目标检测属性对应的第二训练数据,所述第二训练数据为具有标签信息的训练数据;
[0014]模型调整模块,用于利用所述第二训练数据对所述初步训练好的预训练模型进行参数调整,得到所述目标检测属性对应的训练好的目标模型;
[0015]第一预测模块,用于获取待预测分子,并利用所述训练好的目标模型对待预测分
子进行预测处理,得到所述待预测分子的分类结果。
[0016]本申请实施例提供一种计算机设备,包括:
[0017]存储器,用于存储可执行指令;
[0018]处理器,用于执行所述存储器中存储的可执行指令时,实现本申请实施例提供的方法。
[0019]本申请实施例提供一种计算机可读存储介质,存储有可执行指令,用于引起处理器执行时,实现本申请实施例提供的方法。
[0020]本申请实施例提供一种计算机程序产品,包括计算机程序或指令,所述计算机程序或指令被处理器执行时实现本申请实施例提供的方法。
[0021]本申请实施例具有以下有益效果:
[0022]在本申请实施例提供的基于人工智能的分子分类方法中,首先获取初步训练好的预训练模型,该预训练模型是利用所述预训练模型是利用无标签的第一训练数据通过自监督训练得到的,也即利用预设规则构造出无标签的第一训练数据的自监督标签向量,再通过第一训练数据和自监督标签向量对预训练模型进行训练,从而得到训练好的预训练模型,然后再获取目标检测属性对应的有标签的第二训练数据,利用所述第二训练数据对所述初步训练好的预训练模型进行调整,得到所述目标检测属性对应的训练好的目标模型,最后利用所述训练好的目标模型对待预测分子进行预测处理,得到所述待预测分子的分类结果,由于预训练模型是提前训练好的,并且是通过对无标签的训练数据进行自监督训练得到的,无需必须使用有标签的训练数据,从而提高训练数据的数据量,并且预训练模型具有更高的通用性;在需要对特定性质的分子进行检测时,只需要对利用特定性质对应的训练数据对预训练模型进行精调即可,相比于利用有标签的训练数据直接对初始模型进行训练能够提高模型的训练效率,从而提高分子分类效率。
附图说明
[0023]图1为本申请实施例提供的分子分类系统100的网络架构示意图;
[0024]图2为本申请实施例提供的服务器400的结构示意图;
[0025]图3为本申请实施例提供的基于人工智能的分子分类方法的一种流程示意图;
[0026]图4A为本申请实施例提供的利用无标签的第一训练数据对预设的网络模型进行自监督训练的实现流程示意图;
[0027]图4B为本申请实施例提供的基于第一训练分子图确定第一训练分子的自监督标签向量的实现流程示意图;
[0028]图5为本申请实施例提供的基于人工智能的分子分类方法的再一种实现流程示意图;
[0029]图6为本申请实施例提供的用图表示尼古丁分子的示意图;
[0030]图7A为相关技术中获得性质预测模型的流程示意图;
[0031]图7B为本申请实施例提供的获得训练好的性质预测模型的流程示意图;
[0032]图8为本申请实施例提供的一种基于原子的自监督标签构造方法实现流程示意图;
[0033]图9为利用语义子图集合确定输入分子的语义子图标签向量的实现流程示意图;
[0034]图10为本申请实施例提供的利用神经网络层获得每个节点输出状态向量的示意图。
具体实施方式
[0035]为了使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请作进一步地详细描述,所描述的实施例不应视为对本申请的限制,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。
[0036]在以下的描述中,涉及到“一些实施例”,其描述了所有可能实施例的子集,但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集,并且可以在不冲突的情况下相互结合。
[0037]在以下的描述中,所涉及的术语“第一\第二\第三”仅仅是是区别类似的对象,不代表针对对象的特定排序,可以理解地,“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序,以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。
[0038]除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的
的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的,不是旨在限制本申请。
[0039]对本申请实施例进行进一步详细说明之前,对本申请实施例中涉及的名词和术语进行说明,本申请实施例中涉及的名词和术语适用于如下的解释。
[0040]1)图:一种数据结构,由顶点和边组成,其中一个边只能连接两个顶点。
[0041]2)自监督:利本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于人工智能的分子分类方法,其特征在于,所述方法包括:获取初步训练好的预训练模型,所述初步训练好的预训练模型是利用无标签的第一训练数据通过自监督训练得到的;获取目标检测属性对应的第二训练数据,所述第二训练数据为具有标签信息的训练数据;利用所述第二训练数据对所述初步训练好的预训练模型进行参数调整,得到所述目标检测属性对应的训练好的目标模型;获取待预测分子,并利用所述训练好的目标模型对待预测分子进行预测处理,得到所述待预测分子的分类结果。2.根据权利要求1中所述的方法,其特征在于,所述方法还包括:获取第一训练数据,所述第一训练数据包括多个第一训练分子;基于所述各个第一训练分子的分子结构信息确定所述各个第一训练分子的第一训练分子图,并基于所述各个第一训练分子图确定所述各个第一训练分子的自监督标签向量;利用预设的网络模型对各个第一训练分子图进行预测处理,得到所述各个第一训练分子图对应的第一训练表示向量;利用训练好的分类器对各个第一训练表示向量进行分类处理,得到所述各个第一训练分子对应的第一预测信息;基于所述各个第一训练分子的自监督标签向量和所述第一预测信息对所述预设的网络模型进行反向传播训练,得到训练好的预训练模型。3.根据权利要求2中的方法,其特征在于,所述基于所述各个第一训练分子图确定所述各个第一训练分子的自监督标签向量,包括:获取预设的多个语义子图,其中,每个语义子图对应一个具有化学意义的分子片段;将各个第一训练分子图与所述多个语义子图进行匹配,得到所述各个第一训练分子图的匹配结果;基于所述各个第一训练分子图对应的匹配结果,确定所述各个第一训练分子的自监督标签向量。4.根据权利要求3中所述的方法,其特征在于,所述将各个第一训练分子图与所述多个语义子图进行匹配,得到所述各个第一训练分子图的匹配结果,包括:将所述第i个第一训练分子图与各个语义子图进行匹配,得到所述各个语义子图对应的匹配度,i=1,2,

,N,N为第一训练分子总数;将匹配度大于匹配度阈值的语义子图确定为所述第i个第一训练分子图对应的目标语义子图;将所述第i个第一训练分子图对应的目标语义子图确定为所述第i个第一训练分子图的匹配结果。5.根据权利要求4中所述的方法,其特征在于,所述基于所述各个第一训练分子图对应的匹配结果,确定所述各个第一训练分子的自监督标签向量,包括:获取所述第i个第一训练分子图对应的目标语义子图的目标子图标识;基于所述目标子图标识确定所述多个语义子图中与所述第i个训练分子图不匹配的其他子图标识;
对所述目标子图标识和所述其他子图标识进行编码处理,得到所述第i个第一训练分子图的自监督标签向量。6.根据权利要求2中所述的方法,其特征在于,所述预设的网络模型包括多个消息传播层和至少一个聚合层,所述利用预设的网络模型对各个第一训练分子图进行预测处理,得到所述各个第一训练分子图对应的第一训练表示向量,包括:基于第i个训练分子的分子结构信息,获取第i个第一训练分子图中各个原子节点的节点特征向量、所述各个原子节点的邻接节点和所述各个原子节点与邻接节点之间连接边的边特征向量;对所述各个原子节点的节点特征向量进行映射处理,得到所述各个原子节点的初始状态向量;利用所述多个消息传播层对所述各个原子节点的初始状态向量、所述邻接节点的初始状态向量和所述边特征向量进行融合处理,得到所述各个原子节点的表示向量;利用所述聚合层对所述各个原子节点的表示向量进行处理,得到所述第i个第一训练分子图对应的第一训练表示向量。7.根据权利要求6中所述的方法,其特征在于,所述利用所述多个消息传播层对所述各个原子节点的初始状态向量、所述邻接节点的初始状态向量和所述边特征向量进行融合处理,得到所述各个原子节点的表示向量,包括:利用第一个消息传播层对所述邻接节点的初始状态向量和所述边特征向量进行消息融合处理,得到所述各个原子节点的第一层融合消息向量;对所述各个原子节点的输入状态向量和所述第一层融合消息向量进行状态融合处理,得到所述各个原子节点的第一层状态向量;利用第t个消息传播层对所述邻接节点的第(t

1)层状态向量和所述边特征向量进行消息融合处理,得到所述各...

【专利技术属性】
技术研发人员:荣钰
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1