分子分类方法、装置、设备及计算机可读存储介质制造方法及图纸

技术编号：35095510 阅读：8 留言：0更新日期：2022-10-01 16:58

本申请提供了一种基于人工智能的分子分类方法、装置、设备及计算机可读存储介质；方法包括：获取初步训练好的预训练模型，所述初步训练好的预训练模型是利用无标签的第一训练数据通过自监督训练得到的；获取目标检测属性对应的第二训练数据，所述第二训练数据为具有标签信息的训练数据；利用所述第二训练数据对所述初步训练好的预训练模型进行参数调整，得到所述目标检测属性对应的训练好的目标模型；获取待预测分子，并利用所述训练好的目标模型对待预测分子进行预测处理，得到所述待预测分子的分类结果。通过本申请，能够提高分类效率。能够提高分类效率。能够提高分类效率。

全部详细技术资料下载

【技术实现步骤摘要】
分子分类方法、装置、设备及计算机可读存储介质

[0001]本申请涉及智慧医学技术，尤其涉及一种基于人工智能的分子分类方法、装置、设备及计算机可读存储介质。

技术介绍

[0002]在药物分析中，如何根据化合物/蛋白质结构判断其的一些化学/生物性质，例如毒性、溶解性，致癌性等等，是一件非常重要的任务。这类任务可以建模成机器学习中的分类问题。在实现时可以通过表示学习的方式，将化合物/蛋白质的结构式转化为在欧式空间中的向量，然后通过经典机器学习算法对其进行分类，进而判断其化学/生物性质。
[0003]在实际应用中，对于特征分子属性来说，经过化学实验测定过的分子数目往往是很少的(例如，几百到几千个分子)。这就使得在使用监督学习方法来训练模型的时候，会面临标签数据不足的问题，进而影响模型的精度和泛化性。

技术实现思路

[0004]本申请实施例提供一种基于人工智能的分子分类方法、装置、设备及计算机可读存储介质，能够通过对利用无标签的训练数据进行自监督训练得到的预训练模型进行精调，得到目标检测属性对应的目标模型，提高模型训练效率和精度，从而提高分类处理效率。
[0005]本申请实施例的技术方案是这样实现的：
[0006]本申请实施例提供一种基于人工智能的分子分类方法，包括：
[0007]获取初步训练好的预训练模型，所述初步训练好的预训练模型是利用无标签的第一训练数据通过自监督训练得到的；
[0008]获取目标检测属性对应的第二训练数据，所述第二训练数据为具有标签信息的训练数据；...

【技术保护点】

【技术特征摘要】
1.一种基于人工智能的分子分类方法，其特征在于，所述方法包括：获取初步训练好的预训练模型，所述初步训练好的预训练模型是利用无标签的第一训练数据通过自监督训练得到的；获取目标检测属性对应的第二训练数据，所述第二训练数据为具有标签信息的训练数据；利用所述第二训练数据对所述初步训练好的预训练模型进行参数调整，得到所述目标检测属性对应的训练好的目标模型；获取待预测分子，并利用所述训练好的目标模型对待预测分子进行预测处理，得到所述待预测分子的分类结果。2.根据权利要求1中所述的方法，其特征在于，所述方法还包括：获取第一训练数据，所述第一训练数据包括多个第一训练分子；基于所述各个第一训练分子的分子结构信息确定所述各个第一训练分子的第一训练分子图，并基于所述各个第一训练分子图确定所述各个第一训练分子的自监督标签向量；利用预设的网络模型对各个第一训练分子图进行预测处理，得到所述各个第一训练分子图对应的第一训练表示向量；利用训练好的分类器对各个第一训练表示向量进行分类处理，得到所述各个第一训练分子对应的第一预测信息；基于所述各个第一训练分子的自监督标签向量和所述第一预测信息对所述预设的网络模型进行反向传播训练，得到训练好的预训练模型。3.根据权利要求2中的方法，其特征在于，所述基于所述各个第一训练分子图确定所述各个第一训练分子的自监督标签向量，包括：获取预设的多个语义子图，其中，每个语义子图对应一个具有化学意义的分子片段；将各个第一训练分子图与所述多个语义子图进行匹配，得到所述各个第一训练分子图的匹配结果；基于所述各个第一训练分子图对应的匹配结果，确定所述各个第一训练分子的自监督标签向量。4.根据权利要求3中所述的方法，其特征在于，所述将各个第一训练分子图与所述多个语义子图进行匹配，得到所述各个第一训练分子图的匹配结果，包括：将所述第i个第一训练分子图与各个语义子图进行匹配，得到所述各个语义子图对应的匹配度，i＝1,2,
…
，N，N为第一训练分子总数；将匹配度大于匹配度阈值的语义子图确定为所述第i个第一训练分子图对应的目标语义子图；将所述第i个第一训练分子图对应的目标语义子图确定为所述第i个第一训练分子图的匹配结果。5.根据权利要求4中所述的方法，其特征在于，所述基于所述各个第一训练分子图对应的匹配结果，确定所述各个第一训练分子的自监督标签向量，包括：获取所述第i个第一训练分子图对应的目标语义子图的目标子图标识；基于所述目标子图标识确定所述多个语义子图中与所述第i个训练分子图不匹配的其他子图标识；
对所述目标子图标识和所述其他子图标识进行编码处理，得到所述第i个第一训练分子图的自监督标签向量。6.根据权利要求2中所述的方法，其特征在于，所述预设的网络模型包括多个消息传播层和至少一个聚合层，所述利用预设的网络模型对各个第一训练分子图进行预测处理，得到所述各个第一训练分子图对应的第一训练表示向量，包括：基于第i个训练分子的分子结构信息，获取第i个第一训练分子图中各个原子节点的节点特征向量、所述各个原子节点的邻接节点和所述各个原子节点与邻接节点之间连接边的边特征向量；对所述各个原子节点的节点特征向量进行映射处理，得到所述各个原子节点的初始状态向量；利用所述多个消息传播层对所述各个原子节点的初始状态向量、所述邻接节点的初始状态向量和所述边特征向量进行融合处理，得到所述各个原子节点的表示向量；利用所述聚合层对所述各个原子节点的表示向量进行处理，得到所述第i个第一训练分子图对应的第一训练表示向量。7.根据权利要求6中所述的方法，其特征在于，所述利用所述多个消息传播层对所述各个原子节点的初始状态向量、所述邻接节点的初始状态向量和所述边特征向量进行融合处理，得到所述各个原子节点的表示向量，包括：利用第一个消息传播层对所述邻接节点的初始状态向量和所述边特征向量进行消息融合处理，得到所述各个原子节点的第一层融合消息向量；对所述各个原子节点的输入状态向量和所述第一层融合消息向量进行状态融合处理，得到所述各个原子节点的第一层状态向量；利用第t个消息传播层对所述邻接节点的第(t
‑
1)层状态向量和所述边特征向量进行消息融合处理，得到所述各...

【专利技术属性】
技术研发人员：荣钰，
申请(专利权)人：腾讯科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人