预测模型训练、数据预测方法、装置和存储介质制造方法及图纸

技术编号：28298269 阅读：28 留言：0更新日期：2021-04-30 16:24

本申请涉及一种预测模型训练方法、装置、计算机设备和存储介质。该方法包括：获取训练样本集，训练样本集包括各个训练样本、各个训练样本对应的训练样本权重和各个训练样本对应的目标能量特征；基于训练样本权重从训练样本集中确定当前训练样本；将当前训练样本对应的当前目标能量特征输入到预训练预测模型中进行基础训练，当基础训练完成时，得到基础预测模型；基于基础预测模型更新各个训练样本对应的训练样本权重并迭代执行，直到模型训练完成时，得到目标预测模型，目标预测模型用于预测输入的蛋白质信息与输入的化合物信息对应的相互作用状态信息。采用本方法能够提高训练得到的目标预测模型的预测准确性。

全部详细技术资料下载

【技术实现步骤摘要】
预测模型训练、数据预测方法、装置和存储介质
本申请涉及计算机
，特别是涉及一种预测模型训练、数据预测方法、装置、计算机设备和存储介质。
技术介绍
随着人工智能技术的发展，出现了使用机器学习算法来预测化合物与靶向蛋白质之间的亲和力。目前，通过使用机器学习算法建立的模型来预测靶向蛋白质发生突变后与化合物之间的亲和力变化，进而确定靶向蛋白质对化合物是否产生耐药性，从而为医生用药提供参考。然而，目前通过机器学习算法建立的预测模型存在准确率低，模型泛化能力差的问题。
技术实现思路
基于此，有必要针对上述技术问题，提供一种能够提高预测模型训练准确性，进而提高预测准确性的预测模型训练、数据预测方法、装置、计算机设备和存储介质。一种预测模型训练方法，所述方法包括：获取训练样本集，训练样本集包括各个训练样本、各个训练样本对应的训练样本权重和各个训练样本对应的目标能量特征，训练样本包括野生型蛋白质信息、突变型蛋白质信息和化合物信息，目标能量特征基于野生型能量特征和突变型能量特征得到，野生型能量特征是基于...

【技术保护点】
1.一种预测模型训练方法，其特征在于，所述方法包括：/n获取训练样本集，所述训练样本集包括各个训练样本、所述各个训练样本对应的训练样本权重和所述各个训练样本对应的目标能量特征，所述训练样本包括野生型蛋白质信息、突变型蛋白质信息和化合物信息，所述目标能量特征基于野生型能量特征和突变型能量特征得到，所述野生型能量特征是基于所述野生型蛋白质信息和所述化合物信息进行结合能量特征提取得到，所述突变型能量特征是基于所述突变型蛋白质信息和所述化合物信息进行结合能量特征提取得到的；/n基于所述训练样本权重从所述训练样本集中确定当前训练样本；/n将所述当前训练样本对应的当前目标能量特征输入到预训练预测模型中进行...

【技术特征摘要】
1.一种预测模型训练方法，其特征在于，所述方法包括：
获取训练样本集，所述训练样本集包括各个训练样本、所述各个训练样本对应的训练样本权重和所述各个训练样本对应的目标能量特征，所述训练样本包括野生型蛋白质信息、突变型蛋白质信息和化合物信息，所述目标能量特征基于野生型能量特征和突变型能量特征得到，所述野生型能量特征是基于所述野生型蛋白质信息和所述化合物信息进行结合能量特征提取得到，所述突变型能量特征是基于所述突变型蛋白质信息和所述化合物信息进行结合能量特征提取得到的；
基于所述训练样本权重从所述训练样本集中确定当前训练样本；
将所述当前训练样本对应的当前目标能量特征输入到预训练预测模型中进行基础训练，当基础训练完成时，得到基础预测模型；
基于所述基础预测模型更新所述各个训练样本对应的训练样本权重，并返回基于训练样本权重从所述训练样本集中确定当前训练样本的步骤执行，直到模型训练完成时，得到目标预测模型，所述目标预测模型用于预测输入的蛋白质信息与输入的化合物信息对应的相互作用状态信息。

2.根据权利要求1所述的方法，其特征在于，在所述获取训练样本集之前，还包括：
获取所述各个训练样本，所述训练样本包括野生型蛋白质信息、突变型蛋白质信息和化合物信息；
基于所述野生型蛋白质信息和所述化合物信息进行结合初始能量特征提取，得到野生型初始能量特征；
基于所述突变型蛋白质信息和所述化合物信息进行结合初始能量特征提取，得到突变型初始能量特征，并基于所述野生型初始能量特征和突变型初始能量特征确定所述各个训练样本对应的目标初始能量特征；
将所述各个训练样本对应的目标初始能量特征输入到初始预测模型中进行预测，得到所述各个训练样本对应的初始相互作用状态信息，所述初始预测模型是使用随机森林算法建立的；
基于所述各个训练样本对应的初始相互作用状态信息和各个训练样本对应的相互作用状态标签进行损失计算，得到所述各个训练样本对应的初始损失信息；
基于所述初始损失信息更新所述初始预测模型，并返回将所述各个训练样本对应的目标能量特征输入到初始预测模型中进行预测的步骤执行，直到预训练完成时，得到预训练预测模型和所述目标初始能量特征对应的特征重要性；
基于预训练完成时所述各个训练样本对应的损失信息确定所述各个训练样本对应的训练样本权重，并基于所述特征重要性从所述目标初始能量特征中选取目标能量特征。

3.根据权利要求2所述的方法，其特征在于，将所述各个训练样本对应的目标初始能量特征输入到初始预测模型中进行预测，得到所述各个训练样本对应的初始相互作用状态信息，所述初始预测模型是使用随机森林算法建立的，包括：
将所述各个训练样本对应的目标初始能量特征输入到初始预测模型中；
所述初始预测模型将所述各个训练样本对应的目标初始能量特征作为当前待划分集，并计算所述目标初始能量特征对应的初始特征重要性，基于所述初始特征重要性从所述目标初始能量特征中确定初始划分特征，基于所述初始划分特征将所述各个训练样本对应的目标初始能量特征进行划分，得到各个划分结果，所述划分结果中包括各个划分样本对应的目标初始能量特征，将所述各个划分结果作为当前待划分集，并返回计算所述目标初始能量特征对应的初始特征重要性的步骤迭代，直到划分完成时，得到所述各个训练样本对应的初始相互作用状态信息。

4.根据权利要求1所述的方法，其特征在于，所述获取训练样本集，所述训练样本集包括所述各个训练样本对应的目标能量特征，包括：
基于所述野生型蛋白质信息和所述化合物信息进行结合能量特征提取，得到所述野生型能量特征；
基于所述突变型蛋白质信息和所述化合物信息进行结合能量特征提取，得到所述突变型能量特征；
计算所述野生型能量特征和所述突变型能量特征之间的差异，得到目标能量特征。

5.根据权利要求4所述的方法，其特征在于，所述野生型能量特征包括第一野生型能量特征和第二野生型能量特征；
所述基于所述野生型蛋白质信息和所述化合物信息进行结合能量特征提取，得到所述野生型能量特征，包括：
基于所述野生型蛋白质信息和所述化合物信息使用非物理型打分函数进行结合能量特征提取，得到第一野生型能量特征；
基于所述野生型蛋白质信息和所述化合物信息使用物理型函数进行结合能量特征提取，得到第二野生型能量特征；
基于所述第一野生型能量特征和所述第二野生型能量特征进行融合，得到所述野生型能量特征。

6.根据权利要求1所述的方法，其特征在于，所述基于所述训练样本权重从所述训练样本集中确定当前训练样本，包括：
获取蛋白质家族信息，基于所述蛋白质家族信息将所述训练样本集进行划分，得到各个训练样本组；
基于所述训练样本权重从所述各个训练样本组中选取当前训练样本，得到当前训练样本集；
所述将所述当前训练样本对应的当前目标能量特征输入到预训练预测模型中进行基础训练，当基础训练完成时，得到基础预测模型，包括：
将所述当前训练样本集中各个当前训练样本对应的当前目标能量特征输入到预训练预测模型中进行基础训练，当基础训练完成时，得到目标基础预测模型。

7.根据权利要求6所述的方法，其特征在于，所述基于所述训练样本权重从所述各个训练样本组中选取当前训练样本，得到当前训练样本集，包括：
获取当前学习参数，基于所述当前学习参数确定选取样本数和样本分布；
基于所述样本数和所述样本分布按照所述训练样本权重从所述各个训练样本组中选取当前训练样本，得到目标当前训练样本集。

8.根据权利要求1所述的方法，其特征在于，所述将所述当前训练样本对应的当...

【专利技术属性】
技术研发人员：杨子翊，叶兆丰，廖奔犇，张胜誉，
申请(专利权)人：腾讯科技深圳有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人