药物数据增强方法、装置、电子设备及存储介质制造方法及图纸

技术编号:35344163 阅读:41 留言:0更新日期:2022-10-26 12:09
本发明专利技术提供一种药物数据增强方法、装置、电子设备及存储介质,首先获取目标药物样本的分子结构数据,并将分子结构数据通过图结构进行表示;然后采用操作方式一、操作方式二以及操作方式三中的至少一种,对目标药物样本的图结构进行处理,得到目标药物样本对应的增强样本。该方法通过对目标药物样本的图结构进行删减性和/或添加性的操作完成对其图结构的微扰,得到的增强样本可以用于增加药物样本的数量及多样性,实现对小样本药物数据集的扩充,能够有效缓解小样本药物数据集上机器学习模型的过拟合问题,提高机器学习模型的泛化能力及鲁棒性。通过扩充后的药物数据集训练得到的机器学习模型的准确度大大提高,有助于机器学习模型的广泛应用。习模型的广泛应用。习模型的广泛应用。

【技术实现步骤摘要】
药物数据增强方法、装置、电子设备及存储介质


[0001]本专利技术涉及数据增强
,尤其涉及一种药物数据增强方法、装置、电子设备及存储介质。

技术介绍

[0002]近年来随着人工智能特别是机器学习技术的发展,已被应用于药解决药物设计领域内的问题。
[0003]在药物设计领域应用机器学习技术时,通常需要获取药物数据,并结合具体需求,采用药物数据训练得到机器学习模型。但是,由于药物研发各阶段的实验成本较高,导致获取的药物数据的数量过少,构成的药物数据集为小样本药物数据集,这将导致通过小样本药物数据集训练得到的机器学习模型出现过拟合的现象,降低机器学习模型的准确度,不利于机器学习模型的广泛应用。
[0004]为此,现急需提供一种药物数据增强方法。

技术实现思路

[0005]本专利技术提供一种药物数据增强方法、装置、电子设备及存储介质,用以解决现有技术中存在的缺陷。
[0006]本专利技术提供一种药物数据增强方法,包括:
[0007]获取目标药物样本的分子结构数据,并将所述分子结构数据通过图结构进行表本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种药物数据增强方法,其特征在于,包括:获取目标药物样本的分子结构数据,并将所述分子结构数据通过图结构进行表示;所述目标药物样本的图结构包括多个节点以及边线,所述多个节点包括所述目标药物样本的分子对应的超节点以及所述分子中各原子对应的原子节点,所述超节点与各原子节点通过所述边线连接;所述边线还用于表征所述分子中的化学键;采用如下操作方式中的至少一种,对所述目标药物样本的图结构进行处理,得到所述目标药物样本对应的增强样本:操作方式一:丢弃所述目标药物样本的图结构中第一数量的原子节点以及与所述第一数量的原子节点连接的边线;操作方式二:丢弃所述目标药物样本的图结构中除超节点边线外的其他边线中第二数量的边线,所述超节点边线为与所述超节点连接的边线;操作方式三:将所述目标药物样本的图结构与除所述目标药物样本外的其他药物样本的图结构进行拼接。2.根据权利要求1所述的药物数据增强方法,其特征在于,所述第一数量的原子节点中碳原子对应的原子节点的数量与所述第一数量的比值在第一预设范围内。3.根据权利要求1所述的药物数据增强方法,其特征在于,所述第二数量的边线中骨干边线的数量与所述第二数量的比值在第二预设范围内,所述骨干边线为连接有两个碳原子对应的原子节点的边线。4.根据权利要求1所述的药物数据增强方法,其特征在于,所述操作方式三,包括:将所述目标药物样本的图结构与所述其他药物样本的图结构中的超节点合并为一个。5.根据权利要求1所述的药物数据增强方法,其特征在于,采用所述操作方式三,对所述目标药物样本的图结构进行处理后得到的所述增强样本对应的标签基于对所述目标药物样本对应的标签以及所述其他药物样本对应的标签进行或操作确定。6.根据权利要求1

5中任一种所述的药物数据增强方法,其特征在于,所述目标药物...

【专利技术属性】
技术研发人员:马喜波蔡引江
申请(专利权)人:中国科学院自动化研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1