药物数据增强方法、装置、电子设备及存储介质制造方法及图纸

技术编号:35344163 阅读:24 留言:0更新日期:2022-10-26 12:09
本发明专利技术提供一种药物数据增强方法、装置、电子设备及存储介质,首先获取目标药物样本的分子结构数据,并将分子结构数据通过图结构进行表示;然后采用操作方式一、操作方式二以及操作方式三中的至少一种,对目标药物样本的图结构进行处理,得到目标药物样本对应的增强样本。该方法通过对目标药物样本的图结构进行删减性和/或添加性的操作完成对其图结构的微扰,得到的增强样本可以用于增加药物样本的数量及多样性,实现对小样本药物数据集的扩充,能够有效缓解小样本药物数据集上机器学习模型的过拟合问题,提高机器学习模型的泛化能力及鲁棒性。通过扩充后的药物数据集训练得到的机器学习模型的准确度大大提高,有助于机器学习模型的广泛应用。习模型的广泛应用。习模型的广泛应用。

【技术实现步骤摘要】
药物数据增强方法、装置、电子设备及存储介质


[0001]本专利技术涉及数据增强
,尤其涉及一种药物数据增强方法、装置、电子设备及存储介质。

技术介绍

[0002]近年来随着人工智能特别是机器学习技术的发展,已被应用于药解决药物设计领域内的问题。
[0003]在药物设计领域应用机器学习技术时,通常需要获取药物数据,并结合具体需求,采用药物数据训练得到机器学习模型。但是,由于药物研发各阶段的实验成本较高,导致获取的药物数据的数量过少,构成的药物数据集为小样本药物数据集,这将导致通过小样本药物数据集训练得到的机器学习模型出现过拟合的现象,降低机器学习模型的准确度,不利于机器学习模型的广泛应用。
[0004]为此,现急需提供一种药物数据增强方法。

技术实现思路

[0005]本专利技术提供一种药物数据增强方法、装置、电子设备及存储介质,用以解决现有技术中存在的缺陷。
[0006]本专利技术提供一种药物数据增强方法,包括:
[0007]获取目标药物样本的分子结构数据,并将所述分子结构数据通过图结构进行表示;所述目标药物样本的图结构包括多个节点以及边线,所述多个节点包括所述目标药物样本的分子对应的超节点以及所述分子中各原子对应的原子节点,所述超节点与各原子节点通过所述边线连接;所述边线还用于表征所述分子中的化学键;
[0008]采用如下操作方式中的至少一种,对所述目标药物样本的图结构进行处理,得到所述目标药物样本对应的增强样本:
[0009]操作方式一:丢弃所述目标药物样本的图结构中第一数量的原子节点以及与所述第一数量的原子节点连接的边线;
[0010]操作方式二:丢弃所述目标药物样本的图结构中除超节点边线外的其他边线中第二数量的边线,所述超节点边线为与所述超节点连接的边线;
[0011]操作方式三:将所述目标药物样本的图结构与除所述目标药物样本外的其他药物样本的图结构进行拼接。
[0012]根据本专利技术提供的一种药物数据增强方法,所述第一数量的原子节点中碳原子对应的原子节点的数量与所述第一数量的比值在第一预设范围内。
[0013]根据本专利技术提供的一种药物数据增强方法,所述第二数量的边线中骨干边线的数量与所述第二数量的比值在第二预设范围内,所述骨干边线为连接有两个碳原子对应的原子节点的边线。
[0014]根据本专利技术提供的一种药物数据增强方法,所述操作方式三,包括:
[0015]将所述目标药物样本的图结构与所述其他药物样本的图结构中的超节点合并为一个。
[0016]根据本专利技术提供的一种药物数据增强方法,采用所述操作方式三,对所述目标药物样本的图结构进行处理后得到的所述增强样本对应的标签基于对所述目标药物样本对应的标签以及所述其他药物样本对应的标签进行或操作确定。
[0017]根据本专利技术提供的一种药物数据增强方法,所述目标药物样本包括药物数据集中的每个药物样本,所述其他药物样本包括所述药物数据集中除所述目标药物样本外的药物样本;
[0018]相应地,所述第一数量以及所述第二数量基于所述药物数据集中分子的平均碳原子数确定。
[0019]根据本专利技术提供的一种药物数据增强方法,所述药物数据集中各药物样本对应的操作方式包括所述操作方式一以及所述操作方式三,且所述操作方式一对应的所述增强样本的数量与所述操作方式三对应的所述增强样本的数量的比值在第三预设范围内。
[0020]本专利技术还提供一种药物数据增强装置,包括:
[0021]数据获取模块,用于获取目标药物样本的分子结构数据,并将所述分子结构数据通过图结构进行表示;所述目标药物样本的图结构包括多个节点以及边线,所述多个节点包括所述目标药物样本的分子对应的超节点以及所述分子中各原子对应的原子节点,所述超节点与各原子节点通过所述边线连接;所述边线还用于表征所述分子中的化学键;
[0022]数据增强模块,用于采用如下操作方式中的至少一种,对所述目标药物样本的图结构进行处理,得到所述目标药物样本对应的增强样本:
[0023]操作方式一:丢弃所述目标药物样本的图结构中第一数量的原子节点以及与所述第一数量的原子节点连接的边线;
[0024]操作方式二:丢弃所述目标药物样本的图结构中除超节点边线外的其他边线中第二数量的边线,所述超节点边线为与所述超节点连接的边线;
[0025]操作方式三:将所述目标药物样本的图结构与除所述目标药物样本外的其他药物样本的图结构进行拼接。
[0026]本专利技术还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述的药物数据增强方法。
[0027]本专利技术还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述的药物数据增强方法。
[0028]本专利技术还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述的药物数据增强方法。
[0029]本专利技术提供的药物数据增强方法、装置、电子设备及存储介质,首先获取目标药物样本的分子结构数据,并将分子结构数据通过图结构进行表示;然后采用操作方式一、操作方式二以及操作方式三中的至少一种,对目标药物样本的图结构进行处理,得到目标药物样本对应的增强样本。该方法通过对目标药物样本的图结构进行删减性和/或添加性的操作完成对其图结构的微扰,得到的增强样本可以用于增加药物样本的数量及多样性,实现对小样本药物数据集的扩充,能够有效缓解小样本药物数据集上机器学习模型的过拟合问
题,提高机器学习模型的泛化能力及鲁棒性。通过扩充后的药物数据集训练得到的机器学习模型的准确度大大提高,有助于机器学习模型的广泛应用。
附图说明
[0030]为了更清楚地说明本专利技术或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0031]图1是本专利技术提供的药物数据增强方法的流程示意图;
[0032]图2是本专利技术提供的药物数据增强方法中采用操作方式一得到增强样本的结构示意图;
[0033]图3是本专利技术提供的药物数据增强方法中采用操作方式二得到增强样本的结构示意图;
[0034]图4是本专利技术提供的药物数据增强方法中采用操作方式三得到增强样本的结构示意图;
[0035]图5是本专利技术提供的药物数据增强方法中采用操作方式一、操作方式二以及操作方式三同步得到增强样本的结构示意图;
[0036]图6是本专利技术提供的药物数据增强装置的结构示意图;
[0037]图7是本专利技术提供的电子设备的结构示意图。
具体实施方式
[0038]为使本专利技术的目的、技术方案和优点更加清楚,下面将结合本专利技术中的附图,对本专利技术中的技术方案进行清楚、完整本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种药物数据增强方法,其特征在于,包括:获取目标药物样本的分子结构数据,并将所述分子结构数据通过图结构进行表示;所述目标药物样本的图结构包括多个节点以及边线,所述多个节点包括所述目标药物样本的分子对应的超节点以及所述分子中各原子对应的原子节点,所述超节点与各原子节点通过所述边线连接;所述边线还用于表征所述分子中的化学键;采用如下操作方式中的至少一种,对所述目标药物样本的图结构进行处理,得到所述目标药物样本对应的增强样本:操作方式一:丢弃所述目标药物样本的图结构中第一数量的原子节点以及与所述第一数量的原子节点连接的边线;操作方式二:丢弃所述目标药物样本的图结构中除超节点边线外的其他边线中第二数量的边线,所述超节点边线为与所述超节点连接的边线;操作方式三:将所述目标药物样本的图结构与除所述目标药物样本外的其他药物样本的图结构进行拼接。2.根据权利要求1所述的药物数据增强方法,其特征在于,所述第一数量的原子节点中碳原子对应的原子节点的数量与所述第一数量的比值在第一预设范围内。3.根据权利要求1所述的药物数据增强方法,其特征在于,所述第二数量的边线中骨干边线的数量与所述第二数量的比值在第二预设范围内,所述骨干边线为连接有两个碳原子对应的原子节点的边线。4.根据权利要求1所述的药物数据增强方法,其特征在于,所述操作方式三,包括:将所述目标药物样本的图结构与所述其他药物样本的图结构中的超节点合并为一个。5.根据权利要求1所述的药物数据增强方法,其特征在于,采用所述操作方式三,对所述目标药物样本的图结构进行处理后得到的所述增强样本对应的标签基于对所述目标药物样本对应的标签以及所述其他药物样本对应的标签进行或操作确定。6.根据权利要求1

5中任一种所述的药物数据增强方法,其特征在于,所述目标药物...

【专利技术属性】
技术研发人员:马喜波蔡引江
申请(专利权)人:中国科学院自动化研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1