一种基于分子指纹相似度与最远点采样的数据集划分方法技术

技术编号：41330884 阅读：5 留言：0更新日期：2024-05-20 09:52

本发明专利技术公开了一种基于分子指纹相似度与最远点采样的数据集划分方法，获取有机分子的SMILES序列；对每个分子提取分子指纹，形成分子指纹列表；计算两两分子指纹之间的谷本相似度并存储在相关性矩阵；利用最远点采样选择相互最不相似的分子进入新数据集直到新数据集分子数量达到提取比例，将新数据集列表保存为模型测试集，剩下的分子保存为训练集。本发明专利技术以计算出谷本相似度的分子指纹作为采样基础，循环遍历分子相似度通过最远点采样方法提取到差异最大的分子，实现了有机分子化学分子数据集构建，能够为药物、含能材料、光电材料等有机分子的计算机辅助设计提供具有更好表现的数据集。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及有机分子数据集构建，具体的说，是一种基于分子指纹相似度与最远点采样的数据集划分方法。

技术介绍

1、在对药物、含能材料、光电材料的有机分子通过建立模型进行分析、预测性能时，由于有机分子数据集样本量少，结构分布不均匀，存在很多问题：难捕捉数据整体分布，模型很容易记住样本细节，对新数据泛化能力差；模型预测偏差，模型因为样本不均匀，某些类别或区域样本较少，某些过多，导致模型性能降低；模型评估失真，评估指标无法真实反应模型效果，略大或略小的类别影响较大；模型偏向主流，训练时注意到主流数据模式，忽略少量数据区域的重要信号；特征选择结果错误，少量数据的特征可能被错误过滤或子采样。如何对小样本数据集进行数据划分，划分出更高质量的训练集和测试集是提高模型预测分子性能的关键。

技术实现思路

1、本专利技术的目的在于提供一种基于分子指纹相似度与最远点采样的数据集划分方法，用于解决现有技术中有机分子数据集样本量少导致模型预测分子性能存在偏差、评估失真的问题。

2、本专利技术通过下述技术方案解决上述问题：

3、一种基于分子指纹相似度与最远点采样的数据集划分方法，包括：

4、步骤s1、获取有机分子数据集，得到所有分子的smiles序列；

5、步骤s2、对有机分子数据集中每个分子提取分子指纹，得到每个分子的分子指纹，形成分子指纹列表；

6、步骤s3、分子指纹列表中计算两两分子指纹之间的谷本相似度，并将结果存储在相关性矩阵；

8、步骤s5、若新数据集列表分子数量小于有机分子数据集的分子的smiles序列数量*提取比例，则重复执行步骤s4，否则将新数据集列表保存为模型测试集，剩下的分子保存为训练集。

9、进一步地，所述步骤s2具体包括：

10、将分子的smiles序列转化为mol文件，采用morgan、maccs、avalon或rdk方法将mol文件转化为分子指纹；

11、校验mol文件的合法性，若mol文件转化分子指纹没有问题，则将分子指纹存储在分子指纹列表。

12、进一步地，所述步骤s3中对于定值型指纹元素，计算指纹元素对应位是否相同，若相同则相似度为1，若不同则相似度为0；对于连续值型指纹元素，采用标准化处理，计算标准差后元素间差值的绝对值为相似度；

13、获得定值型指纹元素和连续值型指纹元素的相似性矩阵，将定值型指纹元素和连续值型指纹元素对应的相似性矩阵叠加，对叠加后的相似度求和，再除以总元素个数，得到分子指纹之间的谷本相似度，相似度取值范围为0～1：

14、

15、其中，tst为样本s和样本t的谷本系数，即两样本的相似度；ptk为属性k在样本t中的属性值；psk为属性k在样本s中的属性值；n为样本中属性的总数；k为第k个属性；

16、按照上述方法，计算出两两分子指纹之间的谷本相似度，并将结果存储在相关性矩阵。

17、进一步地，所述步骤s4具体为：从相关性矩阵中找出每个分子指纹与其他分子指纹之间的最小相似度，将最小相似度对应的两个分子指纹加入新数据集列表。

18、进一步地，所述步骤s4的实现方法为：

19、依次遍历相关性矩阵的每一行，遍历当前行时首先设置该行的最小相似度初始值为1，若该行，存在相似度＜最小相似度，则更新最小相似度为该相似度，，并判断该最小相似度对应的分子指纹是否已存在新数据列表中，若不存在，则将最小相似度对应的分子指纹放入新数据集列表；若是，则跳过该两个分子指纹。

20、本专利技术与现有技术相比，具有以下优点及有益效果：

21、(1)本专利技术以计算出谷本相似度的分子指纹作为采样基础，循环遍历分子相似度通过最远点采样方法提取到差异最大的分子，实现了有机分子化学分子数据集构建，能够为药物、含能材料、光电材料等有机分子的计算机辅助设计提供具有更好表现的数据集，对于提升有机材料的研制效率具有重要意义。

22、(2)本专利技术通过有机分子的结构相似度进行最远点采样，分子结构相似度计算是通过将分子的smiles编码转变为mol文件，并将mol文件按照用户需求转化为分子指纹，在此过程中，会将有问题的编码分子找出，防止出现无效分子指纹，对提取出的分子指纹两两之间进行谷本相似度计算，并将计算的结果存储在二维矩阵中便于处理和操作。在构建出的相似度矩阵中定位到最小相似度点，并将此最小相似度点对应的两分子保存在列表中，之后循环遍历找到与该列表中所有分子相似度最远点，若遇到列表中已有分子则跳过，采样该分子并入列表中，直到整个列表中分子数量达到用户指定比例时，将列表保存为测试集，剩下分子保存为训练集。划分出的训练集样本分布更加均匀，并且保留了原始数据的结构信息，对模型训练有更积极的意义。

23、(3)本专利技术的最远点pfs采样会始终选择与当前采样点距离最大的点作为下一个采样点，样本点分布更均匀，可以最大限度地覆盖样本空间，保留了原始数据集的结构信息。与随机采样相比，fps选择的点依然来自原始数据，保留了数据集中的结构特性，采样点间具有一定距离。由于采用最远距离作为标准，生成的子数据集样本间距离通常比原始数据集大，避免重叠，子数据集容量较小，为了覆盖原始空间，采样点间距离较大，同样拉网即可得到相对较小容量的子数据集，下游任务效果通常优于随机采样。由于点分布更均匀，fps采样得到的子数据集在分类、聚类等任务上结果可能会更好。总体来说，fps采样得到的子数据集点分布更均匀、保留更多结构信息，但采样效率较低，在实际应用中需要灵活选择。

本文档来自技高网...

【技术保护点】

1.一种基于分子指纹相似度与最远点采样的数据集划分方法，其特征在于，包括：

2.根据权利要求1所述的一种基于分子指纹相似度与最远点采样的数据集划分方法，其特征在于，所述步骤S2具体包括：

3.根据权利要求1所述的一种基于分子指纹相似度与最远点采样的数据集划分方法，其特征在于，所述步骤S3中对于定值型指纹元素，计算指纹元素对应位是否相同，若相同则相似度为1，若不同则相似度为0；对于连续值型指纹元素，采用标准化处理，计算标准差后元素间差值的绝对值为相似度；

4.根据权利要求3所述的一种基于分子指纹相似度与最远点采样的数据集划分方法，其特征在于，所述步骤S4具体为：从相关性矩阵中找出每个分子指纹与其他分子指纹之间的最小相似度，将最小相似度对应的两个分子指纹加入新数据集列表。

5.根据权利要求4所述的一种基于分子指纹相似度与最远点采样的数据集划分方法，其特征在于，所述步骤S4的实现方法为：

【技术特征摘要】

1.一种基于分子指纹相似度与最远点采样的数据集划分方法，其特征在于，包括：

2.根据权利要求1所述的一种基于分子指纹相似度与最远点采样的数据集划分方法，其特征在于，所述步骤s2具体包括：

3.根据权利要求1所述的一种基于分子指纹相似度与最远点采样的数据集划分方法，其特征在于，所述步骤s3中对于定值型指纹元素，计算指纹元素对应位是否相同，若相同则相似度为1，若不同则相似度为0；对于连续值型指纹元...

【专利技术属性】
技术研发人员：刘建，黄超逸，唐岳川，
申请(专利权)人：中国工程物理研究院化工材料研究所，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人