一种分子指纹生成方法技术

技术编号:28843423 阅读:18 留言:0更新日期:2021-06-11 23:43
本发明专利技术公开一种分子指纹生成方法,包括如下步骤:步骤1,建立训练集,该训练集为分子的smiles表示;步骤2,分别按照基团和字符对步骤1训练集中的各smiles表示进行分割,假设训练集中包含有N条smiles,则分割后共得到2*N条数据;然后使用TFIDF算法对得到的2*N条数据进行训练;步骤3,将经过TFIDF算法处理的smiles合成为向量,然后计算其中的原子位置信息;步骤4,在分子中叠加按基团和字符经计算后的分子向量表征,并叠加按原子计算的位置信息,以此来表示分子smiles。此种方法可实现“端到端”的分子指纹生成框架,无需手工提取特征,解决了分子指纹生成方法需要开发者对领域知识有较深了解的难题。

【技术实现步骤摘要】
一种分子指纹生成方法
本专利技术属于计算机辅助分子描述领域,涉及一种分子指纹生成方法,特别涉及一种对分子smiles格式的数据进行数字化处理生成分子指纹的方法。
技术介绍
分子指纹(MolecularFingerprint)将化学分子表示成“位串”(bitstring),用于刻画化学分子的结构或功能相似性,由于其使用的简便性以及在子结构和相似性搜索中的高效性,在药物发现和虚拟筛选中得到了广泛应用。目前,已经提出了很多的分子指纹生成方法,不同的方法反映了分子不同方面的信息。目前的分子指纹生成方法主要包括:基于关键子结构的分子指纹生成方法、基于路径的分子指纹生成方法、环形指纹生成方法、药效团指纹生成方法和混合指纹生成方法等。基于关键子结构的分子指纹生成方法根据是否存在给定列表中的子结构将化学分子表示成位串,如MACCS、Pubchem等。基于路径的分子指纹生成方法根据分子的拓扑结构,顺着分子化学键的不同路径产生子结构,并哈希产生分子位串,其长度可变,可用于快速子结构搜索,如Daylight指纹和Openeye树形指纹。环形指本文档来自技高网...

【技术保护点】
1.一种分子指纹生成方法,其特征在于包括如下步骤:/n步骤1,建立训练集,该训练集为分子的smiles表示;/n步骤2,分别按照基团和字符对步骤1训练集中的各smiles表示进行分割,假设训练集中包含有N条smiles,则分割后共得到2*N条数据;然后使用TFIDF算法对得到的2*N条数据进行训练;/n步骤3,将经过TFIDF算法处理的smiles合成为向量,然后计算其中的原子位置信息;/n步骤4,在分子中叠加按基团和字符经计算后的分子向量表征,并叠加按原子计算的位置信息,以此来表示分子smiles。/n

【技术特征摘要】
1.一种分子指纹生成方法,其特征在于包括如下步骤:
步骤1,建立训练集,该训练集为分子的smiles表示;
步骤2,分别按照基团和字符对步骤1训练集中的各smiles表示进行分割,假设训练集中包含有N条smiles,则分割后共得到2*N条数据;然后使用TFIDF算法对得到的2*N条数据进行训练;
步骤3,将经过TFIDF算法处理的smiles合成为向量,然后计算其中的原子位置信息;
步骤4,在分子中叠加按基团和字符经计算后的分子向量表征,并叠加按原子计算的位置信息,以此来表示分子smiles。


2.如权利要求1所述的一种分子指纹生成方法,其特征在于:所述步骤1中,采用2500万条现实存在的smiles数据作为训练集。


3.如权利要求1所述的一种分子指纹生成方法,其特征在于:所述步骤2中,采用维特比算法对smiles根据基团进行分割,得到基于基团的smiles分割结果如下:
Smiles->radical_group_1,radical_group_2,radical_group_3……char_1,char_2,char_3……
Smiles->radical_group_1,char_1,……radical_group_2,char_2…….radical_group_3……
其中,radical_group_i和char_i分别为smiles被分割后产生的字符基团和单个字符。


4.如权利要求1所述的一种分子指纹生成方法,其特征在于:所述步骤2中,对smiles按照字符进行分割的方法是:
对于相同的smiles,以原子为单位进行TFIDF计算,演示的拆分smiles如下:
Smiles->char_1...

【专利技术属性】
技术研发人员:王晓华杨民民
申请(专利权)人:南京药石科技股份有限公司
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1