一种基于生物电子等排体搜索平台的数据处理方法技术

技术编号:37549095 阅读:14 留言:0更新日期:2023-05-12 16:27
本发明专利技术公开了一种基于生物电子等排体搜索平台的数据处理方法,包括:S1:获取用户输入的目标官能团;S2:生成目标官能团的SMILES编码;S3:根据SMILES编码查询存放生物电子等排体的数据库中是否包含目标官能团的生物电子等排体,若是,进入步骤S8,否则,进入步骤S4;S4:对SMILES编码进行处理,得到目标官能团的配体;S5:根据目标官能团的配体,生成目标官能团的生物电子等排体;S6:对生物电子等排体进行优化,得到最优生物电子等排体;S7:将目标官能团的生物电子等排体最为最优生物电子等排体;S8:将最优生物电子等排体作为数据处理结果以可视化输出。本发明专利技术能够减少药物研发时间和成本。和成本。和成本。

【技术实现步骤摘要】
一种基于生物电子等排体搜索平台的数据处理方法


[0001]本专利技术涉及药物设计
,具体涉及一种基于生物电子等排体搜索平台的数据处理方法。

技术介绍

[0002]根据相关文献的阅读,可以得知为了帮助研究人员选择生物电子等排体,目前国内外已经开发了多种用于查询生物电子等排体的程序、数据库和网页服务器等计算工具。然而,虽然目前已有的多种生物电子等排体搜索工具所使用的技术以及数据库各不相同,但用户利用这些工具查询某些化学基团的生物电子等排体时,能够查询到数量很少或几乎没有。
[0003]此外,随着药物研发成本的增加,对生物电子等排体的需求也越来越多,然而目前关于生物电子等排体的信息仍然存在不足。在过去,确定合适的生物电子等排基团并非易事,需要大量的试验。由于计算工具提供的只是可能的生物电子等排体,所以能够有效的提供越多的生物电子等排体,则工具越有效。

技术实现思路

[0004]本专利技术的目的在于提供一种基于生物电子等排体搜索平台的数据处理方法,以能够促进药物研发中先导化合物的优化进程加快,减少药物研发时间和成本。
[0005]本专利技术解决上述技术问题的技术方案如下:
[0006]本专利技术提供一种基于生物电子等排体搜索平台的数据处理方法,所述基于生物电子等排体搜索平台的数据处理方法包括:
[0007]S1:获取用户输入的目标官能团;
[0008]S2:生成所述目标官能团的SMILES编码;
[0009]S3:根据所述SMILES编码查询存放生物电子等排体的数据库中是否包含目标官能团的生物电子等排体,若是,进入步骤S8,否则,进入步骤S4;
[0010]S4:对所述SMILES编码进行处理,得到所述目标官能团的配体;
[0011]S5:根据所述目标官能团的配体,生成所述目标官能团的生物电子等排体;
[0012]S6:对所述生物电子等排体进行优化,得到最优生物电子等排体;
[0013]S7:将所述目标官能团的生物电子等排体最为所述最优生物电子等排体;
[0014]S8:将所述最优生物电子等排体作为数据处理结果以可视化输出。
[0015]可选择地,所述步骤S1中,所述目标官能团包括需要查询生物电子等排体的化学基团。
[0016]可选择地,所述步骤S4包括:
[0017]S41:将所述SMILES编码中的通配符*替换为R,得到替换后的SMILES编码;
[0018]S42:将所述替换后的SMILES编码转换为mol格式并做加氢处理,得到新的SMILES编码;
[0019]S43:从所有配体中查询所述新的SMILES编码的配体;
[0020]S44:将所述新的SMILES编码的配体作为所述目标官能团的配体。
[0021]可选择地,所述步骤S5包括:
[0022]S51:将所述目标官能团的配体所存在的蛋白确定为参考蛋白;
[0023]S52:对所述参考蛋白进行预处理,得到预处理后的参考蛋白子链;
[0024]S53:将所述预处理后的参考蛋白子链的FASTA序列输入Blastp工具中,与蛋白质序列数据库进行比较,得到与所述预处理后的参考蛋白子链相似的相似蛋白子链;
[0025]S54:重叠所述参考蛋白子链和所述相似蛋白子链,得到重叠后的结构;
[0026]S55:以所述重叠后的结构的各个原子为中心,获取指定半径内相似蛋白的原子,即为生物电子等排体。
[0027]可选择地,所述S52包括:
[0028]S521:判断所述参考蛋白的分辨率,保留分辨率高于的参考蛋白子链;
[0029]S522:利用序列对比算法对所有所述分辨率高于的参考蛋白子链进行两两全局对比,以删除所述分辨率高于的参考蛋白子链中重复的参考蛋白子链,得到可用参考蛋白子链;
[0030]S523:两两比对所有可用参考蛋白子链的FASTA序列的一致性,如果相同,保留分辨率数值小参考蛋白子链,删除分辨率数值大的参考蛋白子链;若不同,则全部保留,得到预处理后的参考蛋白子链。
[0031]可选择地,所述S6包括:利用ShaEP计算目标官能团与所述生物电子等排体叠加后的相似性指数,并设置阈值进行筛查,以得到最优生物电子等排体。
[0032]可选择地,在所述S8之前,所述基于生物电子等排体搜索平台的数据处理方法还包括:
[0033]对所述最优生物电子等排体进行后处理。
[0034]可选择地,所述后处理包括:
[0035]A1:将所述最优生物电子等排体进行格式转换操作,得到转换后的数据;
[0036]A2:判断转换后的数据是否完整,若是,进入A4,否则,进入A3;
[0037]A3:对所述转换后的数据进行数据清洗并进入A4;
[0038]A4:计算所述转换后的数据的分子指纹,并根据所述分子指纹计算分子间的相似性,得到相似性矩阵;
[0039]A5:根据所述相似性矩阵,利用机器学习无监督聚类算法对所述转换后的数据进行数据聚类,得到聚类结果;
[0040]A6:将所述聚类结果作为所述数据处理结果以可视化输出。
[0041]可选择地,所述A4包括:
[0042]利用RDKit计算所述分子指纹和分子间的相似性。
[0043]可选择地,所述A5包括:
[0044]根据所述相似性矩阵,对所述机器学习无监督聚类算法进行参数调整,以得到最优超参数;
[0045]根据所述最优超参数确定聚类数;
[0046]根据所述聚类数对所述转换后的数据进行数据聚类,得到聚类结果。
[0047]本专利技术具有以下有益效果:
[0048](1)本专利技术可以使药物化学家不再需要通过反复试验来获取少量的生物电子等排体,仅通过搜索便能得到大量的生物电子等排体信息,从而能够促进药物研发中先导化合物的优化进程加快,减少药物研发时间和成本;
[0049](2)本专利技术能够查询到较多的生物电子等排体结果,得到对应的信息也更多,而且提供了多种无监督聚类方法对搜索得到的生物等排体进行聚类,为用户提供了更加广阔的思考空间和角度。
附图说明
[0050]图1为本专利技术基于生物电子等排体搜索平台的数据处理方法的流程图;
[0051]图2为生物电子等排体无监督聚类算法参数优化结果示意图;
[0052]图3为生物电子等排体无监督聚类的可视化结果示意图。
具体实施方式
[0053]以下结合附图对本专利技术的原理和特征进行描述,所举实例只用于解释本专利技术,并非用于限定本专利技术的范围。
[0054]本专利技术提供一种基于生物电子等排体搜索平台的数据处理方法,参考图1所示,所述基于生物电子等排体搜索平台的数据处理方法包括:
[0055]S1:获取用户输入的目标官能团;
[0056]本专利技术所述的目标官能团即为需要查询的生物电子等排体的化学基团。
[0057]S2:生成本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于生物电子等排体搜索平台的数据处理方法,其特征在于,所述基于生物电子等排体搜索平台的数据处理方法包括:S1:获取用户输入的目标官能团;S2:生成所述目标官能团的SMILES编码;S3:根据所述SMILES编码查询存放生物电子等排体的数据库中是否包含目标官能团的生物电子等排体,若是,进入步骤S8,否则,进入步骤S4;S4:对所述SMILES编码进行处理,得到所述目标官能团的配体;S5:根据所述目标官能团的配体,生成所述目标官能团的生物电子等排体;S6:对所述生物电子等排体进行优化,得到最优生物电子等排体;S7:将所述目标官能团的生物电子等排体最为所述最优生物电子等排体;S8:将所述最优生物电子等排体作为数据处理结果以可视化输出。2.根据权利要求1所述的基于生物电子等排体搜索平台的数据处理方法,其特征在于,所述步骤S1中,所述目标官能团包括需要查询生物电子等排体的化学基团。3.根据权利要求1所述的基于生物电子等排体搜索平台的数据处理方法,其特征在于,所述步骤S4包括:S41:将所述SMILES编码中的通配符*替换为R,得到替换后的SMILES编码;S42:将所述替换后的SMILES编码转换为mol格式并做加氢处理,得到新的SMILES编码;S43:从所有配体中查询所述新的SMILES编码的配体;S44:将所述新的SMILES编码的配体作为所述目标官能团的配体。4.根据权利要求1所述的基于生物电子等排体搜索平台的数据处理方法,其特征在于,所述步骤S5包括:S51:将所述目标官能团的配体所存在的蛋白确定为参考蛋白;S52:对所述参考蛋白进行预处理,得到预处理后的参考蛋白子链;S53:将所述预处理后的参考蛋白子链的FASTA序列输入Blastp工具中,与蛋白质序列数据库进行比较,得到与所述预处理后的参考蛋白子链相似的相似蛋白子链;S54:重叠所述参考蛋白子链和所述相似蛋白子链,得到重叠后的结构;S55:以所述重叠后的结构的各个原子为中心,获取指定半径内相似蛋白的原子,即为生物电子等排体。5.根据权利要求4所述的基于生物电子等排体搜索平台的数据处理方法,其特征在于,所...

【专利技术属性】
技术研发人员:张悦周张庭浩李婷刘岩王鹏飞孙希臣唐刘燕张蕊琪白国胜刘萌
申请(专利权)人:西北工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1