建立分子结构与活性数据库的方法技术

技术编号：24891401 阅读：29 留言：0更新日期：2020-07-14 18:17

本发明专利技术提供建立分子结构与活性数据库的方法，从化合物数据库上进行搜索获取与选定靶点相关的所有化合物，并记录化合物的相关信息，按照需求将外部数据转换成为标准化格式；对数据进行校验核对确保数据的准确性；将校验通过存储的临时文件，上传至MongoDB数据库中；用户通过SDK向数据检索模块发送检索请求，根据用户的需求选取某一特定的靶点，提取包含该靶点的全部数据；调用Jupyter中的构效分析模块，根据用户所输入的母核结构以及相似度的要求，对该结构与数据库中的结构进行亚结构匹配以及相似度比较计算。本发明专利技术适用于计算机辅助药物设计以及虚拟筛选等药物筛选，实现了半自动化收集数据以及清洗数据生成标准化数据库。

全部详细技术资料下载

【技术实现步骤摘要】
建立分子结构与活性数据库的方法
本专利技术属于数据处理
，具体涉及一种建立分子结构与活性数据库的方法，主要应用于新药研发领域，为计算机辅助药物以及虚拟筛选领域的应用提供了良好的数据支持。
技术介绍
药物筛选是药物发现的最初阶段和关键步骤，在新药发现的过程中占有重要的地位。但是传统筛选实验往往筛选时间长、成本高。因此，随着计算机技术的发展，虚拟筛选逐渐被发展起来。虚拟筛选方法的开发、优化和以及具体的应用到实际的场景当中，是需要大量的优质数据包括较为多样的化合物结构、统一准确的活性数据等。目前常用的包含这些数据的数据库主要有公开的分子数据库Chembl以及付费的数据库等。与此同时，在药物设计的过程中，对于同一靶点不同化合物之间的构效分析是有很重要的作用。但目前，针对同一个靶点往往有大量的专利以及文献中所报道的化合物结构与活性数据。对这些数据进行分析整理往往费事费力，但市场上缺少一个合适的分析软件能快速的对其进行分析解读。现有的数据库往往存在以下弊端：(1)公开的数据库的数据更新不够及时，而新药研发是一个不断...

【技术保护点】
1.建立分子结构与活性数据库的方法，其特征在于，包括以下步骤：/n（1）数据的采集/n从化合物数据库上进行搜索获取与选定靶点相关的所有化合物，并记录化合物的相关信息，收集后的数据上传至临时文件中；/n（2）数据清洗/n数据清洗模块按照需求将外部数据转换成为标准化格式；/n（3）数据校验/n通过对不同数据库的数据进行校验核对确保数据的准确性；/n（4）数据检索/n将校验通过存储的临时文件，上传至MongoDB数据库中，供后续使用；/n用户通过SDK向数据检索模块发送检索请求，其中包括了要查询的数据表、分子结构、字段和查询条件；/n数据检索模块将请求转化成可识别语句，访问数据库得到结果；/n结果将...

【技术特征摘要】
1.建立分子结构与活性数据库的方法，其特征在于，包括以下步骤：
（1）数据的采集
从化合物数据库上进行搜索获取与选定靶点相关的所有化合物，并记录化合物的相关信息，收集后的数据上传至临时文件中；
（2）数据清洗
数据清洗模块按照需求将外部数据转换成为标准化格式；
（3）数据校验
通过对不同数据库的数据进行校验核对确保数据的准确性；
（4）数据检索
将校验通过存储的临时文件，上传至MongoDB数据库中，供后续使用；
用户通过SDK向数据检索模块发送检索请求，其中包括了要查询的数据表、分子结构、字段和查询条件；
数据检索模块将请求转化成可识别语句，访问数据库得到结果；
结果将返回数据检索模块后传给用户SDK，最终完成检索；
（5）构效分析
根据用户的需求通过上述的数据检索方式，选取某一特定的靶点，提取包含该靶点的全部数据；后调用Jupyter中的构效分析模块，根据用户所输入的母核结构以及相似度的要求，对该结构与数据库中的结构进行亚机构匹配以及相似度比较计算。

2.根据权利要求1所述的建立分子结构与活性数据库的方法，其特征在于，步骤（1）中，收集数据方法主要是通过自动收集以及主动上传两种方式进行数据收集：
（1.1）自动收集主要是从开源的数据库Chembl，首先确定所选择靶点的UniprotID，根据ID可以锁定准确且唯一的靶点，后利用python网络爬虫技术进行自动收集生成原始数据；
（1.2）主动上传主要是针对付费数据库，这类数据库无法使用python网络爬虫技术，通过手动下载后，再将数据由本地进行上传。

3.根据权利要求1所述的建立分子结构与活性数据库的方法，其特征在于，步骤（2）主要的清洗标准：
A、根据...

【专利技术属性】
技术研发人员：牛春意，方磊，徐旻，温晓明，齐珍珍，张佩宇，马健，温书豪，赖力鹏，
申请(专利权)人：深圳晶泰科技有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人