【技术实现步骤摘要】
建立分子结构与活性数据库的方法
本专利技术属于数据处理
,具体涉及一种建立分子结构与活性数据库的方法,主要应用于新药研发领域,为计算机辅助药物以及虚拟筛选领域的应用提供了良好的数据支持。
技术介绍
药物筛选是药物发现的最初阶段和关键步骤,在新药发现的过程中占有重要的地位。但是传统筛选实验往往筛选时间长、成本高。因此,随着计算机技术的发展,虚拟筛选逐渐被发展起来。虚拟筛选方法的开发、优化和以及具体的应用到实际的场景当中,是需要大量的优质数据包括较为多样的化合物结构、统一准确的活性数据等。目前常用的包含这些数据的数据库主要有公开的分子数据库Chembl以及付费的数据库等。与此同时,在药物设计的过程中,对于同一靶点不同化合物之间的构效分析是有很重要的作用。但目前,针对同一个靶点往往有大量的专利以及文献中所报道的化合物结构与活性数据。对这些数据进行分析整理往往费事费力,但市场上缺少一个合适的分析软件能快速的对其进行分析解读。现有的数据库往往存在以下弊端:(1)公开的数据库的数据更新不够及时,而新药研发是一个不断发展变动的过程,因此一两年的数据延迟,可能会漏掉一些非常重要的信息,对于计算的准确性往往有所影响。(2)付费的数据库的数据,相比于公开数据库尽管数据更新的更加及时,但是往往参数过多,不能直接使用,需要进一步的清洗。(3)从不同地方所收集的数据库的数据格式往往有所不同,因此想要把他们合并一起使用,需要大量的数据清洗和整理工作,会浪费大量的时间以及人工成本。(4)单一的数据库没 ...
【技术保护点】
1.建立分子结构与活性数据库的方法,其特征在于,包括以下步骤:/n(1)数据的采集/n从化合物数据库上进行搜索获取与选定靶点相关的所有化合物,并记录化合物的相关信息,收集后的数据上传至临时文件中;/n(2)数据清洗/n数据清洗模块按照需求将外部数据转换成为标准化格式;/n(3)数据校验/n通过对不同数据库的数据进行校验核对确保数据的准确性;/n(4)数据检索/n将校验通过存储的临时文件,上传至MongoDB数据库中,供后续使用;/n用户通过SDK向数据检索模块发送检索请求,其中包括了要查询的数据表、分子结构、字段和查询条件;/n数据检索模块将请求转化成可识别语句,访问数据库得到结果;/n结果将返回数据检索模块后传给用户SDK,最终完成检索;/n(5)构效分析/n根据用户的需求通过上述的数据检索方式,选取某一特定的靶点,提取包含该靶点的全部数据;后调用Jupyter中的构效分析模块,根据用户所输入的母核结构以及相似度的要求,对该结构与数据库中的结构进行亚机构匹配以及相似度比较计算。/n
【技术特征摘要】
1.建立分子结构与活性数据库的方法,其特征在于,包括以下步骤:
(1)数据的采集
从化合物数据库上进行搜索获取与选定靶点相关的所有化合物,并记录化合物的相关信息,收集后的数据上传至临时文件中;
(2)数据清洗
数据清洗模块按照需求将外部数据转换成为标准化格式;
(3)数据校验
通过对不同数据库的数据进行校验核对确保数据的准确性;
(4)数据检索
将校验通过存储的临时文件,上传至MongoDB数据库中,供后续使用;
用户通过SDK向数据检索模块发送检索请求,其中包括了要查询的数据表、分子结构、字段和查询条件;
数据检索模块将请求转化成可识别语句,访问数据库得到结果;
结果将返回数据检索模块后传给用户SDK,最终完成检索;
(5)构效分析
根据用户的需求通过上述的数据检索方式,选取某一特定的靶点,提取包含该靶点的全部数据;后调用Jupyter中的构效分析模块,根据用户所输入的母核结构以及相似度的要求,对该结构与数据库中的结构进行亚机构匹配以及相似度比较计算。
2.根据权利要求1所述的建立分子结构与活性数据库的方法,其特征在于,步骤(1)中,收集数据方法主要是通过自动收集以及主动上传两种方式进行数据收集:
(1.1)自动收集主要是从开源的数据库Chembl,首先确定所选择靶点的UniprotID,根据ID可以锁定准确且唯一的靶点,后利用python网络爬虫技术进行自动收集生成原始数据;
(1.2)主动上传主要是针对付费数据库,这类数据库无法使用python网络爬虫技术,通过手动下载后,再将数据由本地进行上传。
3.根据权利要求1所述的建立分子结构与活性数据库的方法,其特征在于,步骤(2)主要的清洗标准:
A、根据...
【专利技术属性】
技术研发人员:牛春意,方磊,徐旻,温晓明,齐珍珍,张佩宇,马健,温书豪,赖力鹏,
申请(专利权)人:深圳晶泰科技有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。