建立分子结构与活性数据库的方法技术

技术编号:24891401 阅读:25 留言:0更新日期:2020-07-14 18:17
本发明专利技术提供建立分子结构与活性数据库的方法,从化合物数据库上进行搜索获取与选定靶点相关的所有化合物,并记录化合物的相关信息,按照需求将外部数据转换成为标准化格式;对数据进行校验核对确保数据的准确性;将校验通过存储的临时文件,上传至MongoDB数据库中;用户通过SDK向数据检索模块发送检索请求,根据用户的需求选取某一特定的靶点,提取包含该靶点的全部数据;调用Jupyter中的构效分析模块,根据用户所输入的母核结构以及相似度的要求,对该结构与数据库中的结构进行亚结构匹配以及相似度比较计算。本发明专利技术适用于计算机辅助药物设计以及虚拟筛选等药物筛选,实现了半自动化收集数据以及清洗数据生成标准化数据库。

【技术实现步骤摘要】
建立分子结构与活性数据库的方法
本专利技术属于数据处理
,具体涉及一种建立分子结构与活性数据库的方法,主要应用于新药研发领域,为计算机辅助药物以及虚拟筛选领域的应用提供了良好的数据支持。
技术介绍
药物筛选是药物发现的最初阶段和关键步骤,在新药发现的过程中占有重要的地位。但是传统筛选实验往往筛选时间长、成本高。因此,随着计算机技术的发展,虚拟筛选逐渐被发展起来。虚拟筛选方法的开发、优化和以及具体的应用到实际的场景当中,是需要大量的优质数据包括较为多样的化合物结构、统一准确的活性数据等。目前常用的包含这些数据的数据库主要有公开的分子数据库Chembl以及付费的数据库等。与此同时,在药物设计的过程中,对于同一靶点不同化合物之间的构效分析是有很重要的作用。但目前,针对同一个靶点往往有大量的专利以及文献中所报道的化合物结构与活性数据。对这些数据进行分析整理往往费事费力,但市场上缺少一个合适的分析软件能快速的对其进行分析解读。现有的数据库往往存在以下弊端:(1)公开的数据库的数据更新不够及时,而新药研发是一个不断发展变动的过程,因此一两年的数据延迟,可能会漏掉一些非常重要的信息,对于计算的准确性往往有所影响。(2)付费的数据库的数据,相比于公开数据库尽管数据更新的更加及时,但是往往参数过多,不能直接使用,需要进一步的清洗。(3)从不同地方所收集的数据库的数据格式往往有所不同,因此想要把他们合并一起使用,需要大量的数据清洗和整理工作,会浪费大量的时间以及人工成本。(4)单一的数据库没有办法验证数据的准确性,难以确保数据的准确性。(5)现有的数据库缺少针对同一靶点之间不同药物分子的构效关系分析,不利于对后期对此类数据的使用。
技术实现思路
针对上述技术问题,本专利技术提供一种建立分子结构与活性数据库的方法,应用于新药研发中药物设计过程的数据收集与清洗。该方法主要包括通过对现有数据库的数据进行收集构建待用的数据源,后通过工具脚本提取待清洗数据源中的有用数据。在建立的数据库的基础上,从中提取同一靶点的数据,通过调用Jupyter的脚本以及用户的输入,进行简单的构效分析,为后续的药物设计工作提供分析思路。所采用的技术方案为:建立分子结构与活性数据库的方法,包括以下步骤:(1)数据的采集从化合物数据库上进行搜索获取与选定靶点相关的所有化合物,并记录化合物的相关信息。方法主要是通过自动收集以及主动上传两种方式进行数据收集,收集后的数据上传至临时文件中。(1.1)自动收集主要是从开源的数据库Chembl,首先确定所选择靶点的UniprotID,根据ID可以锁定准确且唯一的靶点,后利用python网络爬虫技术进行自动收集生成原始数据。(1.2)主动上传主要是针对付费数据库,这类数据库无法使用python网络爬虫技术,只能通过手动下载后,再将数据由本地进行上传。(2)数据清洗不论是自动收集或主动上传,数据的来源不同导致数据的参数等会有所差别。同时,并不是所收集得到的所有数据都是被所需要的,以及数据会存在错误,因此会对数据进行清洗,得到统一的标准化数据。数据清洗模块会按照需求将外部数据转换成为标准化格式。主要的清洗标准:A、根据不同数据库所获得的原数据,调用不同的数据清洗模块。数据清洗模块会根据不用的数据内容以及标记类型,调用相对应的解释器。B、包括分子结构数据解释器、分子实验活性数据解释器等。C、用过Jupyter调用筛选模块,过滤掉一些不符合标准的分子。筛选标准主要包括分子的活性测试方法(酶活或细胞活性)、分子的活性表示方法(是否是准确值)以及数据的来源等标准。D、解释器根据所规定的标准化格式,将数据逐一匹配,匹配成功的,就将数据存储在内存相应的数据结构中。(3)数据校验由于现有的数据库中的数据也多是通过图片或关键字识别抓取文献中的信息所得,在数据生成以及数据存储的过程中也可能存在一些错误。因此,通过对不同数据库的数据进行校验核对还确保数据的准确性。(3.1)数据清洗后,调用数据校验模块,将需要校验的数据由清洗模块系统传入数据校验模块。(3.2)在校验模块中,逐条对数据进行校验。首先数据类型,根据数据类型读取不同的校验规则。对于同一个分子,如果活性测试类型一样,但是存在多条数据的情况。若数据之间差值不超过规定范围则取平均值,若相差超过规定范围,则输出提示后,并将数据来源的文献下载输出供人工查验。(3.3)按照校验规则逐一匹配需要校验的数据,校验完成后通过校验的数据会被模块持久化到临时文件系统当中。(4)数据检索将校验通过存储的临时文件,上传至MongoDB数据库中,供后续使用。用户可以通过SDK向数据检索模块发送检索请求,其中包括了要查询的数据表、分子结构、字段和查询条件。数据检索模块会将请求转化成可识别语句,访问数据库得到结果。结果将返回数据检索模块后传给用户SDK,最终完成检索。(5)构效分析根据用户的需求通过上述的数据检索方式,可以选取某一特定的靶点,提取包含该靶点的全部数据。后调用Jupyter中的构效分析模块,根据用户所输入的母核结构以及相似度的要求,对该结构与数据库中的结构进行亚机构匹配以及相似度比较计算。(5.1)对数据库中的分子进行亚结构匹配,调用rdkit中的亚结构匹配模块,匹配所有包含该结构的亚结构。(5.2)将匹配到的分子结构转化成为分子指纹,后计算其Tanimoto相似度与用户需求进行匹配。(5.3)在满足匹配要求的化合物当中,利用rdkit化学工具包取代侧链模块以及取代基转换模块,对取代基团以及取代位点进行切割、转换、分类。最后列出SAR列表便于用户对结构以及活性进行比较分析。本专利技术提供的建立分子结构与活性数据库的方法,具有以下技术效果:本专利技术提供了一套完整的标准化建立小分子抑制剂的活性数据库的方法,适用于计算机辅助药物设计以及虚拟筛选等药物筛选领域,实现了半自动化收集数据以及清洗数据生成标准化数据库,同时可以对同一靶点的大量分子进行快速的SAR分子总结加速了整个药物发现的进程。具有以下的技术优势:(1)实现了主动与自动结合的数据收集方式,相对于现有的数据库,所覆盖的文献以及数据量更广,能够提供更多的数据资源。(2)实现了对多个数据库信息的自动整合相互验证,加入了进一步人工校对,因此相对于现有的数据库,数据的准确性更高。(3)第一次提出了对数据库加入了化合物的构效关系分析模块,能够减轻用户对大量数据的分析时间。附图说明图1是本专利技术的流程图。具体实施方式下面通过附图和实施例,对本专利技术的技术方案做进一步的详细描述。实施例1本实施例以异柠檬酸脱氢酶1(Isocitratedehydrogenase1,IDH1)的小分子抑制剂的活性数据库的建立为例。IDH1可以将异柠檬酸氧化成为草酰琥珀本文档来自技高网
...

【技术保护点】
1.建立分子结构与活性数据库的方法,其特征在于,包括以下步骤:/n(1)数据的采集/n从化合物数据库上进行搜索获取与选定靶点相关的所有化合物,并记录化合物的相关信息,收集后的数据上传至临时文件中;/n(2)数据清洗/n数据清洗模块按照需求将外部数据转换成为标准化格式;/n(3)数据校验/n通过对不同数据库的数据进行校验核对确保数据的准确性;/n(4)数据检索/n将校验通过存储的临时文件,上传至MongoDB数据库中,供后续使用;/n用户通过SDK向数据检索模块发送检索请求,其中包括了要查询的数据表、分子结构、字段和查询条件;/n数据检索模块将请求转化成可识别语句,访问数据库得到结果;/n结果将返回数据检索模块后传给用户SDK,最终完成检索;/n(5)构效分析/n根据用户的需求通过上述的数据检索方式,选取某一特定的靶点,提取包含该靶点的全部数据;后调用Jupyter中的构效分析模块,根据用户所输入的母核结构以及相似度的要求,对该结构与数据库中的结构进行亚机构匹配以及相似度比较计算。/n

【技术特征摘要】
1.建立分子结构与活性数据库的方法,其特征在于,包括以下步骤:
(1)数据的采集
从化合物数据库上进行搜索获取与选定靶点相关的所有化合物,并记录化合物的相关信息,收集后的数据上传至临时文件中;
(2)数据清洗
数据清洗模块按照需求将外部数据转换成为标准化格式;
(3)数据校验
通过对不同数据库的数据进行校验核对确保数据的准确性;
(4)数据检索
将校验通过存储的临时文件,上传至MongoDB数据库中,供后续使用;
用户通过SDK向数据检索模块发送检索请求,其中包括了要查询的数据表、分子结构、字段和查询条件;
数据检索模块将请求转化成可识别语句,访问数据库得到结果;
结果将返回数据检索模块后传给用户SDK,最终完成检索;
(5)构效分析
根据用户的需求通过上述的数据检索方式,选取某一特定的靶点,提取包含该靶点的全部数据;后调用Jupyter中的构效分析模块,根据用户所输入的母核结构以及相似度的要求,对该结构与数据库中的结构进行亚机构匹配以及相似度比较计算。


2.根据权利要求1所述的建立分子结构与活性数据库的方法,其特征在于,步骤(1)中,收集数据方法主要是通过自动收集以及主动上传两种方式进行数据收集:
(1.1)自动收集主要是从开源的数据库Chembl,首先确定所选择靶点的UniprotID,根据ID可以锁定准确且唯一的靶点,后利用python网络爬虫技术进行自动收集生成原始数据;
(1.2)主动上传主要是针对付费数据库,这类数据库无法使用python网络爬虫技术,通过手动下载后,再将数据由本地进行上传。


3.根据权利要求1所述的建立分子结构与活性数据库的方法,其特征在于,步骤(2)主要的清洗标准:
A、根据...

【专利技术属性】
技术研发人员:牛春意方磊徐旻温晓明齐珍珍张佩宇马健温书豪赖力鹏
申请(专利权)人:深圳晶泰科技有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1