一种适用于天然产物质谱数据解析的数据库构建方法技术

技术编号:12404514 阅读:72 留言:0更新日期:2015-11-28 18:55
本发明专利技术涉及一种适用于天然产物质谱数据解析的数据库构建方法。解决现有技术中化合物依靠人工进行数据逐个解析,解析速度慢,现有的一些数据库建立后准确性并不是很高,以及数据和裂解规律均散落在大量的文献报道中,难以方便地应用的问题。方法包括从化合物数据库上下载相关的所有化合物,基于裂解规律对化合物进行计算机模拟裂解,获得该化合物的裂解碎片,记录化合物和碎片的相关信息,然后建立数据库。本发明专利技术的优点是整合了裂解规律,通过计算机模拟裂解将化合物以及化合物碎片信息以特定结构存储到一个数据库中。这使得用户可以快速和较为准确地进行天然产物质谱数据解析,为解决当下天然产物的质谱数据解析领域的瓶颈提供了可行的路径。

【技术实现步骤摘要】

本专利技术涉及一种数据库
,尤其是涉及。
技术介绍
天然产物已经被证明是获取药效物质的一种重要来源。现在已经被FDA批准的药物中,有60%是来自于天然产物或都是天然产物相关的。像青蒿素和紫杉醇及其衍生物更是广为人所知。正是如此,人们对于天然产物的分析方法一直在不停地探索和改进之中。液相色谱-质谱联用技术是此领域最重要的技术之一。质谱中常用碰撞诱导裂解(Collis1n-1nduced dissociat1n,CID)把分析物裂解为较小的分子碎片,通过观察碎片的信息,我们能够得到有关裂解前的化合物结构信息。然而,这样往往会得到非常巨大的数据量。怎么对这些数据进行快速有效的解析成为了一个较大问题。现在的许多实验室依旧在依靠人工进行数据的逐个解析,解析速度慢成了基于质谱的天然产物分析的一个重要瓶颈。在与天然产物质谱分析相似的另一个领域一一基于质谱分析的代谢组学研究中,类似的问题也存在。而对此已经有一些方案提出来用于应对这类瓶颈。建立标准化合物的质谱数据库是其中一种容易想到的途径。比如NIST标准化合物质谱数据库,在基于气质联用的代谢组学研究中起到了非常重要的作用。另外像一些公开的数据库,如MassBank,也收集了大量的基于液质联用的质谱数据,为科研人员提供了巨大的支持。然而,这类数据库的不足也是显而易见的,就是这类的库很难把所有化合物都纳入其中,事实上,被纳入的化合物只是所有已知化合物中极小的一部分。比如MassBank中,到2015年2月份为止已有41092个化合物进入库中,而同一时间,收入于PubChem数据库的化合物为6千万个左右,大部分的化合物没有收入于质谱数据库。为了解决标准化合物质谱数据库的这个问题,已经有了许多尝试。通过化合物质谱裂解规律对一些化合物进行计算机模拟的裂解,以此来预测准确的碎片以及每一种碎片的相对丰度,是最早为人所考虑的。自从1965年DENDRAL计划启动以来,此类的方法也一直处于发展中。如今较为有名的是热电公司的Mass Frontier。然而,包括Mass Frontier在内基于裂解规律的计算机模拟工具均主要以在电子轰击离子源(EI)下所得到和归纳的规律作为准则,而在以电喷雾电离(ESI),大气压化学电离(APCI)等为代表的主要用来分析天然产物的各种软电离方法下,上面的这些规律并没有表现得预想的那样准确。近年来,一类较新的计算机辅助质谱数据解析方法不断地产生。以MetFrag为代表的一类组合裂解方法(combinatorial fragmentat1n)被提了出来。这类方法均以一定的方式遍历对象所有可能的碎片,对这类碎片生成的合理性用一定的方法进行评价,进而对所查询的质谱数据进行碎片的自动化归属。然而这类方法的准确性并不是很高,尤其是在天然产物这个领域。前人对天然产物的质谱分析从开始到现在已经积累了大量的数据,归纳了大量的在ESI,APCI中切实能观察到的裂解规律,这些宝贵的资源并没有被好好地应用起来,所有的数据和裂解规律均散落在大量的文献报道中,难以方便地应用。
技术实现思路
本专利技术主要是解决现有技术中化合物依靠人工进行数据逐个解析,解析速度慢,现有的一些数据库建立后准确性并不是很高,以及数据和裂解规律均散落在大量的文献报道中,难以方便地应用的问题,提供了。本专利技术的上述技术问题主要是通过下述技术方案得以解决的:,包括以下步骤: S1.从化合物数据库上进行搜索获取与选定的天然产物骨架相关的所有化合物,并记录化合物相关信息;选定为预先设定好,操作人员根据选定名单对化合物进行搜索。化合物存储形式为SMILES形式。S2.基于裂解规律对化合物进行计算机模拟裂解,获得该化合物的裂解碎片,记录化合物碎片相关信息; S3.根据化合物碎片以及化合物的相关信息建立起数据库,并将数据库与网络平台相接。数据库建立可以使用当下的各种系统,包括Oracle,mysql,splite或microsoft sqlserver等。裂解所得的化合物碎片仍采用SMILES形式进行保存。现有技术中化合物依旧依靠人工进行数据的逐个解析,解析速度慢成了基于质谱的天然产物分析的一个重要瓶颈前人对于天然产物的质谱分析从开始到现在积累了大量的数据,归纳了大量的ESI,APCI中切实能观察到的裂解规律,而这些宝贵的资源并没有被好好的应用起来,所有数据和裂解规律均散落在大量文献中,难以被方便地应用。本专利技术数据库建立将化合物进行收集,并基于现有裂解规律将化合物进行计算机模拟裂解,获取化合物裂解后碎片信息,然后将这些化合物以及裂解后化合物碎片的信息进行储存构成数据库。本专利技术整合了裂解规律,通过计算机模拟裂解将化合物以及化合物碎片信息以特定结构存储到一个数据库中。这使得用户可以快速和较为准确地进行天然产物质谱数据解析,为解决当下天然产物的质谱数据解析领域的瓶颈之一提供了可行的路径。作为一种优选方案,所述步骤SI中搜索获取化合物的过程包括:根据选定要求获得子结构,根据子结构进行搜索,获取所有包含子结构的化合物。这里的选定为预先设定条件选择子结构。根据条件确定子结构类型,再根据子结构类型搜索所有包含子结构的化合物。作为一种优选方案,步骤SI中记录的化合物相关信息包括化合物分子结构式、分子式、分子量、化合物数据库中的编号。作为一种优选方案,步骤S2中裂解过程包括: S21.对化合物进行判定,判定化合物属于何种类型;包含子结构的化合物具有多种类型,首先判定化合物属于哪一种类型。S22.对属于同一类型化合物根据选定的键进行分类;设定同一层次的键,判断是否存在这些键再对判定后化合物进行分类,以便于选取正确对应的化合物裂解规律。S23.将分类后的化合物按照对应的裂解规律进行模拟裂解。作为一种优选方案,步骤S2中记录的化合物碎片相关信息包括裂解类型信息,碎片的分子结构式、分子量,碎片归属信息,碎片归属信息包括碎片裂解前的分子结构式、分子量N分子式。作为一种优选方案,步骤SI中的化合物数据库采用PubChem、CA或Reaxys。化合物数据库指数据可信任何来源的化合物数据库。可以为这些化合物数据库中一种或几种的组合。作为一种优选方案,步骤S2中采用化学信息学工具对化合物进行模拟裂解,化学信息学工具为RDKit或⑶K。作为一种优选方案,建立数据库采用的数据库系统包括Oracle、mysql、splite或microsoft sql server。因此,本专利技术的优点是:数据库建立将化合物进行收集,并基于现有裂解规律对化合物进行计算机模拟裂解,获取化合物裂解后碎片信息,然后将这些化合物以及裂解后化合物碎片的信息进行储存构成数据库。本专利技术整合了裂解规律,通过计算机模拟裂解将化合物以及化合物碎片信息以当前第1页1 2 本文档来自技高网
...

【技术保护点】
一种适用于天然产物质谱数据解析的数据库构建方法,其特征在于:包括以下步骤:S1.从化合物数据库上进行搜索获取与选定的天然产物骨架相关的所有化合物,并记录化合物相关信息;S2.基于裂解规律对化合物进行计算机模拟裂解,获得该化合物的裂解碎片,记录化合物碎片相关信息;S3.根据化合物碎片以及化合物的相关信息建立起数据库,并将数据库与网络平台相接。

【技术特征摘要】

【专利技术属性】
技术研发人员:范骁辉姜毅吴晓波李美松
申请(专利权)人:浙江大远智慧制药工程技术有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1