病原体基因组序列数据库系统技术方案

技术编号:8683003 阅读:401 留言:0更新日期:2013-05-09 02:56
本发明专利技术主要涉及到一个统一了几种不同类型的病原体序列信息的数据库系统,并在此基础上发展的一个对病原体进行遗传学、基因组学和系统发育研究的分析平台。所涉及到的病原体主要包括:细菌、真菌、病毒、原生动物、寄生虫。本发明专利技术有效地整合了各种来源的病原体基因组信息,能够实现数据分析与统计,原始数据及加工数据的查询和下载三者间的有机结合,并可实时地对各种病原体基因组数据进行收集、处理、分析和整合,从而建立了一个统一、稳定、高效的数据平台。

【技术实现步骤摘要】

本专利技术主要涉及到一个统一了几种不同类型的病原体序列信息的数据库系统,并在此基础上发展的一个对病原体进行遗传学、基因组学和系统发育研究的分析平台。所涉及到的病原体主要包括:细菌、真菌、病毒、原生动物、寄生虫。
技术介绍
病原体(pathogen)是能引起疾病的微生物和寄生虫的统称。其中微生物占绝大多数,包括病毒、衣原体、立克次体、支原体、细菌、螺旋体和真菌。高致病性病原体的感染与爆发能给人类造成巨大的伤害,如近年来新发现的一个高致病性的禽流感病毒H5N1造成了 100多人的死亡并使得在亚洲、欧洲和非洲数以百万计的禽类被屠宰(世界卫生组织报道),而对高致病性病原体迁移和进化模式进行严谨的监视和跨学科研究是防止人类和其他物种被伤亡的关键。病原体的基因组序列给我们提供了很多可用于病原体发病机理研究、诊断和治疗上的有效信息。现阶段在世界范围内有许多的基因组序列信息数据库,如美国国家生物技术信息中心(NCBI)内的RefSeq数据库和EMBL中的Ensembl Genomes库中提供了很多分类的基因组DNA序列和注释信息,但是,由于在这两个数据库中的有些数据是来源于直接提交上去的序列信息,所以对这些数据库中的病原体基因组序列数据进行提取、校正、确证和分类,建立一个专门的包含病原体基因组序列数据库是非常必要的。在病原体检测诊断方面,目前临床上常用的病原微生物检测诊断方法有PCR技术、培养技术、免疫酶技术(EIA)、酶联免疫吸附试验(ELISA)等。这些技术在临床诊断中已发挥了巨大的作用,但仍存在一些缺点。虽然PCR技术本身的优越性是无可厚非的,但由于使用不当,很容易引起交叉污染,出现假阳性,如果反应条件控制不好也可能出现假阴性;培养技术繁琐而费时;免疫技术大多需要在抗体出现后才能确定病原微生物。这些缺点需要利用一种新的技术去弥补。随着病原微生物基因组计划的进展,使基因诊断病原微生物感染成为可能,近几年发展起来的生物芯片技术为病原微生物诊断提供了一种强有力的手段。生物芯片技术和其他检测诊断技术相比有许多优点,如高通量、快速、准确、灵敏和对未知病原体的可检测性等。在生物芯片的设计中,从病原体基因组序列出发,进行探针设计,中间往往需要对基因组序列信息进行大量复杂的处理,如提取、校正和分析等,这些过程往往给探针设计增加了一些不必要的时间,因此,为了适应于高通量检测诊断病原体的生物芯片技术的飞速发展,建立一个适用于下游探针设计的序列信息数据库就显得格外重要了。为了从各方面对病原体基因组进行分析研究,国内外许多学者从一级数据库出发,构建了各种病原体二级数据库。如Suhua Chang等建立了一个流感病毒基因组序列数据库IVDB。Adams等从NCBI出发,建立了一个广泛的植物和真菌病毒基因和基因组数据库DPAweb。Hirahata等在此基础上从DDBJ出发建立了一个包含所有病毒基因组序列信息的数据库GIB-V,并整合了几种常见的数据分析工具。为了衔接病毒基因组和蛋白质组信息,更全面的对病毒的科和属进行区分,Hulo等建立了一个广泛的病毒基因组和蛋白质组数据库ViralZone。而为了增强对抗原变异的理解,Hayes等建立了一个包含了 27个科,42个种的病原物序列信息数据库varDB。综上所述,这些数据库都是针对某一种或几种病原物和特定的目标功能而建立的,都是在一级数据库基础上进行的序列信息提取、筛选和重组,能够在一定程度上解决一些生物学问题。但是这些数据库也存在着以下几点不足:1)数据库所包含的病原物种类单一,如IVDB、DPAweb、GIB-V、ViralZone只包含了病毒的信息;2)就varDB而言,包含了多种病原物的基因组序列和蛋白质序列的信息,但是这种序列信息也还是需要进一步大量而复杂的处理和筛选,才能进一步的进行下游生物芯片探针设计。
技术实现思路
近年来,随着DNA测序技术的高速发展,人类已知的DNA核酸序列不断增长,而伴随着各种基因组测序计划的展开和分子结构测定技术的突破和Internet的普及,数以百计的二级生物学数据库,如雨后春笋般迅速出现和成长,而这些生物学数据库往往是针对某种特定的功能而建立。本专利技术在整合各种一级数据库和二级数据库的基础上,进行了有针对性的改进,建立了一个病原物基因组序列信息数据库,并将涉及到的谱系信息和基因组信息中的编码区进行了注释。能够实现原始序列的收集、查询、下载和分析,并在此基础上整合了一些常规的数据分析工具,如调用Blast对一对或一组序列进行序列比对、调用ClustalW进行多序列的比对、调用Phylip等工具进行序列进化树的构建和编辑等工作、调用软件进行序列间共进化信息的分析、调用R语言的相关统计工具,实现一些常规的统计分析功能等。本专利技术还在原始序列信息数据的基础上,兼顾下游探针设计的需要,并针对于不同的病原物种类,对原始的基因组序列数据进行了进一步的筛选、加工和处理,产生了一个适用于下游探针设计的数据库资源。附图说明图1为数据库的总体系统架构图。图2为数据库系统中对数据进行采集、分类、加工以及重组的流程图。图3为网络版数据库的网页截图。图4为使用数据库系统中的分析工具对序列进行分析的实例。具体实施例方式下面结合具体的实例及附图,从数据库系统架构,数据库的构建,数据的采集、分类、加工及重组,数据库查询和管理功能的实现四个方面对本专利技术作进一步说明。一、数据库系统架构我们采用的Web框架包括=Linux操作系统,Apache网络服务器,MySQL数据库管理系统,Perl和HTML编程语言(图1)。在本专利技术中,我们采用自定义安装Apache服务器、MySQL服务器和PERL,然后手动配置环境,初步搭建了一个数据库网站的平台。二、数据库的构建本数据库是基于关系数据库模式而构建的。从总体上来看,在数据库中最终包含的信息有:谱系中各个等级的注释;按照宿主进行划分了的病毒基因组序列(EMBL格式)及其蛋白质产物与结构域的注释;按照病原体种类进行划分了的病原体基因组序列(EMBL格式)及其蛋白质产物与结构域的注释;各基因组序列的 CDS、3,UTR、5,UTR、LTR、18s rRNA,5.8s rRNA 和 28s rRNA(对于细菌来说,后三类除外)序列信息(fasta格式);细菌的16s rRNA,5s rRNA和23s rRNA序列信息;便于探针设计的序列信息(新fasta格式)。数据的采集、分类、加工及重组(图2)1、谱系注释信息的采集、分类、校正分析及重组。NCBI中提供了一个广泛的、综合的、非冗余的谱系注释信息,因此,我们选择了这个数据库作为谱系分类注释信息的来源。从这个数据库中下载总的谱系注释信息,然后按照病原体的种类进行分类和校正分析,最后将结果存入到数据库中。2、前期参考信息的获取。ICTV 数据库(international committee on taxonomy of viruses)提供了一个基于病毒分类信息的病毒描述链接,在此数据库中,将病毒依据宿主种类划分为9种,包括藻类病毒、古细菌病毒、细菌病毒、真菌病毒、非脊椎动物病毒、植物病毒、原生动物病毒、脊椎动物病毒和未分类的病毒,这种按照宿主种类进行划分的信息给我们提供了一种很好的构建病毒库的信本文档来自技高网
...

【技术保护点】
数据库的构建。本数据库是基于关系数据库模式而构建的。从总体上来看,在数据库中最终包含的信息有:谱系中各个等级的注释;按照宿主进行划分了的病毒基因组序列(EMBL格式)及其蛋白质产物与结构域的注释;按照病原体种类进行划分了的病原体基因组序列(EMBL格式)及其蛋白质产物与结构域的注释;各基因组序列的CDS、3’UTR、5’UTR、LTR、18s?rRNA、5.8s?rRNA和28s?rRNA(对于细菌来说,后三类除外)序列信息(fasta格式);细菌的16s?rRNA、5s?rRNA和23s?rRNA序列信息;便于探针设计的序列信息(新fasta格式)。

【技术特征摘要】
1.根据库的构建。本数据库是基于关系数据库模式而构建的。从总体上来看,在数据库中最终包含的信息有:谱系中各个等级的注释;按照宿主进行划分了的病毒基因组序列(EMBL格式)及其蛋白质产物与结构域的注释;按照病原体种类进行划分了的病原体基因组序列(EMBL格式)及其蛋白质产物与结构域的注释;各基因组序列的 CDS、3,UTR、5,UTR、LTR、18s rRNA、5.8s rRNA 和 28s rRNA(对于细菌来说,后三类除外)序列信息(fasta格式);细菌的16s rRNA,5s rRNA和23s rRNA序列信息;便于探针设计的序列信息(新fasta格式)。2.根据采集、分类、加工及重组的实现 1)、谱系注释信息的采集、分类、校正分析及重组。NCBI中提供了一个广泛的、综合的、非冗余的谱系注释信息,因此,我们选择了这个数据库作为谱系分类注释信息的来源。从这个数据库中下载总的谱系注释信息,然后按照病原体的种类进行分类和校正分析,最后将结果存入到数据库中。 2)、前期参考信息的获取。ICTV数据库(international committee ontaxonomy ofviruses)提供了一个基于病毒分类信息的病毒描述链接,在此数据库中,将病毒依据宿主种类划分为9种,包括藻类病毒、古细菌病毒、细菌病毒、真菌病毒、非脊椎动物病毒、植物病毒、原生动物病毒、脊椎动物病毒和未分类的病毒,这种按照宿主种类进行划分的信息给我们提供了一种很好的构建病毒库的信息。从ICTV中分别按照宿主种类下载病毒属的物种名信息,并整理成表格,以便于下游病毒库的设计。从NCBI数据库中下载taxid与其上一级的taxid的关系表nodes, dmp、taxid与其对应的学名及同义字关系表names, dmp、并依据物种分类表(division, dmp)将这两个关系表划分为10类,包括细菌、非脊椎动物、哺乳动物、植物、灵长类动物、啮齿动物、病毒、脊椎动物、环境样本、未分类和综合类。我们对每一个分类的names, dmp和nodes, dmp表进行处理,生成taxid与其对应的所有物种名(包括学名与同义字)之间的关系表taxid.synonym。然后,我们对真菌、 细菌的nodes, dmp与names, dmp表进行如下处理:从nodes, dmp中查找得到属以下等级的taxid,并进行此taxid对应的属和种的信息的查找。在此过程中,我们获得了每个分类下属以下等级的taxid和学名与其对应的属和科的taxid和学名之间的关系表 taxid.family。3)、病毒库的构建。依据ICTV库的信息,将病毒库中的序列信息依据宿主种类划分为9种,以便于下游的信息下载和分析。由于ICTV的数据更新比NCBI中的数据更新慢,所以,首先我们需要依据NCBI中的信息对ICTV中属的信息进行校正,步骤如下:将ICTV中获得的属的物种名信息按照宿主进行分类,对每个分类进行如下处理:依据names, dmp对这些信息进行校正,最终校正的属的学名以names, dmp中的名称为准,同时生成属的taxid与属的学名之间的关系表;依据nodes, dmp对属的taxid进行分支信息的查找,即查找各属以下等级的物种信息,并生成taxid和其学名与其所对应的属的taxid和学名之间的关系表。在此过程中,我们获得了按照宿主进行分类了的所有病毒的taxid和学名及其对应的属的taxid和学名之间的关系表taxid...

【专利技术属性】
技术研发人员:张鑫磊蒋小云肖琛
申请(专利权)人:北京健数通生物计算技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1