【技术实现步骤摘要】
本专利技术主要涉及到一个统一了几种不同类型的病原体序列信息的数据库系统,并在此基础上发展的一个对病原体进行遗传学、基因组学和系统发育研究的分析平台。所涉及到的病原体主要包括:细菌、真菌、病毒、原生动物、寄生虫。
技术介绍
病原体(pathogen)是能引起疾病的微生物和寄生虫的统称。其中微生物占绝大多数,包括病毒、衣原体、立克次体、支原体、细菌、螺旋体和真菌。高致病性病原体的感染与爆发能给人类造成巨大的伤害,如近年来新发现的一个高致病性的禽流感病毒H5N1造成了 100多人的死亡并使得在亚洲、欧洲和非洲数以百万计的禽类被屠宰(世界卫生组织报道),而对高致病性病原体迁移和进化模式进行严谨的监视和跨学科研究是防止人类和其他物种被伤亡的关键。病原体的基因组序列给我们提供了很多可用于病原体发病机理研究、诊断和治疗上的有效信息。现阶段在世界范围内有许多的基因组序列信息数据库,如美国国家生物技术信息中心(NCBI)内的RefSeq数据库和EMBL中的Ensembl Genomes库中提供了很多分类的基因组DNA序列和注释信息,但是,由于在这两个数据库中的有些数据是来源于直接提交上去的序列信息,所以对这些数据库中的病原体基因组序列数据进行提取、校正、确证和分类,建立一个专门的包含病原体基因组序列数据库是非常必要的。在病原体检测诊断方面,目前临床上常用的病原微生物检测诊断方法有PCR技术、培养技术、免疫酶技术(EIA)、酶联免疫吸附试验(ELISA)等。这些技术在临床诊断中已发挥了巨大的作用,但仍存在一些缺点。虽然PCR技术本身的优越性是无可厚非的,但由于使用不当,很容 ...
【技术保护点】
数据库的构建。本数据库是基于关系数据库模式而构建的。从总体上来看,在数据库中最终包含的信息有:谱系中各个等级的注释;按照宿主进行划分了的病毒基因组序列(EMBL格式)及其蛋白质产物与结构域的注释;按照病原体种类进行划分了的病原体基因组序列(EMBL格式)及其蛋白质产物与结构域的注释;各基因组序列的CDS、3’UTR、5’UTR、LTR、18s?rRNA、5.8s?rRNA和28s?rRNA(对于细菌来说,后三类除外)序列信息(fasta格式);细菌的16s?rRNA、5s?rRNA和23s?rRNA序列信息;便于探针设计的序列信息(新fasta格式)。
【技术特征摘要】
1.根据库的构建。本数据库是基于关系数据库模式而构建的。从总体上来看,在数据库中最终包含的信息有:谱系中各个等级的注释;按照宿主进行划分了的病毒基因组序列(EMBL格式)及其蛋白质产物与结构域的注释;按照病原体种类进行划分了的病原体基因组序列(EMBL格式)及其蛋白质产物与结构域的注释;各基因组序列的 CDS、3,UTR、5,UTR、LTR、18s rRNA、5.8s rRNA 和 28s rRNA(对于细菌来说,后三类除外)序列信息(fasta格式);细菌的16s rRNA,5s rRNA和23s rRNA序列信息;便于探针设计的序列信息(新fasta格式)。2.根据采集、分类、加工及重组的实现 1)、谱系注释信息的采集、分类、校正分析及重组。NCBI中提供了一个广泛的、综合的、非冗余的谱系注释信息,因此,我们选择了这个数据库作为谱系分类注释信息的来源。从这个数据库中下载总的谱系注释信息,然后按照病原体的种类进行分类和校正分析,最后将结果存入到数据库中。 2)、前期参考信息的获取。ICTV数据库(international committee ontaxonomy ofviruses)提供了一个基于病毒分类信息的病毒描述链接,在此数据库中,将病毒依据宿主种类划分为9种,包括藻类病毒、古细菌病毒、细菌病毒、真菌病毒、非脊椎动物病毒、植物病毒、原生动物病毒、脊椎动物病毒和未分类的病毒,这种按照宿主种类进行划分的信息给我们提供了一种很好的构建病毒库的信息。从ICTV中分别按照宿主种类下载病毒属的物种名信息,并整理成表格,以便于下游病毒库的设计。从NCBI数据库中下载taxid与其上一级的taxid的关系表nodes, dmp、taxid与其对应的学名及同义字关系表names, dmp、并依据物种分类表(division, dmp)将这两个关系表划分为10类,包括细菌、非脊椎动物、哺乳动物、植物、灵长类动物、啮齿动物、病毒、脊椎动物、环境样本、未分类和综合类。我们对每一个分类的names, dmp和nodes, dmp表进行处理,生成taxid与其对应的所有物种名(包括学名与同义字)之间的关系表taxid.synonym。然后,我们对真菌、 细菌的nodes, dmp与names, dmp表进行如下处理:从nodes, dmp中查找得到属以下等级的taxid,并进行此taxid对应的属和种的信息的查找。在此过程中,我们获得了每个分类下属以下等级的taxid和学名与其对应的属和科的taxid和学名之间的关系表 taxid.family。3)、病毒库的构建。依据ICTV库的信息,将病毒库中的序列信息依据宿主种类划分为9种,以便于下游的信息下载和分析。由于ICTV的数据更新比NCBI中的数据更新慢,所以,首先我们需要依据NCBI中的信息对ICTV中属的信息进行校正,步骤如下:将ICTV中获得的属的物种名信息按照宿主进行分类,对每个分类进行如下处理:依据names, dmp对这些信息进行校正,最终校正的属的学名以names, dmp中的名称为准,同时生成属的taxid与属的学名之间的关系表;依据nodes, dmp对属的taxid进行分支信息的查找,即查找各属以下等级的物种信息,并生成taxid和其学名与其所对应的属的taxid和学名之间的关系表。在此过程中,我们获得了按照宿主进行分类了的所有病毒的taxid和学名及其对应的属的taxid和学名之间的关系表taxid...
【专利技术属性】
技术研发人员:张鑫磊,蒋小云,肖琛,
申请(专利权)人:北京健数通生物计算技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。