当前位置: 首页 > 专利查询>浙江大学专利>正文

一种细菌DNA序列快速注释方法及装置制造方法及图纸

技术编号:26532886 阅读:79 留言:0更新日期:2020-12-01 14:17
本发明专利技术公开了一种细菌DNA序列快速注释方法及装置,该方法分别构建ResDB、ISDB、IntegronDB和TransposonDB数据库;获取待分析的细菌DNA序列;利用BLASTN程序将待分析的细菌DNA序列与ResDB、ISDB、IntegronDB和TransposonDB数据库中的一个或多个进行比对;根据比对的覆盖率和一致性,获得最佳匹配基因和最佳匹配基因对应的查询基因的比对片段序列信息,并输出注释结果。该方法将有助于简化和优化目前的基因组分析流程,加快后续的基因组分析。

【技术实现步骤摘要】
一种细菌DNA序列快速注释方法及装置
本专利技术涉及细菌DNA序列注释领域,尤其涉及一种细菌DNA序列快速注释方法及装置,主要应用于分析DNA系列的耐药基因组、插入元件、整合子和转座子的情况。
技术介绍
近年来,高通量基因组测序(NGS)技术取得了快速的发展,大大降低了细菌基因组的测序费用,增加在临床微生物实验室进行快速细菌全基因组测序的可能性。NGS最大的优势之一是能够预测多种细菌中的耐药基因和移动元件,加速了对细菌分子特征和流行病学监测领域的研究进程。短时间内,大量的细菌基因组被测序,基因组释放的数量呈指数上升。尽管大多基因组并不完整,但是它们还是被释放到公共领域,同时它们的注释依赖于自动注释流程。目前,为了方便对细菌基因组进行研究,高效的注释方法正不断被开发。RapidAnnotationusingSubsystemTechnology(RAST)是其中广为应用的细菌基因组注释服务器。RAST先预测开放阅读框,然后进行注释。同时RAST也支持在SEED环境下进行比较基因组分析。尽管RAST已被广泛使用,但是RAST将很多新蛋白注释为未知蛋白,或者仅能提供很少的信息。对于耐药基因分析,RAST能提供的信息也很少。PATRIC注释系统改善了耐药基因等的数据收集,并为用户提供了对基因组和单个基因的更强大分析;而Resfinder则是一个专门用于耐药基因预测的注释服务器。除了用于耐药基因的注释外,一些专门用于注释移动元件的数据库,例如插入序列(ISfinder),整合子(INTEGRALL)和转座子(TransposonRegistry)也已被开发完成。移动元件的种间/种间转移是耐药性的出现和快速传播的原因。因此,了解与移动元件相关的耐药性对于监测微生物物种之间的耐药性传播很重要。然而,目前对细菌DNA的耐药基因、插入元件、整合子和转座子进行分析的系统大多为单独系统,为了完成相应的分析,用户需要访问多个网站,缺少将耐药基因和移动元件结合使用的快速注释工具,同时,多数分析结果需要人工注释至分析序列。
技术实现思路
本专利技术实施例的目的是提供一种细菌DNA序列快速注释方法及装置,以解决现有存在的耐药基因和移动元件分析系统分散,注释需要大量手工操作且极其繁琐,注释速度慢,无一站式注释系统等问题。为了达到上述目的,本专利技术实施例所采用的技术方案如下:第一方面,本专利技术实施例提供一种细菌DNA序列快速注释方法,包括:分别构建ResDB、ISDB、IntegronDB和TransposonDB数据库;获取待分析的细菌DNA序列;利用BLASTN程序将待分析的细菌DNA序列与ResDB、ISDB、IntegronDB和TransposonDB数据库中的一个或多个进行比对;根据比对的覆盖率和一致性,获得最佳匹配基因和最佳匹配基因对应的查询基因的比对片段序列信息,并输出注释结果。进一步地,分别构建ResDB、ISDB、IntegronDB和TransposonDB数据库,包括:从NCBI下载NCBI细菌耐药基因ResDB参考数据库,从ISFINDER下载ISDB数据库,从INTERGRALL下载IntegronDB数据库,从TheTransposonRegistry下载TransposonDB数据库。进一步地,对输出的注释结果进行可视化展示。进一步地,可视化展示的内容包括四个数据库的基因类型、基因方向、基因数量和基因位置。进一步地,所述的细菌DNA序列为Fasta或Genbank格式的序列文件,其中Fasta格式的序列文件载入参数为--nucleotide,Genbank格式的序列文件载入参数为--genbank,Fasta或Genbank格式的序列文件均还包括以下参数设置:输出文件所在目录:--resultdir;参考数据库:--databases;匹配序列的最小覆盖率:--coverage;匹配序列的最小一致性:--identity。进一步地,比对结果包括:qseqid:查询序列id号;sseqid:目标序列id号;pident:匹配序列百分比;length:匹配序列长度;mismatch:错配碱基个数;gapopen:缺口数目;qstart:匹配的查询序列起始位置;qend:匹配的查询序列终止位置;sstart:匹配的目标序列起始位置;send:匹配的目标序列终止位置;evalue:期望值;bitscore:匹配情况打分;qseq:匹配的查询序列的核酸序列;sseq:匹配的目标序列的核酸序列;slen:匹配的查询序列的核酸序列长度。进一步地,identity为BLASTN比对结果pident的值;coverage=(|send-sstart|+1)/slen。进一步地,对输出的注释结果进行可视化展示,具体为:将输出的注释结果写入表格,同时利用Biopython工具将其转换为Genbank文件格式,同时添加上注释信息;利用Pythondjango框架及nginx服务器搭建网站,将输出的比对结果表格在网页上展示,利用GBrowse和echarts插件将Genbank文件可视化展示。第二方面,本专利技术实施例提供一种细菌DNA序列快速注释装置,包括:数据库构建模块,用于分别构建ResDB、ISDB、IntegronDB和TransposonDB数据库;获取模块,用于获取待分析的细菌DNA序列;比对模块,用于利用BLASTN程序将待分析的细菌DNA序列与ResDB、ISDB、IntegronDB和TransposonDB数据库中的一个或多个进行比对;输出模块,用于根据比对的覆盖率和一致性,获得最佳匹配基因和最佳匹配基因对应的查询基因的比对片段序列信息,并输出注释结果。根据以上技术方案,本专利技术的有益效果:本专利技术提供了一种细菌DNA序列快速注释方法及装置,可以一次性对细菌DNA的耐药基因、插入元件、整合子和转座子进行多个分析,同时自动提供注释后的文件,供用户下载,解决了现有存在的耐药基因和移动元件分析系统分散,注释需要大量手工操作且极其繁琐,注释速度慢,无一站式注释系统等问题。用户只需作简单的参数设置并上传鲍曼不动杆菌的基因组序列,系统将在极短的时间内反馈该菌株的耐药基因、插入元件、整合子和转座子,并进行可视化显示。本方法将有助于简化和优化目前的基因组分析流程,兼容后续的基因组比较分析,如可以与easyfig等比对软件联用,并加快了后续生物信息学分析。该方法学的建立以及构建的ResDB、ISDB、IntegronDB和TransposonDB数据库在未来不断的积累,将提供用户最新的相应注释名称并帮助用户对细菌DNA序列进行分析。同时,该方法基于细菌全基因组序列获得细菌的移动元件相关耐药性的信息,对于遗传特征和分子流行病学研究,特别是监测微生物物种之间的耐本文档来自技高网
...

【技术保护点】
1.一种细菌DNA序列快速注释方法,其特征在于,包括:/n分别构建ResDB、ISDB、IntegronDB和TransposonDB数据库;/n获取待分析的细菌DNA序列;/n利用BLASTN程序将待分析的细菌DNA序列与ResDB、ISDB、IntegronDB和TransposonDB数据库中的一个或多个进行比对;/n根据比对的覆盖率和一致性,获得最佳匹配基因和最佳匹配基因对应的查询基因的比对片段序列信息,并输出注释结果。/n

【技术特征摘要】
1.一种细菌DNA序列快速注释方法,其特征在于,包括:
分别构建ResDB、ISDB、IntegronDB和TransposonDB数据库;
获取待分析的细菌DNA序列;
利用BLASTN程序将待分析的细菌DNA序列与ResDB、ISDB、IntegronDB和TransposonDB数据库中的一个或多个进行比对;
根据比对的覆盖率和一致性,获得最佳匹配基因和最佳匹配基因对应的查询基因的比对片段序列信息,并输出注释结果。


2.根据权利要求1所述的一种细菌DNA序列快速注释方法,其特征在于,分别构建ResDB、ISDB、IntegronDB和TransposonDB数据库,包括:
从NCBI下载NCBI细菌耐药基因ResDB参考数据库,从ISFINDER下载ISDB数据库,从INTERGRALL下载IntegronDB数据库,从TheTransposonRegistry下载TransposonDB数据库。


3.根据权利要求1所述的一种细菌DNA序列快速注释方法,其特征在于,对输出的注释结果进行可视化展示。


4.根据权利要求1所述的一种细菌DNA序列快速注释方法,其特征在于,可视化展示的内容包括四个数据库的基因类型、基因方向、基因数量和基因位置。


5.根据权利要求1所述的一种细菌DNA序列快速注释方法,其特征在于,所述的细菌DNA序列为Fasta或Genbank格式的序列文件,其中Fasta格式的序列文件载入参数为--nucleotide,Genbank格式的序列文件载入参数为--genbank,Fasta或Genbank格式的序列文件均还包括以下参数设置:
输出文件所在目录:--resultdir;参考数据库:--databases;匹配序列的最小覆盖率:--coverage;匹配序列的最小一致性:--identity。


6.根据权利要求1所述的一种细菌DNA序列快速注释方法,其特征在于,比对结果包括:...

【专利技术属性】
技术研发人员:华孝挺俞云松陈欢梁倩洪文杰何锦涛张玲虹
申请(专利权)人:浙江大学浙江天科高新技术发展有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1