一种微生物基因组数据库构建方法及其应用技术

技术编号:28945331 阅读:30 留言:0更新日期:2021-06-18 21:57
本发明专利技术提供了一种微生物基因组数据库构建方法及其应用。本发明专利技术的微生物基因组数据库构建方法使用基因组打断后加标签方式构建数据库,同时对多物种共有序列和特异序列标签化,并构建物种特异序列间比对分值矩阵,实现快速准确的获知序列来源。

【技术实现步骤摘要】
一种微生物基因组数据库构建方法及其应用
本专利技术涉及生物信息学领域,特别是涉及一种微生物基因组数据库构建方法及其在微生物鉴定中的应用。
技术介绍
宏基因组测序(metagenomicsnextgenerationsequencing,mNGS)不依赖于传统的微生物培养,直接对临床样本中的核酸进行高通量测序,能够快速、客观的检测临床样本中的多种病原微生物(包括病毒、细菌、真菌、寄生虫)。随着mNGS技术平台的完善和临床研究的增多,mNGS在临床上的运用也越来越广泛。宏基因组测序分析中两个重要的部分,一部分是微生物基因组数据库的构建,一部分是比对结果的分析筛选,而微生物基因组数据库的构建方式又影响和决定着比对结果筛选的准确度和特异度。微生物基因组数据库即收录了多种微生物基因组,一般都是通过NCBI公共数据库的基因组数据的下载筛选加工完成。在公共数据库中,每个物种可能有多个不同的菌株基因组,一般会选择其中一株作为该物种的代表基因组,但由于微生物菌株间基因组的突变率较高,而宏基因组测序的覆盖率较低,这时会造成假阴性现象。而如果将全部菌株纳入到本文档来自技高网...

【技术保护点】
1.一种微生物基因组数据库构建方法,其特征在于,包括如下步骤:/n1)数据获取:获取不同微生物物种的基因组数据;/n2)共有序列集和特异序列集鉴定:将不同物种基因组序列分别打断,得到各物种短片段序列集;将所有物种基因组序列合并,一起进行基因组打断,得到所有物种的短片段序列集;将所有物种短片段序列集与各物种短片段序列集进行序列比较,仅在一个物种短片段序列集中出现的序列为该一个物种的特异序列,出现在大于一个物种序列集的序列为多物种共有序列;/n3)数据集合并制备数据库:将上述多物种共有序列集和各物种特异序列集分别标签化处理,并汇总得到数据库。/n

【技术特征摘要】
1.一种微生物基因组数据库构建方法,其特征在于,包括如下步骤:
1)数据获取:获取不同微生物物种的基因组数据;
2)共有序列集和特异序列集鉴定:将不同物种基因组序列分别打断,得到各物种短片段序列集;将所有物种基因组序列合并,一起进行基因组打断,得到所有物种的短片段序列集;将所有物种短片段序列集与各物种短片段序列集进行序列比较,仅在一个物种短片段序列集中出现的序列为该一个物种的特异序列,出现在大于一个物种序列集的序列为多物种共有序列;
3)数据集合并制备数据库:将上述多物种共有序列集和各物种特异序列集分别标签化处理,并汇总得到数据库。


2.权利要求1所述的微生物基因组数据库构建方法,其特征在于,步骤2)中所述打断是通过切kmer方式打断;优选的,所述打断为长度n移步步长为k的打断方式,其中n取值为76~1000,k取值为1~n,优选的n取值为76~300,k取值为1。


3.权利要求1-2任一所述的微生物基因组数据库构建方法,其特征在于,进一步包括:4)构建比对分值稀疏矩阵:对其中一个物种的特异序列与其它任一物种的特异序列进行两两比对,获得两两物种序列间的比对分值,存储为稀疏矩阵。


4.权利要求1-3任一所述的微生物基因组数据库构建方法,其特征在于,步骤1)中还包括质粒序列去除;优选的,步骤2)打断后还包括去冗余步骤。

【专利技术属性】
技术研发人员:陈莉张岩李振中戴岩梁相志郭昊张林李诗濛任用
申请(专利权)人:南京先声医学检验有限公司江苏先声诊断技术有限公司南京先声诊断技术有限公司
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1