一种基于16SrDNA序列的菌种鉴定方法技术

技术编号:33158115 阅读:13 留言:0更新日期:2022-04-22 14:15
本发明专利技术公开了一种基于16S rDNA序列的菌种鉴定方法,步骤包括:将参考16S rDNA序列按照引物序列确定参考序列方向;根据预定长度将确定方向后的参考序列进行k

【技术实现步骤摘要】
一种基于16S rDNA序列的菌种鉴定方法


[0001]本专利技术属于生物信息领域,具体地,本专利技术涉及一种基于16S rDNA序列的菌种鉴定方法。

技术介绍

[0002]16S rDNA主要编码核糖体16S rRNA,约1500bp,其进化具有时钟性质,在结构与功能上具有保守性,有“细菌化石”之称。16S rDNA的序列中至少包含9个可变区和11个保守区。保守区是细菌共有的序列,具有高度同源性。而可变区中某些高变性质则能体现物种间的差异,研究表明高变区(V1

V9)存在与所有细菌中,可用于细菌的种类鉴定。
[0003]微生物污染是制药企业生产过程控制及药品质量评估的重要指标,也是影响消费者用药安全的关键因素。因此加强药品生产过程微生物监管和风险控制是保障药品质量、降低用药风险的重要途径。在药品生产的微生物质量控制中,实现微生物“属”及“种”水平的准确鉴定,对控制药品质量以及保障消费者用药安全具有重要意义。
[0004]随着分子生物学技术的快速发展,微生物鉴定技术也得到飞速发展。近年来,各种基因诊断技术在细菌检测中不断开发、利用,尤其是基于聚合酶链反应(PCR)的基因诊断技术发挥着越来越重要的作用。该技术主要有三个步骤:首先是基因组DNA的获得,其次是16s rDNA基因片段的获得,最后是进行16s rDNA基因序列的分析。截止目前,使用16S rDNA基因序列对物种进行鉴定和分类的核心基础是利用BLAST局部比对算法进行快速分类,输出初始排名结果,随后使用双序列全局比对,给出在参考数据库中与待查询序列最为接近的排名序列,以此作为参考,对样本序列进行鉴定和分类。然而BLAST算法存在计算量较大,运算效率低以及资源消耗较高等问题。传统的索引在可扩展性上难以满足数据快速增长的需求,尤其当数据量极大,时间紧迫时,能否以最快的速度存取到所需的信息,是一个非常重要的挑战性问题。

技术实现思路

[0005]为了克服现有技术的不足,本专利技术的目的是提供一种基于16S rDNA序列的菌种鉴定方法,该方法应用于16S rDNA序列的菌种鉴定中,能明显提高鉴定速度并减少运算量,高效地获得序列的菌种鉴定信息。
[0006]本专利技术提供的菌种鉴定方法基于k

mer思想实现16S rDNA序列的菌种鉴定。具体的核心步骤如下:步骤一,构建参考序列k

mer索引库;步骤二,查询序列菌种鉴定分析;根据本专利技术实施例的上述鉴定方法通过k

mer切分模式,减少了比对的运算量,极大提高了鉴定速度。
[0007]根据本专利技术的实施例,上述方法进一步包括如下技术特征:所述k

mer索引库构建是通过如下方式进行的:(1)序列方向确定:根据533R引物序列与参考数据库中序列比对以确定序列方向,其中533R引物序列为5
’‑
TTACCGCGGCTGCTGGCAC
‑3’

(2)k

mer切分:根据特定长度对所有序列进行k

mer切分;(3)k

mer序列分类:根据简并碱基数量将k

mer序列分为3类,第一类为不包含简并碱基;第二类包含简并碱基并且数量小于等于2;第三类包含简并碱基并且数量大于2;(4)展开简并碱基:针对上述第二类k

mer序列,即存在简并碱基并且数量小于等于2的k

mer序列,根据简并碱基对应的碱基进行逐步展开;(5)k

mer索引构建:将上述第一类k

mer序列,第二类经过展开后的k

mer序列,以及第三类k

mer序列合并构建k

mer索引库,包含k

mer序列,出现频次,涉及的参考序列ID。
[0008]所述查询序列菌种鉴定分析实行步骤如下:(1)k

mer切分:将16S rDNA查询序列按照特定长度进行k

mer切分,构建k

mer序列集合;(2)K
min
计算:根据特定公式以及特定序列相似性值计算查询序列的最小比对k

mer数(k
min
);(3)比对k

mer索引库:将查询序列的k

mer序列集合与参考k

mer索引库进行比对,并统计查询序列每个k

mer的比对结果;(4)k

mer统计:根据与索引库的比对情况,统计查询序列比对上相同参考序列的k

mer个数;(5)候选参考序列筛选:根据k
min
筛选出符合条件的候选参考序列;(6)序列两两比对:将查询序列分别与候选参考序列进行两两比对,计算序列相似性以及序列联配结果(7)结果输出:最终输出查询序列的比对结果。
[0009]所述k
min
计算公式如下:;其中,L表示查询序列长度;K表示指定k

mer长度;S表示指定序列相似性值;int表示数值取整。
[0010]所述指定序列相似性值设置如下:根据基因序列一般分析原则,相似性≥99%时,鉴定结果为种水平;相似性≥97%且<99%时,鉴定结果为属水平。
[0011]所述查询序列与候选参考序列进行两两比对采用全局比对方法。
[0012]所述最终输出结果包括序列相似性,物种拉丁名,物种菌株号。
[0013]本专利技术有益效果在于:1)通过采取k

mer算法模式,大大的减少了数据库存储空间;2)通过k

mer序列在索引库中查找,极大地缩短了查找时间的成本。
附图说明
[0014]图1为本专利技术实施例中的k

mer索引库构建示意图。
[0015]图2为本专利技术实施例中的序列鉴定模块示意图。
具体实施方式
[0016]为了更好的说明本专利技术,下面结合具体的实施例做进一步说明,所述实施例的示例在附图中展示出。下面通过参考附图描述的实施例是示例性的,旨在用于解释本专利技术,而不能理解为对本专利技术的限制。
[0017]根据本专利技术的实施例,所述方法可描述为:1)16S rDNA参考序列k

mer索引库构建,如图1所示。具体步骤包括:序列方向确定:根据533R引物序列与参考16S rDNA序列数据库中序列进行比对以确定序列方向,其中533R引物序列为5
’‑
TTACCGCGGCTGCTGGCAC
‑3’

[0018]k

mer切分:根据特定长度(K=31),对参考序列进行k

mer切分。
[0019]k

mer序本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于16S rDNA序列的菌种鉴定方法,其特征在于,包括以下步骤:步骤1,构建参考序列k

mer索引库;步骤1.1 序列方向确定:根据533R引物序列与16S rDNA参考数据库中序列进行比对以确定序列方向,其中533R引物序列为5
’‑
TTACCGCGGCTGCTGGCAC
‑3’
;步骤1.2 k

mer切分:根据特定长度对所有序列进行k

mer切分;步骤1.3 k

mer序列分类:根据简并碱基数量将k

mer序列分为3类,第一类为不包含简并碱基;第二类包含简并碱基并且数量小于等于2;第三类包含简并碱基并且数量大于2;步骤1.4 展开简并碱基:针对上述第二类k

mer序列,即存在简并碱基并且数量小于等于2的k

mer序列,根据简并碱基对应的碱基进行逐步展开;步骤1.5 k

mer索引构建:将上述第一类k

mer序列,第二类经过展开后的k

mer序列,以及第三类k

mer序列合并构建k

mer索引库,包含k

mer序列,出现频次和涉及的参考序列ID;步骤2,查询序列菌种鉴定分析;步骤2.1 k

mer切分:将16S rDNA查询序列按照特定长度进行k

mer切分,构建k

【专利技术属性】
技术研发人员:王庭璋刘淑艳马云婷郑小玲王美霞钟啸萍陶巧凤方序
申请(专利权)人:浙江天科高新技术发展有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1