一种基于纳米孔和高通量测序数据的噬菌体鉴定和宿主预测方法技术

技术编号:35247073 阅读:26 留言:0更新日期:2022-10-19 09:54
本申请涉及生物信息学领域,公开了一种基于纳米孔和高通量测序数据的噬菌体鉴定和宿主预测方法。通过将原始纳米孔测序数据与高通量测序数据相结合,设计了质控过滤流水线对两套测序数据分别进行质控和过滤,再在混合组装后的序列中根据噬菌体基因的特征模型鉴定出潜在的噬菌体序列,接着提取数据库中原有的细菌基因组所携带的特殊间隔序列,最后通过与数据库中提取的特殊间隔序列进行比对,挖掘对应关系,预测噬菌体对应的宿主关系。本发明专利技术实现了对纳米孔和高通量测序数据中噬菌体序列的有效挖掘与噬菌体宿主的有效预测,具有十分重要的推广应用价值。要的推广应用价值。要的推广应用价值。

【技术实现步骤摘要】
一种基于纳米孔和高通量测序数据的噬菌体鉴定和宿主预测方法


[0001]本申请属于生物信息学
,具体涉及一种基于纳米孔和高通量测序数据的噬菌体鉴定和宿主预测方法。

技术介绍

[0002]噬菌体是一种特异性侵染细菌的病毒,一方面,噬菌体具有重要的生态学意义,噬菌体可以通过裂解细菌,调节细菌的种群数量;另一方面,噬菌体具有重要的潜在应用价值,噬菌体可以通过精准控制病原菌的生长,避免抗生素的大量使用带来的广泛耐药性。在污水处理领域,噬菌体也具有控制不利细菌的应用前景。
[0003]现有相关技术中,对于噬菌体鉴定和宿主预测,中国专利申请号CN201910506027.0,申请日为2019年6月12日的专利申请文件公开了一种基于高通量测序数据的溶源性噬菌体预测方法,实现了对细菌基因组中的溶源性噬菌体的有效预测。但是该专利技术一方面并没有考虑游离噬菌体的鉴定和宿主预测方法,另外一方面并没有涉及纳米孔测序数据的噬菌体分析方法。中国专利申请号CN201911110250.X,申请日为2019年11月14日的专利申请文件公开了一种高通量筛选噬菌体宿主谱的方法,只需1人做2天就能完成噬菌体的宿主鉴定。但是该专利技术一方面主要依赖传统生物培养,而非高通量测序数据,另外一方面该噬菌体宿主鉴定方法仍然耗时较长。中国专利申请号CN202010241653.4,申请日为2020年3月31日的专利申请文件公开了一种细菌中功能性前噬菌体及其位置与序列的检测方法,能够检测一种细菌中功能性前噬菌体及其位置与序列。但是该专利技术一方面依赖于细菌基因组,而非噬菌体基因组的测序数据,另外一方面也只考虑了高通量测序数据中的噬菌体信息挖掘。
[0004]可见,传统的噬菌体鉴定方法依赖生物培养,耗时费力,效率十分低下,难以快速获取环境样本中的噬菌体信息,且很难同时建立噬菌体与多个宿主的侵染关系。此外,随着基因组测序技术的快速发展,第三代测序技术纳米孔测序技术已经逐步在世界上进行推广,而目前针对纳米孔测序数据的噬菌体鉴定和宿主预测方法非常缺乏。

技术实现思路

[0005]本申请提供一种基于纳米孔和高通量测序数据的噬菌体鉴定和宿主预测方法,以解决上述现有技术中的相关问题和缺陷,该方法既能同时满足纳米孔测序数据和高通量测序数据的分析要求,又能准确鉴定测序数据中的噬菌体序列,并预测噬菌体与宿主的对应关系。
[0006]本申请的第一方面,提供的基于纳米孔和高通量测序数据的噬菌体鉴定和宿主预测方法,从待测DNA样本中获得原始纳米孔测序数据和原始高通量测序数据,随后进行噬菌体鉴定和宿主预测,包括以下步骤:S1:设置第一质量值过滤参数,去除原始纳米孔测序数据中平均质量值低于第一
质量值过滤参数的序列,得到过滤后的纳米孔序列;S2:将过滤后的纳米孔序列进行长度分析,设置第一序列长度参数,并去除序列长度小于所述第一序列长度参数的短序列,得到质控过滤后的纳米孔长序列;S3:将原始高通量测序数据中含有接头的序列去除,得到过滤后的高通量测序数据;S4:将过滤后的高通量测序数据中N含量超过10%的序列去除,设置第二质量值过滤参数,并将去除后的高通量序列中超过50%的碱基质量值低于所述第二质量值过滤参数的序列再去除,得到质控过滤后的高通量短序列;S5:将质控过滤后的纳米孔长序列和质控过滤后的高通量短序列进行混合组装,拼接出待鉴定的噬菌体序列信息,设置第二序列长度参数,并去除拼接后的序列长度小于所述第二序列长度参数的短序列,得到混合组装后的噬菌体序列;S6:将混合组装后的噬菌体序列进行基因预测,得到待预测序列的基因特征信息;S7:将待预测序列的基因特征信息与包含噬菌体基因特征信息的第一类数据库,以及与包含细菌基因特征信息的第二类数据库进行比对,分别获得相应的比对情况数据;S8:对所述比对情况数据进行汇总和判定;当待预测序列的基因特征信息中,能与第一类数据库比对上的基因数量所占比例大于等于序列中基因总量的60%时,或者能与第一类数据库比对上的基因数量大于等于能与第二类数据库比对上的基因数量时,或者能与第一类数据库比对上的基因数量所占比例大于等于10%,且能与第二类数据库比对上的基因数量所占比例小于等于40%时,所述待预测序列则被鉴定为噬菌体序列;S9:下载含有全部细菌基因组序列信息的数据库,并从中提取现有的细菌基因组序列中的特殊间隔序列;S10:将步骤S8中鉴定出的噬菌体序列与步骤S9中提取的特殊间隔序列进行比对,获得预测的噬菌体宿主信息。
[0007]可选的,本方法所述的质量值过滤参数为碱基质量值Q,第一质量值过滤参数为Q7,第二质量值过滤参数为Q5。
[0008]可选的,本方法设置第一序列长度参数为1000bp,第二序列长度参数为5000bp。
[0009]可选的,步骤S7中,所述第一类数据库为VPF数据库,所述第二类数据库为Pfam数据库、KEGG数据库中的任意一种或两种;步骤S8中,对所述比对情况数据进行汇总和判定,包括:待预测序列的基因特征信息中,若比对上VPF数据库的基因数量大于等于序列中基因总量的60%,则该序列被鉴定为噬菌体序列;或者,若比对上VPF数据库的基因数量大于等于比对上Pfam数据库的基因数量,则该序列被鉴定为噬菌体序列;或者,若比对上VPF数据库的基因数量大于等于序列中基因总量的10%,且比对上Pfam数据库的基因数量小于等于序列中基因总量的40%,且比对上KEGG数据库的基因数量小于等于序列中基因总量的20%,则该序列被鉴定为噬菌体序列。
[0010]可选的,步骤S9中,所述含有全部细菌基因组序列信息的数据库为NCBI数据库。
[0011]可选的,在步骤S10中,利用Blast软件将步骤S8中鉴定出的噬菌体序列与步骤S9中提取的特殊间隔序列进行比对,比对时使用的参数包括覆盖度90%、一致度97%、错误数1。
[0012]本申请的第二方面,提供上述的噬菌体鉴定和宿主预测方法在环境介质样本微生
物分析中的应用。
[0013]可见,本申请的方法可以同时处理目前最新的第三代纳米孔测序数据和目前流行的第二代高通量测序数据,并能够在不经过生物培养的条件下对噬菌体进行宿主关系的快速准确大规模预测,能够实现对纳米孔和高通量测序数据中噬菌体序列的有效挖掘与噬菌体宿主的有效预测,具有十分重要的推广应用价值。
[0014]与现有技术相比,本申请的方法能够取得的有益效果具体包括:(1)本专利技术是同时兼容纳米孔测序数据和高通量测序数据进行噬菌体鉴定和宿主预测的方法,纳米孔测序数据有助于鉴定到基因组长度更长、更完整的噬菌体,而高通量测序数据有助于鉴定到基因组准确度更高的噬菌体,兼容两种数据可使鉴定的噬菌体同时拥有上述两种优点。
[0015](2)本专利技术的噬菌体鉴定和宿主预测方法不仅可以针对前噬菌体基因组的测序数据,也可以用于游离噬菌体基因组的测序数据。适用范围更广阔,鉴定的噬菌体数目更多,构建的噬菌体数据库更加全面。
[0016](3)与传统生物培养鉴定噬菌体宿主的方法相比,本专利技术可以快速、大规模地从环境本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于纳米孔和高通量测序数据的噬菌体鉴定和宿主预测方法,其特征在于,从待测DNA样本中获得原始纳米孔测序数据和原始高通量测序数据,随后进行噬菌体鉴定和宿主预测,包括以下步骤:S1:设置第一质量值过滤参数,去除原始纳米孔测序数据中平均质量值低于第一质量值过滤参数的序列,得到过滤后的纳米孔序列;S2:将过滤后的纳米孔序列进行长度分析,设置第一序列长度参数,并去除序列长度小于所述第一序列长度参数的短序列,得到质控过滤后的纳米孔长序列;S3:将原始高通量测序数据中含有接头的序列去除,得到过滤后的高通量测序数据;S4:将过滤后的高通量测序数据中N含量超过10%的序列去除,设置第二质量值过滤参数,并将去除后的高通量序列中超过50%的碱基质量值低于所述第二质量值过滤参数的序列再去除,得到质控过滤后的高通量短序列;S5:将质控过滤后的纳米孔长序列和质控过滤后的高通量短序列进行混合组装,拼接出待鉴定的噬菌体序列信息,设置第二序列长度参数,并去除拼接后的序列长度小于所述第二序列长度参数的短序列,得到混合组装后的噬菌体序列;S6:将混合组装后的噬菌体序列进行基因预测,得到待预测序列的基因特征信息;S7:将待预测序列的基因特征信息与包含噬菌体基因特征信息的第一类数据库,以及与包含细菌基因特征信息的第二类数据库进行比对,分别获得相应的比对情况数据;S8:对所述比对情况数据进行汇总和判定;当待预测序列的基因特征信息中,能与第一类数据库比对上的基因数量所占比例大于等于序列中基因总量的60%时,或者能与第一类数据库比对上的基因数量大于等于能与第二类数据库比对上的基因数量时,或者能与第一类数据库比对上的基因数量所占比例大于等于10%,且能与第二类数据库比对上的基因数量所占比例小于等于40%时,所述待预测序列则被鉴定为噬菌体序列;S9:下载含有全部细菌基因组序列信息的数据库,并从中提取现...

【专利技术属性】
技术研发人员:陈勇陈毅强涂勇范亚民崔韬
申请(专利权)人:江苏省环境工程技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1