【技术实现步骤摘要】
一种基于二代和三代测序技术的宏病毒组分析方法
[0001]本专利技术涉及二代和三代测序
以及宏病毒组学领域,具体为一种基于二代和三代测序技术的宏病毒组分析方法。
技术介绍
[0002]病毒是微生物的重要组成部分,其组成变化与众多疾病相关,是地球生物圈最丰富的生物种类。可以侵袭细菌且导致宿主裂解的病毒又被称作噬菌体,其作为一种可移动遗传元件,可将遗传物质在细菌之间传播。近年来,由于抗生素的广泛使用,超级细菌层出不穷,病原菌对抗生素耐药性的威胁越来越大,抗生素治疗效果受到严峻的挑战,由于噬菌体可以入侵并改变(通常是降低)宿主菌的适应性,噬菌体治疗又重新成为热点。因此,病毒在调节细菌的生物量、维持生物多样性、基因水平转移以及整个生物圈内的生物化学循环都有着重要作用,还可作抗生素的替代品,具有很强的实用价值。
[0003]宏病毒组学是在宏基因组学理论的基础上,结合现有的病毒分子生物学检测技术而兴起的一个新的学科分支,是某类样本中所有病毒或病毒类似物及其所携带遗传信息的总称。宏病毒组直接以环境中所有病毒的遗传物质为研究对 ...
【技术保护点】
【技术特征摘要】
1.一种基于二代和三代测序技术的宏病毒组分析方法,其特征在于,包括以下步骤:(1)将二代基因组测序所得的原始高通量测序数据进行过滤,得到过滤后的数据;将该过滤后的数据进行组装,得到二代组装contigs;(2)将三代基因组测序所得的原始高通量测序数据进行过滤,得到过滤后的数据;将该过滤后的数据进行组装,得到三代组装contigs;该步骤中的组装根据样本测序数据量的大小进行,单样本测序数据量超过100G时,使用以下方法1或方法2的单一组装方法;若小于等于100G,则同时使用以下两种组装方法;其中:方法1:通过reads长度、测序深度和基因组大小运用de Bruijn算法计算出性能最佳的K
‑
mer,将其作为固定K
‑
mer值检测重复序列并组装成contigs序列;方法2:采用少数服从多数原则对reads进行纠错修正,根据重叠度确定碱基一致的区域为高质量区域,修整不能完全重叠的低质量区域;重新计算重叠区的序列一致性,序列完全重叠区域为unitigs,重叠区域包含部分重叠的片段为contigs;然后对unitigs序列文件使用k
‑
medoids聚类算法进行迭代binning,得到bins;再进行序列判定:即当contig的所有unitigs都属于同一bin,那么保留该contig,反之,则保留所有unitigs;(3)二代和三代宏病毒组测序数据进行混合组装:同时采用以下两种组装方法,得到二代和三代混合组装的contigs;其中:方法1:构建步骤(1)中过滤后的数据的拼接集,得到二代拼接集,利用贝叶斯模型方法将步骤(2)中过滤后的数据来填补二代拼接集中间不能相连的片段,得到contigs;方法2:使用HYBRIDSPADES算法对步骤(1)中过滤后的数据和步骤(2)中过滤后的数据进行组装得到contigs;(4)构建非冗余的contigs集合:将步骤(1)得到的二代组装contigs、步骤(2)得到的三代组装contigs以及步骤(3)得到的二代和三代混合组装的contigs合并,根据序列的相似度将大于95%的序列聚类成一个cluster,选取最长的序列作为该cluster的代表序列,所有的代表序列即为获得的非冗余contigs集合;(5)病毒序列的识别和判定:对步骤(4)中得到的非冗余的congtigs集合采用不少于三种方法进行病毒识别和判定,至少被两种方法识别为病毒的contigs被保留;将保留的contigs与病毒组数据库进行比对来判定完整性,过滤掉大于10%的错误匹配,最终保留的contigs被判定为病毒序列;病毒识别的方法包括:方法1:应用机器学习使用基因组特征进行病毒识别;所述基因组特征包括结构、功能、分类注释和病毒标志基因;方法2:基于病毒序列K
‑
mers词频和机器学习识别病毒序列;方法3:基于深度学习算法,设计出双通道卷积神经网络的网络结构,有效地对DNA片段进行病毒识别。2.如权利要求1所述的基于二代和三代测序技术的宏...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。