【技术实现步骤摘要】
一种基于高通量测序数据的溶源性噬菌体预测方法
本专利技术涉及一种基于高通量测序数据的溶源性噬菌体预测方法,属于生物信息学领域。
技术介绍
噬菌体作为细菌的专性寄生微生物,是与细菌的长期演化过程中形成的可感染细菌的病毒,它可以分为裂解性噬菌体和溶原性噬菌体。裂解性噬菌体能在敏感宿主菌体内增殖并使之裂解死亡;而溶原性噬菌体虽然在某些理化因素影响下也可导致宿主菌的裂解,但将基因组整合于宿主菌基因组中,随细菌基因组进行复制及传代是其主要的存在方式,此时的溶原性噬菌体和宿主菌之间建立起相对稳定的寄生关系。溶原性噬菌体整合进宿主菌基因组中称之为前噬菌体。由于溶原性噬菌体具有介导基因水平转移的特性,通常可以对细菌的致病性造成重大影响。因此,为了更好地理解细菌毒力的形成,更准确地预测溶原性噬菌体在细菌上的存在情况是十分必要的。然而目前对于溶原性噬菌体的发现主要采用实验诱导和生物信息推断等人工方式,效率十分低下。另一方面,目前的自动化预测工具也只能预测到细菌基因组上的前噬菌体,而不能判断其是否具有功能性,更无法提取出功能性前噬菌体对应溶原性噬菌体完整序列。有鉴于此,有必要专利技术一 ...
【技术保护点】
1.一种基于高通量测序数据的溶源性噬菌体预测方法,其特征在于,包括以下步骤:第一步、开始对原始测序数据的质量值进行控制和过滤:为保证对基因组进行测序时的准确性,定义测序得到的每个碱基的质量值表示各个碱基的置信度的度量标准,表示此碱基测序错误的概率,质量值越高说明错误率越低,测序准确率就越高;如果测序质量值偏低,则会对拼接效果造成不良影响,因此必须对质量值进行过滤,去除质量值较差的序列;第二步、准备对高质量数据进行测序并组装:为方便测序,会人为地添加一种短片段,称为接头,最后的测序结果可能会残存接头序列,从而影响拼接的结果,因此需要人为地建立接头数据库,把测序数据中的碱基序列 ...
【技术特征摘要】
1.一种基于高通量测序数据的溶源性噬菌体预测方法,其特征在于,包括以下步骤:第一步、开始对原始测序数据的质量值进行控制和过滤:为保证对基因组进行测序时的准确性,定义测序得到的每个碱基的质量值表示各个碱基的置信度的度量标准,表示此碱基测序错误的概率,质量值越高说明错误率越低,测序准确率就越高;如果测序质量值偏低,则会对拼接效果造成不良影响,因此必须对质量值进行过滤,去除质量值较差的序列;第二步、准备对高质量数据进行测序并组装:为方便测序,会人为地添加一种短片段,称为接头,最后的测序结果可能会残存接头序列,从而影响拼接的结果,因此需要人为地建立接头数据库,把测序数据中的碱基序列逐个与接头数据库中的序列进行比较,删除相同序列,完成对接头序列的过滤,得到净化后的数据进行拼接组装;第三步、粗略前噬菌体预测:构建噬菌体蛋白质数据库,利用该数据库注释宿主菌的DNA,将呈现成簇聚集特征的噬菌体基因区域作为前噬菌体区域,再进行搜索并注释在细菌基因组上的整合酶基因,将整合酶基因的上下游约一个前噬菌体基因组的区域估计为疑似存在前噬菌体的区域,其长度约90000bp;第四步、精确前噬菌体预测:寻找定义了前噬菌体基因组边界的两个成对出现的特有的短正向重复序列attL和attR,长度一般在14-50bp之间,且可以取端点值;在粗略前噬菌体范围上设置两个“滑动窗口”,两个窗口差分的距离为e,其中e代表重复序列的距离,并设置两轮迭代;第一轮迭代改变两个窗口差分的距离,然后第二轮迭代...
【专利技术属性】
技术研发人员:彭绍亮,牛琦,童贻刚,张湘莉兰,李肯立,曲强,谢湘成,
申请(专利权)人:湖南大学,
类型:发明
国别省市:湖南,43
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。