System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种植物基因组survey的分析方法技术_技高网

一种植物基因组survey的分析方法技术

技术编号:40611197 阅读:4 留言:0更新日期:2024-03-12 22:19
本发明专利技术的一种植物基因组survey的分析方法属于植物基因组学领域,通过植物材料和测序、数据的质控、去除DNA中来源于细胞器的序列、再用k‑mer分析估计基因组大小和重复率,对得到的序列进行初步组装,组装前使用KmerGenie(v1.7051)选择最佳的k‑mer进行组装。然后,使用SOAPdenovo2(v.2.04)根据所选的最佳k‑mer构建初始contigs和scaffolds。本发明专利技术的一种植物基因组survey的分析方法,旨在提供一种更为精准的k‑mer分析。对于有细胞器基因组参考或者近缘参考信息的物种,采用直接比对的办法去除细胞器序列;而对于没有参考的,可以使用GetOrganelle进行初步组装,然后作为参考序列进行过滤。这种方法对各种植物物种的基因组survey具有更广泛的适用性,有助于对基因组大小和复杂性进行更精确的评估。

【技术实现步骤摘要】

本专利技术属于植物基因组学领域,特别是涉及到一种植物基因组survey的分析方法


技术介绍

1、构建高质量参考基因组是进行生物学深入研究的基础。近年来dna长读长测序等技术迅猛发展,以pacbio的hifi和ont的ultra-long为代表的测序平台产出数据的准确性和连续性都得到了极大提高;一系列基因组组装算法和工具如hifiasm、canu、verkko、falcon、wtdbg2和flye等相继被开发出来;同时一些简单高效的辅助组装技术如hi-c和bionano光学图谱等也得到了广泛应用。这使得基因组组装的难度和成本均大幅下降,大量物种的基因组已被发布,甚至一些超大或高杂合的基因组的精准组装也成为了可能。在可预见的未来,将有越来越多的基因组被解析。

2、在进行基因组组装前,有一项工作必不可少,那就是对候选物种基因组进行调研(survey)分析。这可以为研究人员提供基因组的关键基础信息,包括基因组大小、杂合度、gc含量、重复序列比例和样品是否受到污染等,为接下来的测序和组装工作提供了重要的依据。在基因组survey分析中,最重要的就是判断基因组的大小,杂合度和重复序列等特征,这对于接下来选择测序策略、测序深度和评估组装结果非常重要。最初,流式细胞术主要用于评估基因组大小,但其结果差异较大,很难建立统一的标准,只能作为粗略估算的方法。而目前最主要的手段就是利用二代测序数据进行 k-mer分析,这是一种被广泛认可的成本低、准确性高的方法,并且能够同时评估基因组杂合性、重复序列等特征。然而,在植物基因组中, k-mer分析的表现常常不尽如人意。不同个体、组织部位,或使用不同评估软件所得到的预测结果,往往差异较大,这很难仅仅基于测量误差或其他因素来解释,而主要是归因于植物细胞通常含有大量的细胞器,如线粒体和质体,这些植物细胞器基因组明显较动物的更大,而目前在大多数植物基因组survey中使用的测序数据是包括了整个植物细胞核和细胞器的总dna序列,其中包含的细胞器dna不可避免地会影响 k-mer的总数和分布,从而导致评估结果不准确。此外,不同个体、组织或生长阶段植物细胞器数量的变化进一步导致测序结果中细胞器来源dna的比例不同,这就对最终的结果产生了重大影响。


技术实现思路

1、本专利技术旨在于克服现有技术的不足,提供了一种高效精准的植物基因组survey分析方法。

2、本专利技术的一种植物基因组survey的分析方法,是通过下列步骤实现的:

3、(1)植物材料和测序

4、利用测序技术对物种的体内的所有dna分子测序,并进行小片段文库的构建;

5、(2)数据的质控

6、对步骤(1)得到覆盖深度60x全基因组测序序列fq.gz格式文件进行过滤,得到clean.fq.gz格式文件全基因组测序序列;

7、(3)去除dna中来源于细胞器的序列

8、将步骤(2)得到clean.fq.gz格式的基因组测序序列与参考序列进行比对,旨在去除dna中来源于细胞器的序列。使用bowtie2(v.2.4.4)将干净的读数与参考序列对齐,再使用samtools(v.1.15.1)转化格式,最后用bedtools(v.2.29.2)提取未映射的fastq文件,得到的这些文件仅来自该物种的核基因组;

9、所述的参考序列为该物种或近缘物种现有的质体和线粒体基因组;

10、(4)用 k-mer分析估计基因组大小和重复率

11、使用步骤(3)中得到的物种核基因组文件进行 k-mer分析,使用kmerfreq(v.4.0)和gce(v.1.0.2)计算基因组大小、重复率和杂合子率;

12、(5)初步基因组组装和gc含量分析

13、对步骤(3)得到的序列进行初步组装,组装前使用kmergenie(v1.7051)选择最佳的 k-mer进行组装。然后,使用soapdenovo2(v.2.04)根据所选的最佳 k-mer构建初始contigs和scaffolds。接下来,使用bwa-mem2(v.2.0pre2)将clean reads重新映射到组装的contigs上,再使用samtools将sam文件转换为bam文件。随后,提取长度超过5000bp的重叠群的gc含量和覆盖深度。最后,使用r中的denscols函数(v.4.1.3)绘制重叠群的gc深度分布。

14、本专利技术的一种植物基因组survey的分析方法,旨在提供一种更为精准的 k-mer分析。对于有细胞器基因组参考或者近缘参考信息的物种,采用直接比对的办法去除细胞器序列;而对于没有参考的,可以使用getorganelle进行初步组装,然后作为参考序列进行过滤。这种方法对各种植物物种的基因组survey具有更广泛的适用性,有助于对基因组大小和复杂性进行更精确的评估。

本文档来自技高网...

【技术保护点】

1.一种植物基因组survey的分析方法,是通过下列步骤实现的:

【技术特征摘要】

1.一种植物基因组survey的...

【专利技术属性】
技术研发人员:王遂段雅娟王兵王绍东姜妍佟晓红
申请(专利权)人:东北农业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1