二代高通量测序数据拆分方法、装置、计算机设备及存储介质制造方法及图纸

技术编号：41365807 阅读：19 留言：0更新日期：2024-05-20 10:13

本申请实施例属于生物医药技术领域，涉及一种二代高通量测序数据拆分方法，包括接收原始测序文件，判断所述原始测序文件是否为FASTQ格式的文件；若所述原始测序文件不是FASTQ格式的文件，则对所述原始测序文件进行格式转换操作，获得原始FASTQ文件；接收文库结构描述表，从所述文库结构描述表中获取文库结构；根据所述文库结构和barcode序列，拆分所述原始FASTQ文件，以实现测序数据拆分，多个测序数据样本。本申请还提供一种二代高通量测序数据拆分装置、计算机设备及存储介质。本申请能够完整且正确拆分单样本多组双侧barcode混合文库的测序数据。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及生物医药，尤其涉及二代高通量测序数据拆分方法、装置、计算机设备及存储介质。

技术介绍

1、1977年，walter gilbert和frederick sanger专利技术了双脱氧链终止法，并完成了第一个基因组噬菌体x174的测序。2003年，454life science公司首先建立了高通量的第二代测序技术，二代测序是对传统sanger测序的革命性变革，解决了一代测序的测序限制(一次测序只能得到一条序列)，一次测序可以同时获得几十万至几百万条核酸分子序列。

2、随着测序技术的不断发展，二代测序平台越来越多样化，常见的有illumina和mgi测序平台等，测序通量也不断得到提升，但这也造成了测序通量远远大于单个样本的数据量。为了充分发挥测序仪的能力，节约测序成本，在实际生产中，通常采用多个样本混合上机的方式一起测序。样本混合的方案解决了测序通量的问题，但如何正确区分每一个样本又成为了新的问题，而为了解决新的问题，人们就在构建文库时为每个样本标记上了不同的标签序列，在测序完成后，即可根据标签序列拆分出属于对应样本的数...

【技术保护点】

1.一种二代高通量测序数据拆分方法，其特征在于，包括下述步骤：

2.根据权利要求1所述的二代高通量测序数据拆分方法，其特征在于，所述对所述原始测序文件进行格式转换操作，获得原始FASTQ文件的步骤包括：

3.根据权利要求1所述的二代高通量测序数据拆分方法，其特征在于，所述根据所述文库结构和barcode序列，拆分所述原始FASTQ文件，获得多个测序数据样本的步骤包括：

4.根据权利要求3所述的二代高通量测序数据拆分方法，其特征在于，所述若匹配成功，则根据所述文库结构和所述barcode序列对所述原始FASTQ文件进行拆分，获得多个测序数据样本的步骤包括...

【技术特征摘要】

1.一种二代高通量测序数据拆分方法，其特征在于，包括下述步骤：

2.根据权利要求1所述的二代高通量测序数据拆分方法，其特征在于，所述对所述原始测序文件进行格式转换操作，获得原始fastq文件的步骤包括：

3.根据权利要求1所述的二代高通量测序数据拆分方法，其特征在于，所述根据所述文库结构和barcode序列，拆分所述原始fastq文件，获得多个测序数据样本的步骤包括：

4.根据权利要求3所述的二代高通量测序数据拆分方法，其特征在于，所述若匹配成功，则根据所述文库结构和所述barcode序列对所述原始fastq文件进行拆分，获得多个测序数据样本的步骤包括：

5.根据权利要求4或3所述的...

【专利技术属性】
技术研发人员：梁志坤，方鹏，蒋析文，刘冰冰，
申请(专利权)人：广州达安基因股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人