System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本申请涉及生物医药,尤其涉及二代高通量测序数据拆分方法、装置、计算机设备及存储介质。
技术介绍
1、1977年,walter gilbert和frederick sanger专利技术了双脱氧链终止法,并完成了第一个基因组噬菌体x174的测序。2003年,454life science公司首先建立了高通量的第二代测序技术,二代测序是对传统sanger测序的革命性变革,解决了一代测序的测序限制(一次测序只能得到一条序列),一次测序可以同时获得几十万至几百万条核酸分子序列。
2、随着测序技术的不断发展,二代测序平台越来越多样化,常见的有illumina和mgi测序平台等,测序通量也不断得到提升,但这也造成了测序通量远远大于单个样本的数据量。为了充分发挥测序仪的能力,节约测序成本,在实际生产中,通常采用多个样本混合上机的方式一起测序。样本混合的方案解决了测序通量的问题,但如何正确区分每一个样本又成为了新的问题,而为了解决新的问题,人们就在构建文库时为每个样本标记上了不同的标签序列,在测序完成后,即可根据标签序列拆分出属于对应样本的数据。标签序列,也称为index或barcode,barcode的选择并非随心所欲,如果barcode组合不佳,会直接导致barcode测序质量下降,碱基无法被准确识别,从而导致部分数据无法拆分,造成数据浪费。因此,在选择barcode时,一般要注意碱基平衡和荧光平衡,碱基平衡是指即在一组barcode的每个位置同时存在a、t、c、g四种碱基且这四种碱基的比例接近,一条lane中每个测序位置均保证碱
3、从上述可知,barcode的选择十分重要。目前,不同的测序平台在barcode长度的设计上各不相同,但相似之处是均以单侧barcode或者双侧barcode的形式存在。由于barcode是区分样本的重要标记,如何正确且完整地拆分数据就成了重中之重,当前不同的测序平台有不同的拆分二代高通量测序数据的方法,illumina平台使用bcl2fastq软件进行拆分;mgi平台选用splitbarcode程序。不同平台的拆分工具在各自的平台上表现优异,但均存在以下问题:第一,无法跨平台使用,灵活性较差;第二,当不同结构的文库混合上机时,经过多次拆分,才能拆分出完整数据;第三,在单样本数据量占比过高时,为了保证测序质量,该样本会使用多组barcode以确保碱基平衡,当使用的为多组双侧barcode时,现有工具无法完整拆分出该样本数据。
技术实现思路
1、本申请实施例的目的在于提出一种二代高通量测序数据拆分方法、装置、计算机设备及存储介质,能够完整且正确拆分单样本多组双侧barcode混合文库的测序数据。
2、为了解决上述技术问题,本申请实施例提供一种二代高通量测序数据拆分方法,采用了如下所述的技术方案:
3、一种二代高通量测序数据拆分方法,包括下述步骤:
4、接收原始测序文件,判断所述原始测序文件是否为fastq格式的文件;
5、若所述原始测序文件不是fastq格式的文件,则对所述原始测序文件进行格式转换操作,获得原始fastq文件;
6、接收文库结构描述表,从所述文库结构描述表中获取文库结构;
7、根据所述文库结构和barcode序列,拆分所述原始fastq文件,以实现测序数据拆分,多个测序数据样本。
8、进一步的,所述对所述原始测序文件进行格式转换操作,获得原始fastq文件的步骤包括:
9、启动picard软件,通过所述picard软件对所述原始测序文件进行basecalling,获得所述原始fastq文件。
10、进一步的,所述根据所述文库结构和barcode序列拆分所述原始fastq文件,获得多个测序数据样本的步骤包括:
11、将barcode序列与所述原始fastq文件进行匹配;
12、若匹配成功,则根据所述文库结构和所述barcode序列对所述原始fastq文件进行拆分,获得多个测序数据样本。
13、进一步的,所述若匹配成功,则根据所述文库结构和所述barcode序列对所述原始fastq文件进行拆分,获得多个测序数据样本的步骤包括:
14、若所述barcode序列与所述原始fastq文件的任意一段序列完全匹配或者仅有1bp碱基错配,则确定匹配成功,根据所述文库结构和所述barcode序列对所述原始fastq文件进行拆分,获得多个测序数据样本。
15、进一步的,在所述根据所述文库结构和所述barcode序列对所述原始fastq文件进行拆分,获得多个测序数据样本的步骤之后,还包括:
16、确定所述文库结构中是否包含umi序列;
17、若所述文库结构中包含umi序列,则根据所述文库结构的读取顺序从所述原始fastq文件中拆分出umi序列。
18、为了解决上述技术问题,本申请实施例还提供一种二代高通量测序数据拆分装置,采用了如下所述的技术方案:
19、一种二代高通量测序数据拆分装置,包括:
20、接收模块,用于接收原始测序文件,判断所述原始测序文件是否为fastq格式的文件;
21、格式转换模块,用于若所述原始测序文件不是fastq格式的文件,则对所述原始测序文件进行格式转换操作,获得原始fastq文件;
22、获取模块,用于接收文库结构描述表,从所述文库结构描述表中获取文库结构;
23、拆分模块,用于根据所述文库结构和barcode序列,拆分所述原始fastq文件,以实现测序数据拆分,多个测序数据样本。
24、为了解决上述技术问题,本申请实施例还提供一种计算机设备,采用了如下所述的技术方案:
25、一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述处理器执行所述计算机可读指令时实现上述的二代高通量测序数据拆分方法的步骤。
26、为了解决上述技术问题,本申请实施例还提供一种计算机可读存储介质,采用了如下所述的技术方案:
27、一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机可读指令,所述计算机可读指令被处理器执行时实现上述的二代高通量测序数据拆分方法的步骤。
28、与现有技术相比,本申请实施例主要有以下有益效果:
29、本申请不仅适用于包括illumina和mgi平台等多种平台的测序原始数据,而且解决了不同结构的测序文库以及单样本多组双侧barcode混合文库的原始数据拆分问题,可完整且正确拆分单样本多组双侧barcode混合文库的测序数据。本申请适用性广、灵活性高、拆分率高。
本文档来自技高网...【技术保护点】
1.一种二代高通量测序数据拆分方法,其特征在于,包括下述步骤:
2.根据权利要求1所述的二代高通量测序数据拆分方法,其特征在于,所述对所述原始测序文件进行格式转换操作,获得原始FASTQ文件的步骤包括:
3.根据权利要求1所述的二代高通量测序数据拆分方法,其特征在于,所述根据所述文库结构和barcode序列,拆分所述原始FASTQ文件,获得多个测序数据样本的步骤包括:
4.根据权利要求3所述的二代高通量测序数据拆分方法,其特征在于,所述若匹配成功,则根据所述文库结构和所述barcode序列对所述原始FASTQ文件进行拆分,获得多个测序数据样本的步骤包括:
5.根据权利要求4或3所述的二代高通量测序数据拆分方法,其特征在于,在所述根据所述文库结构和barcode序列,拆分所述原始FASTQ文件,以实现测序数据拆分,多个测序数据样本的步骤之后,还包括:
6.一种二代高通量测序数据拆分装置,其特征在于,包括:
7.一种计算机设备,其特征在于,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述处理器执行所述计
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机可读指令,所述计算机可读指令被处理器执行时实现如权利要求1至5中任一项所述的二代高通量测序数据拆分方法的步骤。
...【技术特征摘要】
1.一种二代高通量测序数据拆分方法,其特征在于,包括下述步骤:
2.根据权利要求1所述的二代高通量测序数据拆分方法,其特征在于,所述对所述原始测序文件进行格式转换操作,获得原始fastq文件的步骤包括:
3.根据权利要求1所述的二代高通量测序数据拆分方法,其特征在于,所述根据所述文库结构和barcode序列,拆分所述原始fastq文件,获得多个测序数据样本的步骤包括:
4.根据权利要求3所述的二代高通量测序数据拆分方法,其特征在于,所述若匹配成功,则根据所述文库结构和所述barcode序列对所述原始fastq文件进行拆分,获得多个测序数据样本的步骤包括:
5.根据权利要求4或3所述的...
【专利技术属性】
技术研发人员:梁志坤,方鹏,蒋析文,刘冰冰,
申请(专利权)人:广州达安基因股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。