从NGS产生的未确定FastQ文件中生成目标FastQ文件的方法和系统技术方案

技术编号:38736610 阅读:36 留言:0更新日期:2023-09-08 23:23
本发明专利技术提供一种从NGS产生的未确定FastQ文件中生成目标FastQ文件的方法和系统,以及一种计算机可读存储介质和终端。该方法包括以下步骤:S1、准备原始文件和Index信息得到所述NGS产生的未确定FastQ文件;S2、生成并修正分割点;S3、解压、过滤、压缩;S4、合并。该系统包括数据库单元,用于存储NGS产生的原始数据、样本信息、分析后产生的数据;处理单元,包括生成并修正分割点模块、解压过滤压缩模块、合并模块;所述数据库单元与所述处理单元通信。本发明专利技术能够较快且准确地从NGS产生的未确定FastQ文件中过滤到与客户提供的barcode匹配的FastQ文件,非常具有实用价值。非常具有实用价值。非常具有实用价值。

【技术实现步骤摘要】
从NGS产生的未确定FastQ文件中生成目标FastQ文件的方法和系统


[0001]本专利技术涉及二代测序数据处理方法和系统,具体涉及一种从NGS产生的未确定FastQ文件中生成目标FastQ文件的方法和系统

技术介绍

[0002]随着第二代测序技术(Next

generation sequencing,NGS)的成熟和普及,测序成本大大降低的同时,产生的数据量非常大,比如二代测序仪Nova seq 6000一次下机数据可以有3.6Tb
×
2的数据量,相当于人类基因组的2000多倍。近年来,生物医药领域越来越多的应用NGS进行生物大分子测序。一般是生物医药企业、高校或科研院所提供生物大分子、基因组或宏基因等待测样本给专业的测序公司,由测序公司通过NGS进行检测。
[0003]为了方便测序数据的发布和共享,NGS所测的碱基及其质量分数数据大多以FASTQ格式(对应的文件即FastQ文件)存储。FASTQ格式是常见的基因测序数据,以读段为单位存储,携带有碱基测序的质量信息,是下游分析软件最常见的格式。<本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种从NGS产生的未确定FastQ文件中生成目标FastQ文件的方法,其特征在于,包括以下步骤:S1、准备原始文件和Index信息得到所述NGS产生的未确定FastQ文件;S2、生成并修正分割点:按照文件大小R将所述NGS产生的未确定FastQ文件切割成若干FastQ片段;对于切割得到的每个所述FastQ片段的边界点,需要在
±
M范围内进行bgzf的边界搜索;并使用搜索后的偏移量作为实际分割点对所述FastQ片段进行分割,得到分割后的FastQ片段;R为1

20Gb,M为32

128Kb;S3、解压、过滤、压缩:解压所述步骤S2分割后的FastQ片段,用目标barcode(s)过滤,然后再压缩得到经过过滤的FastQ片段;S4、合并:将所述步骤S3得到的经过过滤的FastQ片段按照顺序重新合并,生成所述目标FastQ文件。2.如权利要求1所述的从NGS产生的未确定FastQ文件中生成目标FastQ文件的方法,其特征在于,所述步骤S3中的解压、过滤、压缩的工作在同一个任务中以流完成,产生的所述经过过滤的FastQ片段以.part

${分片号}结尾的文件存储至阿里云OSS中。3.如权利要求1所述的从NGS产生的未确定FastQ文件中生成目标FastQ文件的方法,其特征在于,所述步骤S3包括将解压、过滤、压缩这3个过程分别放到3个不同的线程中,中间通过队列进行连接。4.如权利要求3所述的从NGS产生的未确定FastQ文件中生成目标FastQ文件的方法,其特征在于,所述步骤S3还包括在每个批量计算的节点上运行数个worker,每个所述worker由3个不同的线程构成,分别负责解压、过滤、压缩;所述worker的数量=虚拟机内核数/2。5.如权利要求1所述的从NGS产生的未确定FastQ文件中生成目标FastQ文件的方法,其特征在于,所述步骤S4还包括伴随所述目标FastQ文件生成的还有md5校验,用于验证所述目标FastQ文件的真实性。6.如权利要求1所述的从NGS产生的未确定FastQ文件中生成目标FastQ文件的方法,其特征在于,所述步骤S4的合并在本地计...

【专利技术属性】
技术研发人员:费家俊唐英荣田常丰洪强李萌马臻龚崝
申请(专利权)人:上海序祯达生物科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1