【技术实现步骤摘要】
基因测序数据的存储读取方法及系统
本公开的实施例一般涉及生物信息领域,并且更具体地,涉及基因测序数据的存储读取方法、装置、设备和计算机可读存储介质。
技术介绍
生物信息学的主要任务之一是采集和分析大量的基因数据。这些数据对于基因研究来说至关重要,有助于确定防止或导致疾病产生的基因组件,并研究出具有针对性的疗法。测序,简单来说就是将DNA化学信号转变为计算机可处理的数字信号。高通量的测序方法和设备产生海量的短的读序数据。存储、管理和传输DNA读序数据的常用方法是采用FASTQ文件格式。FASTQ格式是一种基于文本的存储生物序列和对应碱基(或氨基酸)质量的文件格式。最初由桑格研究所(WellcomeTrustSangerInstitute)开发出来,现已成为存储高通量测序数据的事实标准。FASTQ文件由多条测序序列(reads)组成,每条测序序列由4行字符构成:第一行为信息头:必须以@开头,后面跟着序列的唯一ID以及相关说明内容。第二行为Base值:核酸序列,是由碱基ATCGN字符组成。第 ...
【技术保护点】
1.一种基因测序数据的存储方法,其特征在于,包括:/n读取基因测序仪测序产生的FASTQ文件;/n将所述FASTQ文件包括的测序序列分割重组为待编码数据;/n对所述待编码数据分别进行编码,生成编码文件;/n对所述编码文件进行压缩、打包及存储。/n
【技术特征摘要】
1.一种基因测序数据的存储方法,其特征在于,包括:
读取基因测序仪测序产生的FASTQ文件;
将所述FASTQ文件包括的测序序列分割重组为待编码数据;
对所述待编码数据分别进行编码,生成编码文件;
对所述编码文件进行压缩、打包及存储。
2.根据权利要求1所述的方法,其特征在于,
所述待编码数据包括头信息、x坐标信息、y坐标信息、index信息、碱基信息、质量值信息;
所述编码文件包括头信息编码文件、x编码文件、y编码文件、index编码文件、碱基编码文件、质量值编码文件。
3.根据权利要求2所述的方法,其特征在于,
所述头信息包括所述FASTQ文件中每个读段的“theuniqueinstrumentname”、“therunid”、“theflowcellid”、“flowcelllane”、“tilenumberwithintheflowcelllane”、“thememberofapair,1or2(paired-endormate-pairreadsonly)”、“Yifthereadisfiltered,Notherwise”、“0whennoneofthecontrolbitsareon,otherwiseitisanevennumber”;
X坐标信息包括FASTQ文件中每个读段的“‘x’-coordinateoftheclusterwithinthetile”部分;
Y坐标信息包括FASTQ文件中每个读段的“‘y’-coordinateoftheclusterwithinthetile”;
Index信息包括FASTQ文件中每个读段的“indexsequence”;
碱基信息包括FASTQ文件中每个读段的Base值;
质量值信息包括FASTQ文件中每个读段的质量值。
4.根据权利要求3所述的方法,其特征在于,所述头信息的编码规则为各lane号value值递减存储策略;
所述X文件的编码规则为二进制存储策略;
所述Y文件的编码规则为差值存储策略;
所述index...
【专利技术属性】
技术研发人员:张爽,
申请(专利权)人:福建和瑞基因科技有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。