【技术实现步骤摘要】
一种高通量DNA测序质量分数无损压缩系统及压缩方法
本专利技术涉及数据压缩领域,尤其涉及一种高通量DNA测序质量分数无损压缩系统及压缩方法。
技术介绍
DNA序列数据由针对DNA物质的测序技术采集获得,是遗传学、基因组学、生物信息学、医学等诸多领域的基础研究对象,具有重要科学价值与实际意义。随着新一代高通量测序技术(Next-generationSequencing,NGS)日益成熟并大量使用,获取DNA数据所需时间有效降低,成本显著下降。但另一方面,其所产生的DNA数据量也在急剧增长,从而对现有存储与传输技术造成了巨大压力。亟须设计具针对性的压缩方法。NGS高通量测序所获取的DNA数据常以FASTQ格式存储。与传统测序数据不同,FASTQ由一连串的短读记录(Reads)构成,每个短读包含三部分内容:(1).元数据(Metadata),用于描述短读名、测序平台等信息;(2).DNA碱基序列(NucleotideSequence),用于记录在当前短读中所获得的DNA片段;(3).质量分数(QualityScores),用于表示所对应DNA碱基序列中各符号测定的可信程 ...
【技术保护点】
一种高通量DNA测序质量分数无损压缩方法,其特征在于,所述方法包括以下步骤: A、预先基于文化基因算法构造质量分数压缩码本; B、接收输入的原始高通量DNA测序质量分数数据,针对数据中每个原始质量分数序列在质量分数压缩码本中搜索与其最相似的编码矢量; C、利用所搜索到的编码矢量对相应的原始质量分数序列进行压缩。
【技术特征摘要】
1.一种高通量DNA测序质量分数无损压缩方法,其特征在于,所述方法包括以下步骤:A、预先基于文化基因算法构造质量分数压缩码本;B、接收输入的原始高通量DNA测序质量分数数据,针对数据中每个原始质量分数序列在质量分数压缩码本中搜索与其最相似的编码矢量;C、利用所搜索到的编码矢量对相应的原始质量分数序列进行压缩;所述步骤A具体为:A1、设定质量分数压缩码本的大小M以及编码矢量长度N,统计待输入的原始高通量DNA测序质量分数数据中的符号种类形成符号集合,并据此设置搜索范围;A2、在搜索范围内随机构造M个候选解长度为N的寻优个体,形成进化种群,设定文化基因算法迭代次数为K,初始化迭代计数器k=1;A3、在每次迭代时,计算进化种群中每个寻优个体的适应度函数值;A4、在计算所有寻优个体的适应度函数值后,使用适应度共享技术计算各寻优个体的共享适应度函数值;A5、基于各寻优个体的共享适应度函数值,使用文化基因算法优化进化种群;A6、更新迭代计数器k=k+1,若k<K,则返回步骤A3,否则执行步骤A7;A7、将最终获得的进化种群中各寻优个体映射为各编码矢量,从而构成质量分数压缩码本。2.根据权利要求1所述的高通量DNA测序质量分数无损压缩方法,其特征在于,所述原始高通量DNA测序质量分数数据为ASCII码编码的FASTQ格式。3.根据权利要求1所述的高通量DNA测序质量分数无损压缩方法,其特征在于,所述步骤A3具体为:A31、按照预定映射关系将寻优个体转换为编码矢量A32、将编码矢量与原始高通量DNA测序质量分数数据中每个原始质量分数序列进行匹配,计算匹配编码后的数据体积;A33、将该数据体积作为当前寻优个体的适应度函数值。4.根据权利要求3所述的高通量DNA测序质量分数无损压缩方法,其特征在于,所述最相似的编码矢量指编辑距离最小的编码矢量。5.根据权利要求4所述的高通量DNA测序质量分数无损压缩方法,其特征在于,所述步骤C具体为:通过动态规划对原始质量分数序列和其最...
【专利技术属性】
技术研发人员:周家锐,华韵之,纪震,朱泽轩,曾启明,
申请(专利权)人:周家锐,华韵之,纪震,朱泽轩,曾启明,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。