【技术实现步骤摘要】
【国外来华专利技术】用于编码和解码数据结构的质量值的方法
本专利技术涉及一种用于编码数据结构的质量值(尤其是被存储为这种数据结构的基因组数据的质量值)的方法和对应的设备。本专利技术还涉及一种用于解码通过本专利技术的方法编码的数据结构的质量值的方法。
技术介绍
由于新型高通量测序(HTS)和/或下一代测序(NGS)技术,已经可以承受大量遗传信息的测序。由于这种数据浮动,与测序成本相比,IT成本可能成为主要障碍。需要对基因组数据进行高性能压缩以降低存储大小和传输成本。测序机产生了大量核苷酸序列片段的读出信息(简称为读段)。在测序过程中,将质量值(也称为质量得分)分配给读出信息的核苷酸序列中的每个核苷酸。该质量值表示对应核苷酸已被正确读出或未被正确读出的置信度。在PeterJACock、ChristopherJFields、NaohisaGoto、MichaelLHeuer和PeterMRice的“TheSangerFASTQ_leformatforsequenceswithqualityscores,andtheSolexa/lll ...
【技术保护点】
1.一种用于对数据结构的质量值进行编码的方法,其中,所述数据结构包括一组基因组读段,其中,每个基因组读段包括:/n-作为供体序列或基因组的局部部分的实际测序的核苷酸序列,其中,所述核苷酸序列包括来源于核苷酸字母表的符号序列;/n-映射位置,其指示所述核苷酸序列与所述供体序列或基因组的至少一个参考核苷酸序列的对齐;/n-CIGAR字符串,其指示所述核苷酸序列与至少一个所述参考核苷酸序列的相似性和/或差异;以及/n-质量值序列,每个质量值均来源于质量值字母表,从而所述质量值序列的在索引基因座处的质量值被分配给所述核苷酸序列的在所述索引基因座处的对应符号并指示所述对应符号相对于至 ...
【技术特征摘要】
【国外来华专利技术】20170714 US 62/532,3811.一种用于对数据结构的质量值进行编码的方法,其中,所述数据结构包括一组基因组读段,其中,每个基因组读段包括:
-作为供体序列或基因组的局部部分的实际测序的核苷酸序列,其中,所述核苷酸序列包括来源于核苷酸字母表的符号序列;
-映射位置,其指示所述核苷酸序列与所述供体序列或基因组的至少一个参考核苷酸序列的对齐;
-CIGAR字符串,其指示所述核苷酸序列与至少一个所述参考核苷酸序列的相似性和/或差异;以及
-质量值序列,每个质量值均来源于质量值字母表,从而所述质量值序列的在索引基因座处的质量值被分配给所述核苷酸序列的在所述索引基因座处的对应符号并指示所述对应符号相对于至少一个所述参考核苷酸序列而言正确的似然度,
其中,所述方法包括以下能够由数据处理系统执行的步骤:
-确定每个读段的覆盖特定索引基因座的质量值;
-基于所述特定索引基因座的所确定的质量值确定标识多个码本中用于所述特定索引基因座的特定码本的码本标识符,由此每个码本提供从所述质量值字母表的质量值到量化的质量值字母表的对应的量化质量值的映射;
-使用在所述特定索引基因座处由所述码本标识符标识的所述特定码本量化在所述特定索引基因座处的所有确定的质量值,以便为在所述特定索引基因座处的每个质量值获得对应的量化质量值;以及
-使用第一熵编码器对所有确定的码本标识符进行编码,并且使用第二熵编码器或一组编码器对所有量化质量值进行编码。
2.根据权利要求1所述的方法,其中,针对每个索引基因座执行量化步骤。
3.根据权利要求1或2所述的方法,其中,基于在所述特定索引基因座处的所确定的质量值和在所述特定索引基因座处的每个质量值的对应核苷酸符号,使用统计模型计算所述特定索引基因座的基因型不确定性,以获得唯一的基因型是正确的基因型的可能性。
4.根据前述权利要求中任一项所述的方法,其中,所述方法还包括:
-将所述特定索...
【专利技术属性】
技术研发人员:J·福格斯,J·奥斯特曼,
申请(专利权)人:汉诺威戈特弗里德威廉莱布尼茨大学,
类型:发明
国别省市:德国;DE
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。