【技术实现步骤摘要】
【国外来华专利技术】用于编码和解码数据结构的质量值的方法
本专利技术涉及一种用于编码数据结构的质量值的方法和对应的设备,尤其是存储为这种数据结构的基因组数据的质量值。本专利技术还涉及一种用于解码通过本专利技术的方法编码的数据结构的质量值的方法。
技术介绍
由于新型高通量测序(HTS)和/或下一代测序(NGS)技术,所以可承受大量遗传信息的测序。由于这种数据浮动,与测序成本相比,IT成本可能成为主要障碍。需要对基因组数据进行高性能压缩以降低存储大小和传输成本。测序机产生例如DNA材料的片段的大量读出信息(简称为读数)。在测序过程中,在读出信息中为每个核苷酸指定质量值,也称为质量得分。这些质量值表明对应核苷酸被正确读出的置信度。读出信息(例如核苷酸序列连同相关的质量值)和相关的读数标识符通常以FASTQ格式存储。在PeterJACock、ChristopherJFields、NaohisaGoto、MichaelLHeuer和PeterMRice的“TheSangerFASTQformatforsequenceswithqualityscores,andtheSolexa/lllumin ...
【技术保护点】
1.一种用于编码数据结构的质量值的方法,其中,所述数据结构包括多个连续片段,每个连续片段包括从符号字母表导出的符号序列并且对应于一个或多个参考序列中的一个参考序列的片段,其中,每个连续片段与所述参考序列之一的基因座索引对齐,并且所述连续片段的至少一部分在对齐的基因座索引处重叠,并且所述数据结构还包括多个质量值,每个质量值从质量值字母表导出并且被分配给所述连续片段之一的对应符号,其中,每个质量值指示对应连续片段中的所述对应符号正确的似然度,其中,所述方法包括能够由数据处理系统执行的步骤:确定特定基因座索引处的质量值,所述质量值被分配给与所述特定基因座索引对齐的连续片段的符号; ...
【技术特征摘要】
【国外来华专利技术】1.一种用于编码数据结构的质量值的方法,其中,所述数据结构包括多个连续片段,每个连续片段包括从符号字母表导出的符号序列并且对应于一个或多个参考序列中的一个参考序列的片段,其中,每个连续片段与所述参考序列之一的基因座索引对齐,并且所述连续片段的至少一部分在对齐的基因座索引处重叠,并且所述数据结构还包括多个质量值,每个质量值从质量值字母表导出并且被分配给所述连续片段之一的对应符号,其中,每个质量值指示对应连续片段中的所述对应符号正确的似然度,其中,所述方法包括能够由数据处理系统执行的步骤:确定特定基因座索引处的质量值,所述质量值被分配给与所述特定基因座索引对齐的连续片段的符号;基于所确定的质量值计算所述特定基因座索引处的估计确定性,其中,所述估计确定性指示与对应符号相关的所确定的质量值中每个质量值的正确性的似然度;以及通过基于所计算的估计确定性将每个确定的质量值变换为变换后质量值来对所确定的质量值进行编码。2.根据权利要求1所述的方法,其中,以从所述质量值字母表导出的质量值的形式计算所述估计确定性,并且如果所述估计确定性大于或等于要变换的质量值,则通过将每个质量值设定为所述估计确定性来变换所确定的质量值。3.根据权利要求1或2所述的方法,其中,使用压缩算法对所述变换后质量值进行压缩。4.根据权利要求1所述的方法,其中,基于特定基因座索引处的所述估计确定性来选择量化特性,所述量化特性将所述质量值字母表的所有质量值与一个或多个量化质量值相关联,其中,通过基于所选择的量化特性将每个所确定的质量值量化为量化后质量值来变换所确定的质量值,其中,将与所选择的量化特性相关的所述估计确定性或量化特性标识符分配给所述特定基因座索引,并且将所述量化后质量值用作变换后质量值。5.根据权利要求4所述的方法,其中,基于所述估计确定性来选择所述量化特性,使得如果第一估计确定性高于第二估计确定性,则以比具有所述第二估计确定性的第二基因座索引处的所确定的质量值更粗略地量化具有所述第一估计确定性的第...
【专利技术属性】
技术研发人员:J·伏格斯,M·海纳斯,J·奥斯特曼,
申请(专利权)人:汉诺威戈特弗里德威廉莱布尼茨大学,斯坦福大学,
类型:发明
国别省市:德国,DE
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。