【技术实现步骤摘要】
SAM及BAM文件CIGAR域的压缩及解压还原方法、系统和介质
本专利技术涉及生物信息领域的SAM及BAM数据的压缩与还原技术,具体涉及一种SAM及BAM文件CIGAR域的压缩及解压还原方法、系统和介质。
技术介绍
在生物信息学中尤其是高通量测序数据分析中,大部分的操作都是在实现短片段序列与参考序列的比对(mapping),比如bwa、bowtie等,所以需要使用一个统一的格式来表示这种mapping结果的问题。SAM(SequenceAlignmentMap)文件格式就是来解决这个问题的,它是用来存储测序reads与参考序列比对结果信息的一种文件格式,以TAB为分割符,支持不同平台的短读段及长读段(最长为128Mbp)。不过由于SAM文件大小通常较大,所以实际使用时会转换为BAM文件(BinarysequenceAlignmentMap),BAM文件是SAM文件的二进制版,在SAM的基础上运用二进制编码,又极大的压缩了SAM文件的体积。BAM相对SAM节约很大的存储空间,且保留了与SAM完全相同内容信息。目前在BAM文件格式的基础上,继续衍生了CRAM文件格式,相对BAM而言文件大小进一步缩小一半以上,但文件依然较大,让SAM变得更小仍然是生物信息领域需要持续探讨和优化的问题。SAM及BAM文件格式分为headersection(头部分,注释信息,以@开头,可有可无)和alignmentsection(比对结果)两个部分,alignmentsection必须由11个字段组成,以tab分开,分别为QNAME、 ...
【技术保护点】
1.一种SAM及BAM文件CIGAR域的压缩及解压还原方法,其特征在于,针对只有一个操作符的CIGAR域数据的压缩步骤包括:将CIGAR域数据编码为第一指定内容,然后送入压缩器进行压缩;针对只有一个操作符的CIGAR域数据的解压还原步骤包括:在解压还原时,如果解压出CIGAR域的数据为第一指定内容,则将解压出的QUAL域内容的长度作为指定的默认操作符或者第一指定内容携带的操作符的数字部分,并将其和指定的默认操作符或者第一指定内容携带的操作符组合还原出原始CIGAR域的数据。/n
【技术特征摘要】
1.一种SAM及BAM文件CIGAR域的压缩及解压还原方法,其特征在于,针对只有一个操作符的CIGAR域数据的压缩步骤包括:将CIGAR域数据编码为第一指定内容,然后送入压缩器进行压缩;针对只有一个操作符的CIGAR域数据的解压还原步骤包括:在解压还原时,如果解压出CIGAR域的数据为第一指定内容,则将解压出的QUAL域内容的长度作为指定的默认操作符或者第一指定内容携带的操作符的数字部分,并将其和指定的默认操作符或者第一指定内容携带的操作符组合还原出原始CIGAR域的数据。
2.根据权利要求1所述的SAM及BAM文件CIGAR域的压缩及解压还原方法,其特征在于,针对只有两个操作符的CIGAR域数据的压缩步骤包括:将CIGAR域数据编码为只包含其中一个操作符及其数字部分的第二指定内容,然后送入压缩器进行压缩;针对只有一个操作符的CIGAR域数据的解压还原步骤包括:在解压还原时,如果解压出CIGAR域的数据为包含一个操作符及其数字部分的第二指定内容,则将解压出的QUAL域内容的长度减去所述一个操作符的数字部分作为另一个操作符的数字部分,然后将一个操作符及其数字部分、另一个操作符及其数字部分按照指定的顺序组合还原出原始CIGAR域的数据。
3.根据权利要求2所述的SAM及BAM文件CIGAR域的压缩及解压还原方法,其特征在于,所述只有两个操作符的CIGAR域数据包括正则表达式满足“\d+M\d+S”的CIGAR域数据,且其压缩步骤为将“\d+M\d+S”省略“\d+M”部分编码为“\d+S”,然后送入压缩器进行压缩;且其解压还原步骤为在解压还原时,如果解压出CIGAR域的数据只有一个操作符S及其数字部分且满足正则表达式“\d+S”,则将解压出的QUAL域内容的长度减去解压出来的操作符S的数字部分作为原始CIGAR域中操作符M的数字部分,然后将操作符M及其数字部分、操作符S及其数字部分组合还原出正则表达式满足“\d+M\d+S”的原始CIGAR域的数据。
4.根据权利要求2所述的SAM及BAM文件CIGAR域的压缩及解压还原方法,其特征在于,所述只有两个操作符的CIGAR域数据包括正则表达式满足“\d+S\d+M”的CIGAR域数据,且其压缩步骤为将“\d+S\d+M”省略“\d+M”部分并编码为“S\d+”,然后送入压缩器进行压缩;且其解压还原步骤为在解压还原时,如果解压出CIGAR域的数据只有一个操作符S及其数字部分且满足正则表达式“S\d+”,则将解压出的QUAL域内容的长度减去解压出来的操作符S的数字部分作为原始CIGAR域中操作符M的数字部分,然后将操作符M及其数字部分、操作符S及其数字部分组合还原出正则表达式满足“\d+S\d+M”的原始CIGAR域的数据。
5.根据权利要求1或2所述的SAM及BAM文件CIGAR域的压缩及解压还原方法,其特征在于,针对正则表达式中第一个及最后一个操作符均为“\d+M”且包含三个及以上操作符的CIGAR域数据的压缩步骤包括:将CIGAR域数据编码省略第一个操作符M及其数字部分“\d+M”、最后一个操作符的操作符M得到第三指定内容,然后送入压缩器进行压缩;针对正则表达式中第一个及最后一个操作符均为“\d+M”且包含三个及以上操作符的CIGAR域数据的解压还原步骤包括:在解压还原时,如果解压出CIGAR域的数据匹配第三指定内容的正则表达式,则将解压出的QUAL域内容的长度减去解压出CIGAR域的数据中各个操作符的数字部分的总和得到第一个操作符M的数字部分,然后将第一个操作符M及其数字部分、解压出CIGAR域的数据、操作符M三者组合还原出原始CIGAR域的数据。
6.一种SAM及BAM文件CIGAR域的压缩方法,其特征在于,实施步骤包括:
A1)判断目标CIGAR域数...
【专利技术属性】
技术研发人员:徐霞丽,李根,冯博伦,黄能超,赵丽霞,马丑贤,王振国,杨耀,
申请(专利权)人:人和未来生物科技长沙有限公司,
类型:发明
国别省市:湖南;43
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。