【技术实现步骤摘要】
一种面向基因组变异数据的位图索引压缩方法
[0001]本专利技术属于信息检索、大数据分析领域,具体涉及一种面向基因组变异数据的位图索引压缩方法。
技术介绍
[0002]二十一世纪以来,伴随着人类生命科学技术的迅猛发展,生命科学领域产生了不可估量的数据,而高通量测序技术的普及,使数据的增长速度到达了新的高点。例如,Pac Bio RS II测序仪在3小时内可产生375MB的数据;Illumina公司最新的推出的HISEQ X TEN测序仪3天内测序约1.8TB的碱基数据。除了基因变异数据,蛋白质组学数据也正在急剧增长,这些庞大数据的保存成为了生物医学领域的关键问题。因此,世界各国纷纷建立面向生物医学健康领域的大数据中心。欧洲早在1987年就成立了欧洲生物信息学研究所(EBI),该机构建立了包括核酸和蛋白序列、基因和基因表达、蛋白质结构、小分子代谢、本体等方面的几十个权威数据库,其中的核酸序列数据库目前已有约37亿条记录,包含约7700亿个碱基数据,所有数据库的数据总量超过20PB。相应地,美国也在1988年成立了美国国家生物技 ...
【技术保护点】
【技术特征摘要】
1.一种面向基因组变异数据的位图索引压缩方法,其特征在于,包括:S1、对VCF格式的基因组变异数据进行预处理,将预处理后的样本基因型信息保存到Kudu列式数据库中;S2、统计Kudu列式数据库中每一列的样本基因型信息的列属性值,为每个列属性值构建一个全0的位图向量,依次读取该列的每一个基因型样本信息,若基因型样本信息等于某个列属性值,则将该列属性值对应的位图向量中这条记录对应的位置为1,得到每个列属性的位图索引;S3、将包含n个比特的每个列属性的位图索引分割成相同长度的比特片段;S4、将分割后的比特片段首尾对齐,将首尾对齐后的比特片段根据所有比特分段在某一位上的取值是否完全相同划分为公共部分和非公共部分;S5、将所有比特片段中的公共部分合并存储在一个名为α[i](i=0,1
…
)的数组中,将所有比特片段中的非公共部分组成一个β[i](i=0,1
…
)数组,其中,i表示数组中存储的元素数量;S6、对α数组采用游程长度编码压缩存储,对β数组根据数据密度采用整数列表或者比特序列数组存储。2.根据权利要求1所述的一种面向基因组变异数据的位图索引压缩方法,其特征在于,对VCF格式的基因组变异数据进行预处理以及保存到列式数据库中,包括:将VCF格式的基因组变异数据的“##”头部数据信息切除,并将切除头部数据信息的VCF格式的基因组变异数据纵向切分出元数据信息和样本基因型信息,...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。