一种基因型数据压缩及检索方法、装置、设备及计算机可读存储介质制造方法及图纸

技术编号:42872523 阅读:43 留言:0更新日期:2024-09-27 17:32
本申请提供了一种基因型数据压缩及检索方法、装置、设备及计算机可读存储介质,所述方法包括:对原始基因型数据进行压缩;对压缩后的基因型数据进行编码;将编码后的基因型数据存储到非关系型数据库;从所述非关系型数据库中快速检索到符合预设条件的基因型数据。本申请实施例提供的方案中,通过使用高效的压缩、编码、聚类、排序等方法,有效压缩大样本基因型信息,从而减少多样本基因型数据的存储空间,使基因型信息利于存储、检索等后续处理。并通过数据库联合索引,加速基于染色体位置区间的检索速度,提高数据库查询效率。最后通过快速解码算法获取所有样本的基因型信息,大大减少了基因数据存储成本,提高了数据检索分析效率。

【技术实现步骤摘要】

本申请涉及数据存储,尤其涉及一种基因型数据压缩及检索方法、装置、设备及计算机可读存储介质


技术介绍

1、目前测序技术日益成熟,随之而来的测序成本也在不断降低,基因测序的数据也随之呈现指数爆炸式增长。基因型文件是基因组变异研究的重要基本文件。

2、目前研究中应用广泛的基因型文件,为vcf格式的基因型文件,但是它一般包含了大量的变异位点和样本,导致文件的行数和列数都很大,同时数据的规模也很庞大,大型的测序项目的vcf文件可以达到几百gb,甚至更大,所以目前仍然需要高效的压缩方法。当物种参考基因组很大、或vcf行数和列数很多时不能满足快速的从基因型文件中找到某一个位点或某一区段内样本基因型信息的需求,并且不适用对位点的精细检索。这大大的增加了数据存储成本,降低了数据分析的效率。


技术实现思路

1、本申请的多个方面提供一种基因型数据压缩及检索方法、装置、设备及计算机可读存储介质,通过使用高效的压缩、编码、聚类、排序等方法,有效压缩大样本基因型信息,并通过数据库联合索引,提高数据库查询效率,解决了现有技术本文档来自技高网...

【技术保护点】

1.一种基因型数据压缩及检索方法,其特征在于,包括:

2.根据权利要求1所述的基因型数据压缩及检索方法,其特征在于,所述对原始基因型数据进行压缩进一步包括:

3.根据权利要求2所述的基因型数据压缩及检索方法,其特征在于,所述对压缩后的基因型数据进行数据格式转换进一步包括:

4.根据权利要求1所述的基因型数据压缩及检索方法,其特征在于,所述对压缩后的基因型数据进行编码进一步包括:

5.根据权利要求4所述的基因型数据压缩及检索方法,其特征在于,在利用块排序压缩变换算法对排序后的编码序列进行转换后,所述方法还包括:将连续重复出现的字符序列替换为预...

【技术特征摘要】

1.一种基因型数据压缩及检索方法,其特征在于,包括:

2.根据权利要求1所述的基因型数据压缩及检索方法,其特征在于,所述对原始基因型数据进行压缩进一步包括:

3.根据权利要求2所述的基因型数据压缩及检索方法,其特征在于,所述对压缩后的基因型数据进行数据格式转换进一步包括:

4.根据权利要求1所述的基因型数据压缩及检索方法,其特征在于,所述对压缩后的基因型数据进行编码进一步包括:

5.根据权利要求4所述的基因型数据压缩及检索方法,其特征在于,在利用块排序压缩变换算法对排序后的编码序列进行转换后,所述方法还包括:将连续重复出现的字符序列替换为预设的特殊...

【专利技术属性】
技术研发人员:程佳文田冰川朱虎荣天彪贾高峰
申请(专利权)人:华智生物技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1