一种基因大数据分析与计算平台制造技术

技术编号：26732482 阅读：21 留言：0更新日期：2020-12-15 14:36

本发明专利技术公开了一种基因大数据分析与计算平台，涉及基因大数据分析与计算平台领域，该平台由数据读取模块、数据压缩模块、数据分析模块、数据存储模块组成。数据读取模块用于读取DNA测序仪得到的FASTQ数据，并将输入FASTQ数据分割成元数据、碱基和质量分数三个数据流送入数据压缩模块；数据压缩模块将三个数据流独立地压缩：去除元数据流中的重复片段并使用LZMA算法进行压缩；对质量分数流使用游程编码和算术编码压缩；使用匹配工具BWA将短读与参考基因组比对，提取比对结果中的碱基流表达信息并使用LZMA算法、游程编码、算术编码进行压缩；数据分析模块用于将FASTQ数据进行短序列比对，提取比对结果中的SNP突变信息；数据存储模块采用分布式框架将数据放在不同的数据节点中存储，既保证了数据的可靠性，同时增加了数据的安全性。该平台针对DNA序列本身具有的冗余性进行压缩，减少了压缩所需的存储空间。

全部详细技术资料下载

【技术实现步骤摘要】
一种基因大数据分析与计算平台
本专利技术涉及基因数据分析领域，特别涉及一种基因大数据分析与计算平台领域。
技术介绍
计算机作为处理DNA数据的主要工具面临着前所未有的挑战，DNA测序数据的增长速度远远超过了计算机微处理器和存储设备的增长速度。计算机自诞生以来，其性能提高速度基本符合摩尔定律，微处理器性能和存储容量每18和12个月翻一番，然而DNA序列数据每9个月就增加一倍。急剧膨胀的DNA测序数据日益增加，使得存储这些数据的成本亦越来越高。如何高效地存储和管理高通量DNA测序技术和大型基因组项目产生的DNA数据“海啸”已经成为制约DNA测序产业进一步发展的一个重要因素。
技术实现思路
本专利技术所要解决的技术问题是提供一种基因大数据分析与计算平台，该平台针对DNA序列本身具有的冗余性进行压缩，减少了压缩所需的存储空间，同时通过分布式计算和存储方法，提升了计算和分析的性能。为实现上述目的，本专利技术提供以下的技术方案：一种基因大数据分析与计算平台，其特征在于：所述平台包括数据读取模块、数据压缩模块、数据分析模块、数据存储模块；所述数据读取模块用于读取DNA测序仪得到的FASTQ数据，并将输入FASTQ数据分割成元数据、碱基和质量分数三个数据流送入数据压缩模块；所述数据压缩模块采用不同的压缩算法对数据流进行数据压缩；所述数据分析模块用于将FASTQ数据进行短序列比对，提取比对结果中的SNP突变信息；所述数据存储模块用于将压缩后的数据采用分布式的存储方式存入数据库。优选的，所述数据压缩模...

【技术保护点】
1.一种基因大数据分析与计算平台，其特征在于：所述平台包括数据读取模块、数据压缩模块、数据分析模块、数据存储模块；所述数据读取模块用于读取DNA测序仪得到的FASTQ数据，并将输入FASTQ数据分割成元数据、碱基和质量分数三个数据流送入数据压缩模块；所述数据压缩模块采用不同的压缩算法对数据流进行数据压缩；所述数据分析模块用于将FASTQ数据进行短序列比对，提取比对结果中的SNP突变信息；所述数据存储模块用于将压缩后的数据采用分布式的存储方式存入数据库。/n

【技术特征摘要】
1.一种基因大数据分析与计算平台，其特征在于：所述平台包括数据读取模块、数据压缩模块、数据分析模块、数据存储模块；所述数据读取模块用于读取DNA测序仪得到的FASTQ数据，并将输入FASTQ数据分割成元数据、碱基和质量分数三个数据流送入数据压缩模块；所述数据压缩模块采用不同的压缩算法对数据流进行数据压缩；所述数据分析模块用于将FASTQ数据进行短序列比对，提取比对结果中的SNP突变信息；所述数据存储模块用于将压缩后的数据采用分布式的存储方式存入数据库...

【专利技术属性】
技术研发人员：陈墩金，周峻松，徐继峰，祁建明，
申请(专利权)人：广州明领基因科技有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人