基于spark平台的基因数据分析方法技术

技术编号：21632352 阅读：52 留言：0更新日期：2019-07-17 12:14

本发明专利技术提供一种基于spark平台的基因数据分析方法。该方法包括：获取基因测序数据；利用spark平台将所获取的基因测序数据生成弹性分布式数据集RDD，其中，所述弹性分布式数据集RDD包括多个部分；对所述弹性分布式数据集RDD的每个部分执行与参考基因的比对，以生成包含比对结果的弹性分布式数据集RDD。根据本发明专利技术的方法，能够将基因数据分析算法通过spark平台来实现，从而提高基因数据分析的效率和灵活性。

Gene Data Analysis Method Based on Spark Platform

全部详细技术资料下载

【技术实现步骤摘要】
基于spark平台的基因数据分析方法
本专利技术涉及基因数据测序
，尤其涉及一种基于spark平台的基因数据分析方法。
技术介绍
近年来，基因测序技术得到了迅速发展，尤其是二代测序(NGS，Nextgenerationsequence)技术的广泛应用，使得基因测序在疾病监测、生物医疗等领域发挥了重要作用，基因测序相关的医疗产品逐渐成型并展现出巨大的市场潜力。然而，随着二代测序数据量爆炸性的增长，传统的基因数据分析工具和分析方法已经无法满足海量生物数据的处理需求，基因数据的处理速度逐渐成为整个基因测序流程中的瓶颈。尽管国内外针对基因数据处理进行了大量的优化工作，例如，通过分布式并行处理基因数据或针对基因数据分析工具的优化加速等，但总体而言，相对于原始测序数据的产生，基因数据分析的计算效率较低。现有技术中，使用的并行优化方法是基于任务调度和共享存储，通常通过数据划分对各个基因数据步骤进行多机并行，这种方法很难进行进程间通信，在编程模式上受到较大局限，很难对数据依赖情况进行处理。而且数据切分会产生大量中间文件，导致磁盘读写速度慢。另外，由于共享文件系统(例如Lustre等)对大量小文件的支持较差，也限制了基因数据分析程序的并行性。此外，基因数据分析流程会根据具体应用场景的不同进行调整，随着基因测序技术的应用场景不断拓展，基因数据分析流程的开发和调整也较为频繁。目前，大多数基因测序产品的核心手段是通过对基因数据进行比对和清理，检测其中的变异位点并出具相应的检测治疗报告。然而，由于不同数据处理流程涉及的基因样本、算法参数等存在较大的差别，使得针对特定测序流程的...

【技术保护点】
1.一种基于spark平台的基因数据分析方法，包括以下步骤：步骤1：获取基因测序数据；步骤2：利用spark平台将所获取的基因测序数据生成弹性分布式数据集RDD，其中，所述弹性分布式数据集RDD包括多个部分；步骤3：对所述弹性分布式数据集RDD的每个部分执行与参考基因的比对，以生成包含比对结果的弹性分布式数据集RDD。

【技术特征摘要】
1.一种基于spark平台的基因数据分析方法，包括以下步骤：步骤1：获取基因测序数据；步骤2：利用spark平台将所获取的基因测序数据生成弹性分布式数据集RDD，其中，所述弹性分布式数据集RDD包括多个部分；步骤3：对所述弹性分布式数据集RDD的每个部分执行与参考基因的比对，以生成包含比对结果的弹性分布式数据集RDD。2.根据权利要求1所述的基因数据分析方法，其中，在步骤2中，对于双端基因测序数据，执行以下步骤：通过hadoopAPI接口分别将两个基因测序数据文件加载并生成两个弹性分布式数据集RDD；将所述两个弹性分布式数据集RDD合并为一个弹性分布式数据集RDD；根据测序序列的名称进行groupBy操作并通过map操作生成成对的所述弹性分布式数据集RDD。3.根据权利要求1所述的基因数据分析方法，其中，还包括：步骤4：对所述包含比对结果的弹性分布式数据集RDD进行数据清理，以获得去冗余的弹性分布式数据集RDD；步骤5：对所述去冗余的弹性分布式数据集RDD依次执行插入缺失重对齐、碱基质量重校验和变异检测，以确定所述基因测序数据中的变异位点。4.根据权利要求3所述的方法，其中，步骤4包括：对于所述包含比对结果的弹性分布式数据集RDD，去除标志为未比对上、次要的和增补的测序序列；以测序序列名称为键将同名的测序序列分为一组，不存在两个相同测序序列名称的测序序列作为一个片段；生成测序对数据结构并生成用于判断是否冗余的签名，其中，所述签名包括测序序列的重叠群、位置和匹配方向；根据签名将存在冗余的组和片段分为一组；从所划分的组中选择质量分数最高的组或片段，通过flatM...

【专利技术属性】
技术研发人员：谭光明，张中海，牛钢，王炳琛，张春明，
申请(专利权)人：北京哲源科技有限责任公司，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人