当前位置: 首页 > 专利查询>郑州大学专利>正文

一种基于大数据的基因分析方法及系统技术方案

技术编号:33634695 阅读:30 留言:0更新日期:2022-06-02 01:44
本发明专利技术提供了一种基于大数据的基因分析方法及系统,在将基因分析任务提交到大数据平台Hadoop的Yarn后,根据计算节点上各个Map任务对应的基因组数据的切片大小及数量计算所述计算节点上Map任务对应的数据量,获取计算节点的空闲内存大小以及CPU占用率,根据所述Map任务对应的数据量、所述空闲内存大小以及所述CPU占用率,确定Kvbuffer大小;在达到Spill的触发条件后,确定Kvbuffer新的分界点equator,并根据Spill触发频率重新确定Spill的阈值,Spill线程将Kvbuffer中的数据输出到磁盘,当Map阶段结束后,运行Reduce阶段,输出基因分析结果。本发明专利技术避免了频繁在内存和磁盘间复制数据导致基因分析时间过程的问题,有效降低了基因分析的用时。降低了基因分析的用时。降低了基因分析的用时。

【技术实现步骤摘要】
一种基于大数据的基因分析方法及系统


[0001]本申请涉及基因分析领域,尤其涉及基于大数据的基因分析方法及系统。

技术介绍

[0002]基因承载了生物体的遗传信息,其能够通过蛋白质控制生物体的性状,而且研究发现基因还和很多疾病相关,例如癌症就是由于基因突变导致细胞无休止的增长产生的。虽然在DNA测序技术出现后,人们一直在寻找基因和疾病之间的关联关系,例如识别基因中导致某种疾病的变异,但是由于人体的DNA大约含有30亿个碱基对,再加上需要对大量患病和健康的人的基因进行分析,这就形成了海量数据,从海量数据中寻找事物的关联关系并不是一件简单的事情。随着计算机技术的发展,计算机的存储能力和计算能力都有了大幅提升,但是面对TB、PB级别的数据还是无能为力。
[0003]大数据技术的出现,为基因分析提出了一种新的解决方案。所谓大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合。现在应用最为广泛的大数据技术是Hadoop,Hadoop框架包括三个核心组件,分别为Yarn和HDFS、MapReduce等,其中HDFS是分布式文件本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于大数据的基因分析方法,其特征在于,所述方法包括以下步骤:S1,通过客户端将基因分析任务提交到Yarn,根据分布式文件系统存储的基因组数据量确定开启的Map和Reduce个数,并向各个计算节点分发MapReduce计算任务;S2,根据计算节点上各个Map任务对应的基因组数据的切片大小及数量计算所述计算节点上Map任务对应的数据量,获取计算节点的空闲内存大小以及CPU占用率,根据所述Map任务对应的数据量、所述空闲内存大小以及所述CPU占用率,确定Kvbuffer大小;S3,在达到Spill的触发条件后,确定Kvbuffer新的分界点equator,并根据Spill触发频率重新确定Spill的阈值,Spill线程将Kvbuffer中的数据输出到磁盘,当Map阶段结束后,运行Reduce阶段,输出基因分析结果。2.如权利要求1所述的方法,其特征在于,所述根据所述Map任务对应的数据量、所述空闲内存大小以及所述CPU占用率,确定Kvbuffer大小,具体为:按照公式计算Kvbuffer的大小,其中Memory
idle
表示所述计算节点的空闲内存大小,Kvbuffer'表示配置的默认Kvbuffer大小,r
cpu
表示所述CPU占用率,Data表示所述Map任务对应的数据量。3.如权利要求1所述的方法,其特征在于,所述在达到Spill的触发条件后,确定Kvbuffer新的分界点equator,具体为:当达到Spill的触发条件后,计算得到kvindex和原分界点equator之间Kvbuffer大小k1,以及bufindex和原分界点equator之间Kvbuffer大小k2,以及kvindex和bufindex之间空闲Kvbuffer大小k3,将k3按照k1和k2的比值分为两部分,将两部分的界限作为新的分界点equator。4.如权利要求3所述的方法,其特征在于,所述根据Spill触发频率重新确定Spill的阈值,具体为:若所述Spill触发频率f大于第一阈值根据公式计算Spill的阈值thr,并判断根据公式计算Spill的阈值thr是否超过预设上限值,若超过,则取预设上限值作为新确定的Spill的阈值,否则将作为新确定的Spill的阈值;若所述Spill触发频率f小于第二阈值则根据公式thr=thr'*k计算Spill的阈值thr,其中k为减少幅度,0<k<1;若所述Spill触发频率f位于之间,则保持Spill的阈值不变。5.如权利要求1

4任一项所述的方法,其特征在于,在所述S3后,还包括:将所述基因分析结果以图形化界面显示。6.一种基于大数据的基因分析系统,其特征在于,所...

【专利技术属性】
技术研发人员:马骞宋晓琴白睿敏伍东红高金玲谷倬宇车凌仪陈义兵
申请(专利权)人:郑州大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1