【技术实现步骤摘要】
一种基于大数据的基因分析方法及系统
[0001]本申请涉及基因分析领域,尤其涉及基于大数据的基因分析方法及系统。
技术介绍
[0002]基因承载了生物体的遗传信息,其能够通过蛋白质控制生物体的性状,而且研究发现基因还和很多疾病相关,例如癌症就是由于基因突变导致细胞无休止的增长产生的。虽然在DNA测序技术出现后,人们一直在寻找基因和疾病之间的关联关系,例如识别基因中导致某种疾病的变异,但是由于人体的DNA大约含有30亿个碱基对,再加上需要对大量患病和健康的人的基因进行分析,这就形成了海量数据,从海量数据中寻找事物的关联关系并不是一件简单的事情。随着计算机技术的发展,计算机的存储能力和计算能力都有了大幅提升,但是面对TB、PB级别的数据还是无能为力。
[0003]大数据技术的出现,为基因分析提出了一种新的解决方案。所谓大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合。现在应用最为广泛的大数据技术是Hadoop,Hadoop框架包括三个核心组件,分别为Yarn和HDFS、MapReduce等,其中 ...
【技术保护点】
【技术特征摘要】
1.一种基于大数据的基因分析方法,其特征在于,所述方法包括以下步骤:S1,通过客户端将基因分析任务提交到Yarn,根据分布式文件系统存储的基因组数据量确定开启的Map和Reduce个数,并向各个计算节点分发MapReduce计算任务;S2,根据计算节点上各个Map任务对应的基因组数据的切片大小及数量计算所述计算节点上Map任务对应的数据量,获取计算节点的空闲内存大小以及CPU占用率,根据所述Map任务对应的数据量、所述空闲内存大小以及所述CPU占用率,确定Kvbuffer大小;S3,在达到Spill的触发条件后,确定Kvbuffer新的分界点equator,并根据Spill触发频率重新确定Spill的阈值,Spill线程将Kvbuffer中的数据输出到磁盘,当Map阶段结束后,运行Reduce阶段,输出基因分析结果。2.如权利要求1所述的方法,其特征在于,所述根据所述Map任务对应的数据量、所述空闲内存大小以及所述CPU占用率,确定Kvbuffer大小,具体为:按照公式计算Kvbuffer的大小,其中Memory
idle
表示所述计算节点的空闲内存大小,Kvbuffer'表示配置的默认Kvbuffer大小,r
cpu
表示所述CPU占用率,Data表示所述Map任务对应的数据量。3.如权利要求1所述的方法,其特征在于,所述在达到Spill的触发条件后,确定Kvbuffer新的分界点equator,具体为:当达到Spill的触发条件后,计算得到kvindex和原分界点equator之间Kvbuffer大小k1,以及bufindex和原分界点equator之间Kvbuffer大小k2,以及kvindex和bufindex之间空闲Kvbuffer大小k3,将k3按照k1和k2的比值分为两部分,将两部分的界限作为新的分界点equator。4.如权利要求3所述的方法,其特征在于,所述根据Spill触发频率重新确定Spill的阈值,具体为:若所述Spill触发频率f大于第一阈值根据公式计算Spill的阈值thr,并判断根据公式计算Spill的阈值thr是否超过预设上限值,若超过,则取预设上限值作为新确定的Spill的阈值,否则将作为新确定的Spill的阈值;若所述Spill触发频率f小于第二阈值则根据公式thr=thr'*k计算Spill的阈值thr,其中k为减少幅度,0<k<1;若所述Spill触发频率f位于之间,则保持Spill的阈值不变。5.如权利要求1
‑
4任一项所述的方法,其特征在于,在所述S3后,还包括:将所述基因分析结果以图形化界面显示。6.一种基于大数据的基因分析系统,其特征在于,所...
【专利技术属性】
技术研发人员:马骞,宋晓琴,白睿敏,伍东红,高金玲,谷倬宇,车凌仪,陈义兵,
申请(专利权)人:郑州大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。