一种数据处理的方法和装置制造方法及图纸

技术编号:17212020 阅读:29 留言:0更新日期:2018-02-07 23:11
本发明专利技术实施例提供一种数据处理方法,应用于数据处理系统,数据处理系统包含参考样本和第一样本集合,包括:遍历第一样本集合中的全部样本片断,统计参考样本的每个基本元素包含于样本片断的第一统计量,确定第一统计量小于第一阈值的基本元素在参考样本中的位置为间隔位置;将参考样本划分成至少两个子参考样本,划分的划分点包括不与其它间隔位置相邻的间隔位置以及相邻的至少两个间隔位置中的任一间隔位置;遍历第一样本集合中的全部样本片断,统计参考样本的每个子参考样本包含样本片断的第二统计量;当任意相邻的子参考样本的第二统计量之和小于第二阈值时,合并相邻的子参考样本。

A method and device for data processing

The embodiment of the invention provides a data processing method used in the data processing system, data processing system includes a reference sample and the first sample set, including: the first traversal sample of all the sample collections of fragments, each of the basic elements of the first statistics statistical reference samples contained in the sample fragments, determine the location of the basic elements of the first statistics is less than a first threshold in the reference samples for the interval position; the reference samples are divided into at least two sub sample interval, any position at least two division division including interval position and other interval position adjacent intervals in adjacent positions and the first sample of all the samples; traversal in the set of second pieces, each sub reference statistics the statistical reference sample containing sample fragments; sub reference samples when any of the adjacent second series When the sum of measurement is less than second threshold, adjacent subreference samples are merged.

【技术实现步骤摘要】
一种数据处理的方法和装置
本专利技术实施例涉及数据处理领域,尤其涉及一种脱氧核糖核酸测序数据的划分处理方法和装置。
技术介绍
脱氧核糖核酸(DeoxyribonucleicAcid,DNA)是一种长链聚合物,由四种脱氧核苷酸组成。脱氧核苷酸由脱氧核糖、磷酸和碱基组成,其中脱氧核糖和磷酸由酯键相连,组成外侧的长链骨架,每个脱氧核糖分子在内侧与四种碱基里的其中一种相接。这些碱基沿着DNA长链排列而形成序列,是蛋白质氨基酸序列合成的依据。组成脱氧核醣核酸的碱基,分別是腺嘌呤、胸腺嘧啶、胞嘧啶与鸟嘌呤。DNA是双链结构,即一条链上的碱基会与另一条链对应位置的碱基配对出现,一般以碱基作为DNA的长度单位。在计算机系统中,分别以字符A、T、C、G表示四种碱基,每个字符占用1个字节,因此也以字节作为碱基序列的长度单位。随着DNA测序技术的进步,基因分析已成为检测和针对性治疗遗传/突变类疾病的重要手段。基因分析由三个必要阶段构成:DNA测序,DNA序列拼装与变异识别,以及基因注释与分析。DNA测序是从DNA分子中准确测定核苷酸排列顺序的过程。由于核苷酸的类型主要由碱基决定,因此测序实质上只需确定碱基的排列顺序。为了提升测序速度,待测基因组会被打断成数十到数百碱基长度的片断,然后由测序仪对几十到几百万条片断进行同时测序,测序后的数十到数百碱基长度的DNA片断称为读串(Read)。另一方面,为了提升测序的准确度和覆盖度(Coverage),高通量测序通常会对待测基因组的目标区域进行重复测序以增加测序深度(SequenceDepth)。所谓覆盖度是指测序获得的序列占目标区域的比例。由于基因组中重复序列等复杂结构的存在,测序最终拼接组装获得的序列往往无法覆盖所有的区域,这部分没有覆盖的区域就称为间隙(Gap)。所谓测序深度是指测序得到的总碱基数与待测基因组大小的比值。DNA序列拼装与变异识别是利用计算机方法将测序仪输出的碱基序列读串拼装为DNA序列,并通过比对待测基因组的参考序列发现变异碱基位点的过程。读串需要回贴(Mapping)到参考序列才能确定其在待测基因组中的原始坐标。由于人类DNA本身有很多重复碱基序列,部分读串可能被回贴到多个位置。SAM(SequenceAlignment/Map)格式是一种通用的比对格式,用来存储读串到参考序列的比对信息。在SAM文件中,除注释行外,每一行包含一个读串及其比对信息,比如,读串被回贴到的染色体编号,以及读串被回贴到的染色体的第一个起始位置,这些信息就是读串在参考序列上的坐标。SAM文件中的数据记录称为SAM数据(SAMRecords)。基因注释与分析是指通过生物信息学方法,结合蛋白组学、转录组学,分析测序结果,识别基因及其功能,并挖掘变异点与相关疾病之间的关系。在基因分析的上述三个必要阶段中,DNA序列拼装与变异识别是涉及生物领域较少且需要大量计算开销的环节。在实际中由于DNA测序在各染色体区域的测序深度不同以及测序数据在经过若干步骤后处理结果的分布不均等诸多可能因素,常常导致DNA序列拼装与变异识别环节不能合理地分配计算资源对DNA测序环节的结果进行分析。
技术实现思路
本专利技术的实施例提供一种数据处理的方法和装置,用以合理地提高待处理数据的执行并行度,提高数据处理的速度和效率。为达到上述目的,本专利技术的实施例采用如下技术方案:在第一方面,本专利技术实施例提供了一种数据处理方法,应用于数据处理系统,数据处理系统包含参考样本和第一样本集合,参考样本包括根据预置顺序排列的至少两个基本元素,第一样本集合包括至少一个样本片断,样本片断包括从参考样本中截取的至少一个基本元素,包括:遍历第一样本集合中的全部样本片断,统计参考样本的每个基本元素包含于样本片断的第一统计量,确定第一统计量小于第一阈值的基本元素在参考样本中的位置为间隔位置;将参考样本划分成至少两个子参考样本,划分的划分点包括不与其它间隔位置相邻的间隔位置以及相邻的至少两个间隔位置中的任一间隔位置;遍历第一样本集合中的全部样本片断,统计参考样本的每个子参考样本包含样本片断的第二统计量;当任意相邻的子参考样本的第二统计量之和小于第二阈值时,合并相邻的子参考样本。在第一方面的一种可行的实施方式中,统计参考样本的每个基本元素包含于样本片断的第一统计量,包括:遍历参考样本的全部基本元素,当基本元素包含于样本片断时,基本元素的第一统计量加1。在第一方面的另一种可行的实施方式中,遍历参考样本的全部基本元素,当基本元素的第一统计量小于第一阈值时,确定基本元素在参考样本中的位置为间隔位置;根据间隔位置,确定划分点;根据划分点,将参考样本划分成至少两个子参考样本。在第一方面的另一种可行的实施方式中,统计参考样本的每个子参考样本包含样本片断的第二统计量,包括:遍历参考样本的全部子参考样本,当子参考样本包含样本片断的至少一个基本元素时,子参考样本的第二统计量加1。以上几种示例性的实施方式的有益效果在于:通过确定样本片断在参考样本中的相对稀疏的位置,合理地对样本片断进行分组处理,在保证测试效果的同时,提高了数据处理的速度和效率。在第一方面的另一种可行的实施方式中,在合并相邻的子参考样本之后,当子参考样本的数量大于第三阈值时,还包括:增大第二阈值;当任意相邻的子参考样本的第二统计量之和小于增大后的第二阈值时,合并相邻的子参考样本。本实施方式的有益效果在于:通过迭代地合并子参考样本的,最终获得符合实际需要的数据处理的并行度。在第一方面的另一种可行的实施方式中,数据处理系统还包含第二样本集合,第二样本集合包括至少两个样本片断,在遍历第一样本集合中的全部样本片断,统计参考样本的每个基本元素包含于样本片断的第一统计量之前,还包括:将第二样本集合分割为至少两个第一样本集合。在第一方面的另一种可行的实施方式中,将第二样本集合分割为至少两个第一样本集合,包括:确定分割的分割点,分割点包括从按照预置顺序排列的参考样本的全部基本元素中等间隔选择的预置数目的基本元素在参考样本中的位置;遍历第二样本集合中的全部样本片断,根据样本片断中根据预置顺序排列的第一个基本元素在参考样本中的位置和分割点的位置,确定样本片断所在的第一样本集合。在第一方面的另一种可行的实施方式中,将第二样本集合分割为至少两个第一样本集合,包括:获得第三样本集合,第三样本集合为第二样本集合的子集合,第三样本集合包括至少两个样本片断;遍历第三样本集合中的全部样本片断,确定样本片断中根据预置顺序排列的第一个基本元素在参考样本中的位置;确定分割的分割点,分割点包括按照预置顺序从确定的位置中等间隔选择的预置数目的位置;遍历第二样本集合中的全部样本片断,根据样本片断中根据预置顺序排列的第一个基本元素在参考样本中的位置和分割点的位置,确定样本片断所在的第一样本集合。在第一方面的另一种可行的实施方式中,划分点还包括分割点,在当任意相邻的子参考样本的第二统计量之和小于第二阈值时,合并相邻的子参考样本之前,还包括:当位于分割点的基本元素的第一统计量大于第一阈值时,合并与分割点相邻的两个子参考样本。在第一方面的另一种可行的实施方式中,划分点还包括分割点,在当任意相邻的子参考样本的第二统计量之和小于第二阈值时,合并相邻的子参考样本之前本文档来自技高网
...
一种数据处理的方法和装置

【技术保护点】
一种数据处理方法,应用于数据处理系统,所述数据处理系统包含参考样本和第一样本集合,所述参考样本包括根据预置顺序排列的至少两个基本元素,所述第一样本集合包括至少一个样本片断,所述样本片断包括从所述参考样本中截取的至少一个所述基本元素,其特征在于,包括:遍历所述第一样本集合中的全部所述样本片断,统计所述参考样本的每个所述基本元素包含于所述样本片断的第一统计量,确定所述第一统计量小于第一阈值的所述基本元素在所述参考样本中的位置为间隔位置;将所述参考样本划分成至少两个子参考样本,所述划分的划分点包括不与其它所述间隔位置相邻的所述间隔位置以及相邻的至少两个所述间隔位置中的任一间隔位置;遍历所述第一样本集合中的全部所述样本片断,统计所述参考样本的每个所述子参考样本包含所述样本片断的第二统计量;当任意相邻的所述子参考样本的所述第二统计量之和小于第二阈值时,合并所述相邻的所述子参考样本。

【技术特征摘要】
1.一种数据处理方法,应用于数据处理系统,所述数据处理系统包含参考样本和第一样本集合,所述参考样本包括根据预置顺序排列的至少两个基本元素,所述第一样本集合包括至少一个样本片断,所述样本片断包括从所述参考样本中截取的至少一个所述基本元素,其特征在于,包括:遍历所述第一样本集合中的全部所述样本片断,统计所述参考样本的每个所述基本元素包含于所述样本片断的第一统计量,确定所述第一统计量小于第一阈值的所述基本元素在所述参考样本中的位置为间隔位置;将所述参考样本划分成至少两个子参考样本,所述划分的划分点包括不与其它所述间隔位置相邻的所述间隔位置以及相邻的至少两个所述间隔位置中的任一间隔位置;遍历所述第一样本集合中的全部所述样本片断,统计所述参考样本的每个所述子参考样本包含所述样本片断的第二统计量;当任意相邻的所述子参考样本的所述第二统计量之和小于第二阈值时,合并所述相邻的所述子参考样本。2.根据权利要求1所述的方法,其特征在于,所述统计所述参考样本的每个所述基本元素包含于所述样本片断的第一统计量,包括:遍历所述参考样本的全部所述基本元素,当所述基本元素包含于所述样本片断时,所述基本元素的所述第一统计量加1。3.根据权利要求1或2所述的方法,其特征在于,所述将所述参考样本划分成至少两个子参考样本,包括:遍历所述参考样本的全部所述基本元素,当所述基本元素的所述第一统计量小于所述第一阈值时,确定所述基本元素在所述参考样本中的位置为所述间隔位置;根据所述间隔位置,确定所述划分点;根据所述划分点,将所述参考样本划分成至少两个所述子参考样本。4.根据权利要求1至3任一项所述的方法,其特征在于,所述统计所述参考样本的每个所述子参考样本包含所述样本片断的第二统计量,包括:遍历所述参考样本的全部所述子参考样本,当所述子参考样本包含所述样本片断的至少一个所述基本元素时,所述子参考样本的所述第二统计量加1。5.根据权利要求1至4任一项所述的方法,其特征在于,在所述合并所述相邻的所述子参考样本之后,当所述子参考样本的数量大于第三阈值时,还包括:增大所述第二阈值;当任意相邻的所述子参考样本的所述第二统计量之和小于所述增大后的第二阈值时,合并所述相邻的所述子参考样本。6.根据权利要求1至5任一项所述的方法,所述数据处理系统还包含第二样本集合,所述第二样本集合包括至少两个样本片断,其特征在于,在所述遍历所述第一样本集合中的全部所述样本片断,统计所述参考样本的每个所述基本元素包含于所述样本片断的第一统计量之前,还包括:将所述第二样本集合分割为至少两个所述第一样本集合。7.根据权利要求6所述的方法,其特征在于,所述将所述第二样本集合分割为至少两个所述第一样本集合,包括:确定所述分割的分割点,所述分割点包括从按照所述预置顺序排列的所述参考样本的全部所述基本元素中等间隔选择的预置数目的所述基本元素在所述参考样本中的位置;遍历所述第二样本集合中的全部所述样本片断,根据所述样本片断中根据所述预置顺序排列的第一个所述基本元素在所述参考样本中的位置和所述分割点的位置,确定所述样本片断所在的所述第一样本集合。8.根据权利要求6所述的方法,其特征在于,所述将所述第二样本集合分割为至少两个所述第一样本集合,包括:获得第三样本集合,所述第三样本集合为所述第二样本集合的子集合,所述第三样本集合包括至少两个所述样本片断;遍历所述第三样本集合中的全部所述样本片断,确定所述样本片断中根据所述预置顺序排列的第一个所述基本元素在所述参考样本中的位置;确定所述分割的分割点,所述分割点包括按照所述预置顺序从所述确定的位置中等间隔选择的预置数目的位置;遍历所述第二样本集合中的全部所述样本片断,根据所述样本片断中根据所述预置顺序排列的第一个所述基本元素在所述参考样本中的位置和所述分割点的位置,确定所述样本片断所在的所述第一样本集合。9.根据权利要求7或8所述的方法,其特征在于,所述划分点还包括所述分割点,在所述当任意相邻的所述子参考样本的所述第二统计量之和小于第二阈值时,合并所述相邻的所述子参考样本之前,还包括:当位于所述分割点的所述基本元素的所述第一统计量大于第一阈值时,合并与所述分割点相邻的两个所述子参考样本。10.根据权利要求1至9任一项所述的方法,其特征在于,在所述当任意相邻的所述子参考样本的所述第二统计量之和小于第二阈值时,合并所述相邻的所述子参考样本之后,还包括:确定测试样本集合,所述测试样本集合包括包含于相同所述子参考样本的所述样本片断;以所述测试样本集合为基本处理单元,进行后续数据处理。11.根据权利要求1至9任一项所述的方法,其特征在于,在所述将所述参考样本划分成至少两个子参考样本之后,还包括:确定测试样本集合,所述测试样本集合包括包含于相同所述子参考样本的所述样本片断。12.根据权利要求11所述的方法,其特征在于,在合并所述相邻的所述子参考样本之后,还包括:合并相邻的所述测试样本集合,所述合并的测试样本集合包括包含于合并的所述子参考样本的所述样本片断;以所述测试样本集合为基本处理单元,进行后续数据处理。13.根据权利要求1至12任一项所述的方法,其特征在于,所述基本元素包括:脱氧核糖核酸的碱基数据。14.根据权利要求1至13任一项所述的方法,其特征在于,所述参考样本包括:脱氧核糖核酸的参考序列数据。15.一种数据处理装置,应用于数据处理系统,所述数据处理系统包含参考样本和第一样本集合,所述参考样本包括根据预置顺序排列的至少两个基本元素,所述第一样本集合...

【专利技术属性】
技术研发人员:刘传建邓利群黄国位
申请(专利权)人:华为技术有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1