The embodiment of the invention provides a data processing method used in the data processing system, data processing system includes a reference sample and the first sample set, including: the first traversal sample of all the sample collections of fragments, each of the basic elements of the first statistics statistical reference samples contained in the sample fragments, determine the location of the basic elements of the first statistics is less than a first threshold in the reference samples for the interval position; the reference samples are divided into at least two sub sample interval, any position at least two division division including interval position and other interval position adjacent intervals in adjacent positions and the first sample of all the samples; traversal in the set of second pieces, each sub reference statistics the statistical reference sample containing sample fragments; sub reference samples when any of the adjacent second series When the sum of measurement is less than second threshold, adjacent subreference samples are merged.
【技术实现步骤摘要】
一种数据处理的方法和装置
本专利技术实施例涉及数据处理领域,尤其涉及一种脱氧核糖核酸测序数据的划分处理方法和装置。
技术介绍
脱氧核糖核酸(DeoxyribonucleicAcid,DNA)是一种长链聚合物,由四种脱氧核苷酸组成。脱氧核苷酸由脱氧核糖、磷酸和碱基组成,其中脱氧核糖和磷酸由酯键相连,组成外侧的长链骨架,每个脱氧核糖分子在内侧与四种碱基里的其中一种相接。这些碱基沿着DNA长链排列而形成序列,是蛋白质氨基酸序列合成的依据。组成脱氧核醣核酸的碱基,分別是腺嘌呤、胸腺嘧啶、胞嘧啶与鸟嘌呤。DNA是双链结构,即一条链上的碱基会与另一条链对应位置的碱基配对出现,一般以碱基作为DNA的长度单位。在计算机系统中,分别以字符A、T、C、G表示四种碱基,每个字符占用1个字节,因此也以字节作为碱基序列的长度单位。随着DNA测序技术的进步,基因分析已成为检测和针对性治疗遗传/突变类疾病的重要手段。基因分析由三个必要阶段构成:DNA测序,DNA序列拼装与变异识别,以及基因注释与分析。DNA测序是从DNA分子中准确测定核苷酸排列顺序的过程。由于核苷酸的类型主要由碱基决定,因此测序实质上只需确定碱基的排列顺序。为了提升测序速度,待测基因组会被打断成数十到数百碱基长度的片断,然后由测序仪对几十到几百万条片断进行同时测序,测序后的数十到数百碱基长度的DNA片断称为读串(Read)。另一方面,为了提升测序的准确度和覆盖度(Coverage),高通量测序通常会对待测基因组的目标区域进行重复测序以增加测序深度(SequenceDepth)。所谓覆盖度是指测序获得的序列占目标区域的比 ...
【技术保护点】
一种数据处理方法,应用于数据处理系统,所述数据处理系统包含参考样本和第一样本集合,所述参考样本包括根据预置顺序排列的至少两个基本元素,所述第一样本集合包括至少一个样本片断,所述样本片断包括从所述参考样本中截取的至少一个所述基本元素,其特征在于,包括:遍历所述第一样本集合中的全部所述样本片断,统计所述参考样本的每个所述基本元素包含于所述样本片断的第一统计量,确定所述第一统计量小于第一阈值的所述基本元素在所述参考样本中的位置为间隔位置;将所述参考样本划分成至少两个子参考样本,所述划分的划分点包括不与其它所述间隔位置相邻的所述间隔位置以及相邻的至少两个所述间隔位置中的任一间隔位置;遍历所述第一样本集合中的全部所述样本片断,统计所述参考样本的每个所述子参考样本包含所述样本片断的第二统计量;当任意相邻的所述子参考样本的所述第二统计量之和小于第二阈值时,合并所述相邻的所述子参考样本。
【技术特征摘要】
1.一种数据处理方法,应用于数据处理系统,所述数据处理系统包含参考样本和第一样本集合,所述参考样本包括根据预置顺序排列的至少两个基本元素,所述第一样本集合包括至少一个样本片断,所述样本片断包括从所述参考样本中截取的至少一个所述基本元素,其特征在于,包括:遍历所述第一样本集合中的全部所述样本片断,统计所述参考样本的每个所述基本元素包含于所述样本片断的第一统计量,确定所述第一统计量小于第一阈值的所述基本元素在所述参考样本中的位置为间隔位置;将所述参考样本划分成至少两个子参考样本,所述划分的划分点包括不与其它所述间隔位置相邻的所述间隔位置以及相邻的至少两个所述间隔位置中的任一间隔位置;遍历所述第一样本集合中的全部所述样本片断,统计所述参考样本的每个所述子参考样本包含所述样本片断的第二统计量;当任意相邻的所述子参考样本的所述第二统计量之和小于第二阈值时,合并所述相邻的所述子参考样本。2.根据权利要求1所述的方法,其特征在于,所述统计所述参考样本的每个所述基本元素包含于所述样本片断的第一统计量,包括:遍历所述参考样本的全部所述基本元素,当所述基本元素包含于所述样本片断时,所述基本元素的所述第一统计量加1。3.根据权利要求1或2所述的方法,其特征在于,所述将所述参考样本划分成至少两个子参考样本,包括:遍历所述参考样本的全部所述基本元素,当所述基本元素的所述第一统计量小于所述第一阈值时,确定所述基本元素在所述参考样本中的位置为所述间隔位置;根据所述间隔位置,确定所述划分点;根据所述划分点,将所述参考样本划分成至少两个所述子参考样本。4.根据权利要求1至3任一项所述的方法,其特征在于,所述统计所述参考样本的每个所述子参考样本包含所述样本片断的第二统计量,包括:遍历所述参考样本的全部所述子参考样本,当所述子参考样本包含所述样本片断的至少一个所述基本元素时,所述子参考样本的所述第二统计量加1。5.根据权利要求1至4任一项所述的方法,其特征在于,在所述合并所述相邻的所述子参考样本之后,当所述子参考样本的数量大于第三阈值时,还包括:增大所述第二阈值;当任意相邻的所述子参考样本的所述第二统计量之和小于所述增大后的第二阈值时,合并所述相邻的所述子参考样本。6.根据权利要求1至5任一项所述的方法,所述数据处理系统还包含第二样本集合,所述第二样本集合包括至少两个样本片断,其特征在于,在所述遍历所述第一样本集合中的全部所述样本片断,统计所述参考样本的每个所述基本元素包含于所述样本片断的第一统计量之前,还包括:将所述第二样本集合分割为至少两个所述第一样本集合。7.根据权利要求6所述的方法,其特征在于,所述将所述第二样本集合分割为至少两个所述第一样本集合,包括:确定所述分割的分割点,所述分割点包括从按照所述预置顺序排列的所述参考样本的全部所述基本元素中等间隔选择的预置数目的所述基本元素在所述参考样本中的位置;遍历所述第二样本集合中的全部所述样本片断,根据所述样本片断中根据所述预置顺序排列的第一个所述基本元素在所述参考样本中的位置和所述分割点的位置,确定所述样本片断所在的所述第一样本集合。8.根据权利要求6所述的方法,其特征在于,所述将所述第二样本集合分割为至少两个所述第一样本集合,包括:获得第三样本集合,所述第三样本集合为所述第二样本集合的子集合,所述第三样本集合包括至少两个所述样本片断;遍历所述第三样本集合中的全部所述样本片断,确定所述样本片断中根据所述预置顺序排列的第一个所述基本元素在所述参考样本中的位置;确定所述分割的分割点,所述分割点包括按照所述预置顺序从所述确定的位置中等间隔选择的预置数目的位置;遍历所述第二样本集合中的全部所述样本片断,根据所述样本片断中根据所述预置顺序排列的第一个所述基本元素在所述参考样本中的位置和所述分割点的位置,确定所述样本片断所在的所述第一样本集合。9.根据权利要求7或8所述的方法,其特征在于,所述划分点还包括所述分割点,在所述当任意相邻的所述子参考样本的所述第二统计量之和小于第二阈值时,合并所述相邻的所述子参考样本之前,还包括:当位于所述分割点的所述基本元素的所述第一统计量大于第一阈值时,合并与所述分割点相邻的两个所述子参考样本。10.根据权利要求1至9任一项所述的方法,其特征在于,在所述当任意相邻的所述子参考样本的所述第二统计量之和小于第二阈值时,合并所述相邻的所述子参考样本之后,还包括:确定测试样本集合,所述测试样本集合包括包含于相同所述子参考样本的所述样本片断;以所述测试样本集合为基本处理单元,进行后续数据处理。11.根据权利要求1至9任一项所述的方法,其特征在于,在所述将所述参考样本划分成至少两个子参考样本之后,还包括:确定测试样本集合,所述测试样本集合包括包含于相同所述子参考样本的所述样本片断。12.根据权利要求11所述的方法,其特征在于,在合并所述相邻的所述子参考样本之后,还包括:合并相邻的所述测试样本集合,所述合并的测试样本集合包括包含于合并的所述子参考样本的所述样本片断;以所述测试样本集合为基本处理单元,进行后续数据处理。13.根据权利要求1至12任一项所述的方法,其特征在于,所述基本元素包括:脱氧核糖核酸的碱基数据。14.根据权利要求1至13任一项所述的方法,其特征在于,所述参考样本包括:脱氧核糖核酸的参考序列数据。15.一种数据处理装置,应用于数据处理系统,所述数据处理系统包含参考样本和第一样本集合,所述参考样本包括根据预置顺序排列的至少两个基本元素,所述第一样本集合...
【专利技术属性】
技术研发人员:刘传建,邓利群,黄国位,
申请(专利权)人:华为技术有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。