一种对组装序列排序的方法及系统技术方案

技术编号:21631072 阅读:26 留言:0更新日期:2019-07-17 11:46
本发明专利技术公开了一种对组装序列排序的方法及系统,该方法包括:对DNA测序片段进行组装后的目标重叠群进行切分处理,获得目标数据;对目标数据进行定向和排序处理,获得若干个排列结果;计算每种排列结果的交联信号值的离散程度,并计算获得目标数据中的切分序列的挂载率,切分序列表征对重叠群按照预设切分长度进行切分后的序列;依据离散程度和挂载率,确定初始排列结果;将初始排列结果进行互作热图验证,若满足预设验证条件,则将初始排列结果确定为目标排列结果,若不满足,则对初始排列结果进行调整,获得目标排列结果。通过本发明专利技术解决了现有技术排序不准确的问题及可以实现对有明显组装错误的重叠组进行纠错。

A Method and System for Sorting Assembly Sequences

【技术实现步骤摘要】
一种对组装序列排序的方法及系统本申请要求于2019年3月4日提交中国专利局、申请号为201910160446.3、专利技术名称为“一种对组装序列排序的方法及系统”的中国专利申请的优先权,其全部内容通过引用结合在本申请中。
本专利技术涉及生物信息
,特别是涉及一种对组装序列排序的方法及系统。
技术介绍
DNA是生物体遗传信息的主要载体,高质量的基因组参考序列是现代遗传学、分子生物学等现代生物科学的重要基础。因此,基因测序对探索与认识生命本质等基础生物科学研究、人类重要遗传病防治及动植物遗传育种等应用性研究均具有十分重要的意义。真实状态中的细胞核是一个狭小的三维立体空间,直链分子结构的DNA会以复杂的卷曲方式位于细胞核内,原一维DNA序列被赋予三维空间构象,并导致了大量复杂的基因控制作用方式,因此,简单的一维DNA序列信息由于不能提供真实DNA空间分布相关的信息,无法满足现有的分析需求。可结合染色质三维构象技术、高通量测序技术、生物信息分析方法,研究全基因组范围内整个染色质DNA在空间位置上的关系,获得高分辨率的染色质三维结构信息。基于染色质三维构象测序数据中染色质片段间的交互强度呈现出随距离衰减的规律,染色质三维构象测序序列可以用于基因组组装,即将杂乱的基因序列组装到染色体水平。在现有技术中通常是通过生物信息学手段利用染色质三维构象测序数据,实现基因组组装目的的。在此过程中需要通过聚类、排序、定向等步骤,然后,通过生成相应的基因交互组热图来评估基因组装结果,若组装结果好的染色体做出的热图,其交联信号应集中在热图的对角线区域,但是,在实际生成的热图在非对角线区域显示强交互信号,而造成这种现象的主要原因是排序不准确的问题。
技术实现思路
针对于上述问题,本专利技术提供一种组装序列排序方法及系统,解决了现有技术中数据排序不准确的问题。为了实现上述目的,本专利技术提供了如下技术方案:一种对组装序列排序的方法,该方法包括:对DNA测序片段进行组装后的目标重叠群进行切分处理,获得目标数据;对所述目标数据进行定向和排序处理,获得若干个排列结果;计算每种排列结果的交联信号强度的离散程度,并计算获得所述目标数据中的切分序列的挂载率,所述切分序列表征对所述目标重叠群按照预设切分长度进行切分后的序列;依据所述离散程度和所述挂载率,确定初始排列结果;将所述初始排列结果进行互作热图验证,若满足预设验证条件,则将所述初始排列结果确定为目标排列,若不满足,则对所述初始排列结果进行调整,获得目标排列。可选地,所述对DNA测序片段进行组装后的目标重叠群进行切分处理,获得目标数据,包括:将染色质三维构象测序序列比对到所述目标重叠群上,根据所述目标重叠群之间的交联信号强度进行聚类处理,获得若干个聚类组;对每个所述聚类组中的目标重叠群,按照预设切分长度进行切分处理,获得切分序列。可选地,所述对DNA测序片段进行组装后的目标重叠群进行切分处理,获得目标数据,包括:对所述目标重叠群按照预设切分长度进行切分处理,获得切分序列;将染色质三维构象测序序列比对到所述切分序列上,根据每个切分序列之间的交联信号强度对所述切分序列进行聚类,获得若干个聚类组。可选地,所述对DNA测序片段进行组装后的目标重叠群进行切分处理,获得目标数据,包括:将染色质三维构象测序序列比对到所述目标重叠群上,并对所述目标重叠群按照预设切分长度进行切分处理,获得切分序列;根据每个切分序列之间的交联信号强度对所述切分序列进行聚类,获得若干个聚类组。可选地,所述目标重叠群为针对整个基因组的重叠群或者待处理的部分基因组的重叠群。可选地,该方法包括:响应于目标重叠群中聚类到目标聚类组的切分序列数量大于预设数量阈值,将所述目标重叠群划分至所述目标聚类组;若所述目标重叠群中达到预设位置阈值对应的位置连续的切分序列被划分至不同的聚类组,将所述目标重叠群根据切分序列的位置进行切分,并将切分后的重叠群划分至对应的聚类组。可选地,所述对所述目标数据进行定向和排序处理,获得若干个排列结果,包括:遍历所有目标重叠群,分别以该重叠群的首尾两个切分序列作为所述重叠群的起始位置,将所述起始位置对应的切分序列记为第一序列;依据切分序列之间的交联信号强度,依次确定排列在所述第一序列之后的切分序列,获得若干个排列结果。可选地,所述计算每种排列结果的交联信号强度的离散程度,并计算获得所述目标数据中的切分序列的挂载率,包括:依据每个排列结果中进行排序的切分序列的数量和切分序列的总数量,计算获得切分序列的挂载率;依据每个排列结果中任意两个切分序列之间的距离,和所述两个切分序列的交联信号强度,计算获得所述离散程度。可选地,所述依据所述离散程度和所述挂载率,确定初始排列结果,包括:根据所述挂载率,确定候选排列结果;将所述候选排列结果中所述离散程度最小的排列结果,确定为初始排列结果。一种对组装序列排序的系统,该系统包括:切分单元,用于对DNA测序片段进行组装后的目标重叠群进行切分处理,获得目标数据;排序单元,用于对所述目标数据进行定向和排序处理,获得若干个排列结果;计算单元,用于计算每种排列结果的交联信号强度的离散程度,并计算获得所述目标数据中的切分序列的挂载率,所述切分序列表征对所述目标重叠群按照预设切分长度进行切分后的序列;确定单元,用于依据所述离散程度和所述挂载率,确定初始排列结果;验证单元,用于将所述初始排列结果进行互作热图验证,若满足预设验证条件,则将所述初始排列结果确定为目标排列,若不满足,则对所述初始排列结果进行调整,获得目标排列。相较于现有技术,本专利技术提供了一种组装序列排序方法及系统,对DNA测序片段进行组装后的目标重叠群进行切分处理,其中,切分处理可以将重叠群切分成相同大小的切分序列,从而减少由于重叠群长度不同在均一化交联信号强度使的误差,提高聚类准确性。同时,基于切分后的切分序列进行定向和排序,可以实现将排序和定向同时进行,并且基于切分序列进行聚类或者排序,可以对有明显组装错误的重叠组进行纠错。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。图1为本专利技术实施例提供的一种对组装序列进行排序的方法的流程示意图;图2为本专利技术实施例提供的一种染色质三维构象实验流程的示意图;图3为本专利技术实施例提供的一种对组装序列进行排序的流程示意图;图4为本专利技术提供的一种双子叶植物组装序列排序后互作热图;图5为本专利技术实施例提供的四种排序结果对应的互作热图;图6为本专利技术提供的另一种双子叶植物组装序列排序后互作热图;图7为本专利技术实施例提供的一种组装序列排序系统的结构示意图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。本专利技术的说明书和权利要求书及上述附图中的术语“第一”和“第二”等是用于区别不同的对象,而不是本文档来自技高网
...

【技术保护点】
1.一种对组装序列排序的方法,其特征在于,该方法包括:对DNA测序片段进行组装后的目标重叠群进行切分处理,获得目标数据;对所述目标数据进行定向和排序处理,获得若干个排列结果;计算每种排列结果的交联信号强度的离散程度,并计算获得所述目标数据中的切分序列的挂载率,所述切分序列表征对所述目标重叠群按照预设切分长度进行切分后的序列;依据所述离散程度和所述挂载率,确定初始排列结果;将所述初始排列结果进行互作热图验证,若满足预设验证条件,则将所述初始排列结果确定为目标排列,若不满足,则对所述初始排列结果进行调整,获得目标排列。

【技术特征摘要】
2019.03.04 CN 20191016044631.一种对组装序列排序的方法,其特征在于,该方法包括:对DNA测序片段进行组装后的目标重叠群进行切分处理,获得目标数据;对所述目标数据进行定向和排序处理,获得若干个排列结果;计算每种排列结果的交联信号强度的离散程度,并计算获得所述目标数据中的切分序列的挂载率,所述切分序列表征对所述目标重叠群按照预设切分长度进行切分后的序列;依据所述离散程度和所述挂载率,确定初始排列结果;将所述初始排列结果进行互作热图验证,若满足预设验证条件,则将所述初始排列结果确定为目标排列,若不满足,则对所述初始排列结果进行调整,获得目标排列。2.根据权利要求1所述的方法,其特征在于,所述对DNA测序片段进行组装后的目标重叠群进行切分处理,获得目标数据,包括:将染色质三维构象测序序列比对到所述目标重叠群上,根据所述目标重叠群之间的交联信号强度进行聚类处理,获得若干个聚类组;对每个所述聚类组中的目标重叠群,按照预设切分长度进行切分处理,获得切分序列。3.根据权利要求1所述的方法,其特征在于,所述对DNA测序片段进行组装后的目标重叠群进行切分处理,获得目标数据,包括:对所述目标重叠群按照预设切分长度进行切分处理,获得切分序列;将染色质三维构象测序序列比对到所述切分序列上,根据每个切分序列之间的交联信号强度对所述切分序列进行聚类,获得若干个聚类组。4.根据权利要求1所述的方法,其特征在于,所述对DNA测序片段进行组装后的目标重叠群进行切分处理,获得目标数据,包括:将染色质三维构象测序序列比对到所述目标重叠群上,并对所述目标重叠群按照预设切分长度进行切分处理,获得切分序列;根据每个切分序列之间的交联信号强度对所述切分序列进行聚类,获得若干个聚类组。5.根据权利要求1-4中任意一项所述的方法,其特征在于,所述目标重叠群为针对整个基因组的重叠群或者待处理的部分基因组的重叠群。6.根据权利要求3或4所述的方法,其特征在于,该方法包括...

【专利技术属性】
技术研发人员:李净净易嘉成胡江汪德鹏
申请(专利权)人:武汉未来组生物科技有限公司
类型:发明
国别省市:湖北,42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1