【技术实现步骤摘要】
基于片段重叠群的含有重复基因的双面基因组片段填充方法和装置
[0001]本专利技术技术方案为基于片段重叠群的含有重复基因的双面基因组片段填充的方法和装置,属于基因工程
技术介绍
[0002]早在上个世纪80年代,人类基因组计划就已经被提出,研究内容是遗传图谱、物理图谱、序列图谱和转录图谱的构建。近年来,全基因组测序已经引起广泛关注。虽然生物测序经历了第一代、第二代、第三代测序技术的发展,测试规模和测试速度有了很大提高,测序成本也大大降低,但是想要仅仅通过生物测序手段获得完整的全基因组序列仍是困难的。全基因组序列的获得是通过计算机相关技术即拼接算法将短小的基因片段组装成较大的基因片段。基因组的真实数据是由一系列连续的片段重叠群(contig)组成,通过确定基因组中所有片段重叠群的排列顺序以及每个片段重叠群之间的间隔距离,从而获得更大的基因结构
‑‑
基因组框架(Scaffold)。
[0003]计算基因组学是一门运用计算机技术和信息技术对基因组研究数据进行分析、建模和计算,从中获取生物信息的学科。基因组片段填充问题是计算基因组学中一个新兴的组合优化问题。基因组片段填充问题是研究将缺失基因填充到不完整基因片段之后,计算填充后的基因片段间差异。其中,片段间差异类型是指:基因组重组距离、基因组抽样距离、断点距离、最小公共字符串划分距离、最大公共邻接距离等。基于片段重叠群的双面基因组片段填充,是前期基于普通序列的双面基因组片段填充的更一般形式。N.Liu等人通过对片段中断点分类、对缺失串类型分 ...
【技术保护点】
【技术特征摘要】
1.基于片段重叠群的含有重复基因的双面基因组片段填充方法,其特征在于,主要包括以下步骤:步骤1:计算获得缺失基因集合;步骤2:对最大缺失基因串分类;步骤3:确定最大缺失基因串与重复基因的关系;步骤4:优先插入与重复基因具有无相关和半相关中的Type
‑
1类型缺失串,然后通过构造二分图,使用最大匹配方法插入剩下的无相关和半相关关系的缺失串;步骤5:更新序列,搜索与重复基因具有相关关系的缺失基因,构造辅助图;步骤6:使用回溯算法和最大匹配算法完成具有相关关系的缺失基因的插入;步骤7:将所有剩余Type
‑
3串插入,同时保证不能破坏现有的公共邻接。2.根据权利要求1所述的基于片段重叠群的含有重复基因的双面基因组片段填充方法,其特征在于,步骤1所述的计算获得缺失基因集合,遍历两条基因组序列,片段A和片段B相互作为参考,计算缺失基因集合X,Y。3.根据权利要求1所述的基于片段重叠群的含有重复基因的双面基因组片段填充方法,其特征在于,步骤2所述的对最大缺失基因串分类,最优解中由X和Y中元素构成的最大缺失串类型:设该串长度为n,即由n个缺失基因组成;具体包括:n
‑
Type
‑
1类型串;n
‑
Type
‑
2类型串;n
‑
Type
‑
3类型串。4.根据权利要求1所述的基于片段重叠群的含有重复基因的双面基因组片段填充方法,其特征在于,步骤3所述的确定最大缺失基因串与重复基因的关系,分为三种类型:无相关、半相关和相关;无相关是指最大缺失串与重复基因无涉及且插入位置与重复基因也无涉及;半相关是指最大缺失串与重复基因无涉及且插入位置可能会与重复基因有涉及,有无涉及插入位置替代;相关是指最大缺失串与重复基因涉及或插入位置与重复基因完全涉及。5.根据权利要求1所述的基于片段重叠群的含有重复基因的双面基因组片段填充方法,其特征在于,步骤4所述的优先插入与重复基因具有无相关和半相关中的Type
‑
1类型缺失串,即插入长度为n的Type
‑
1类型缺失串可以产生n+1个邻接;然后采用构造二分图寻找最大匹配的策略,将剩下的具有无相关和半相关关系的缺失串插入到slot,...
【专利技术属性】
技术研发人员:柳楠,李胜华,朱永琦,崔晓宇,李晓峰,任燕,卞忠勇,李洋,
申请(专利权)人:山东建筑大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。