基于片段重叠群的含有重复基因的双面基因组片段填充方法和装置制造方法及图纸

技术编号:31763132 阅读:51 留言:0更新日期:2022-01-05 16:47
本发明专利技术公开了一种基于片段重叠群的含有重复基因的双面基因组片段填充方法及装置。该方法主要包括以下步骤:计算获得缺失基因集合;对最大缺失基因串分类,将基因元素分为三种类型:n

【技术实现步骤摘要】
基于片段重叠群的含有重复基因的双面基因组片段填充方法和装置


[0001]本专利技术技术方案为基于片段重叠群的含有重复基因的双面基因组片段填充的方法和装置,属于基因工程


技术介绍

[0002]早在上个世纪80年代,人类基因组计划就已经被提出,研究内容是遗传图谱、物理图谱、序列图谱和转录图谱的构建。近年来,全基因组测序已经引起广泛关注。虽然生物测序经历了第一代、第二代、第三代测序技术的发展,测试规模和测试速度有了很大提高,测序成本也大大降低,但是想要仅仅通过生物测序手段获得完整的全基因组序列仍是困难的。全基因组序列的获得是通过计算机相关技术即拼接算法将短小的基因片段组装成较大的基因片段。基因组的真实数据是由一系列连续的片段重叠群(contig)组成,通过确定基因组中所有片段重叠群的排列顺序以及每个片段重叠群之间的间隔距离,从而获得更大的基因结构
‑‑
基因组框架(Scaffold)。
[0003]计算基因组学是一门运用计算机技术和信息技术对基因组研究数据进行分析、建模和计算,从中获取生物信息的学科。基因组片段填充问本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.基于片段重叠群的含有重复基因的双面基因组片段填充方法,其特征在于,主要包括以下步骤:步骤1:计算获得缺失基因集合;步骤2:对最大缺失基因串分类;步骤3:确定最大缺失基因串与重复基因的关系;步骤4:优先插入与重复基因具有无相关和半相关中的Type

1类型缺失串,然后通过构造二分图,使用最大匹配方法插入剩下的无相关和半相关关系的缺失串;步骤5:更新序列,搜索与重复基因具有相关关系的缺失基因,构造辅助图;步骤6:使用回溯算法和最大匹配算法完成具有相关关系的缺失基因的插入;步骤7:将所有剩余Type

3串插入,同时保证不能破坏现有的公共邻接。2.根据权利要求1所述的基于片段重叠群的含有重复基因的双面基因组片段填充方法,其特征在于,步骤1所述的计算获得缺失基因集合,遍历两条基因组序列,片段A和片段B相互作为参考,计算缺失基因集合X,Y。3.根据权利要求1所述的基于片段重叠群的含有重复基因的双面基因组片段填充方法,其特征在于,步骤2所述的对最大缺失基因串分类,最优解中由X和Y中元素构成的最大缺失串类型:设该串长度为n,即由n个缺失基因组成;具体包括:n

Type

1类型串;n

Type

2类型串;n

Type

3类型串。4.根据权利要求1所述的基于片段重叠群的含有重复基因的双面基因组片段填充方法,其特征在于,步骤3所述的确定最大缺失基因串与重复基因的关系,分为三种类型:无相关、半相关和相关;无相关是指最大缺失串与重复基因无涉及且插入位置与重复基因也无涉及;半相关是指最大缺失串与重复基因无涉及且插入位置可能会与重复基因有涉及,有无涉及插入位置替代;相关是指最大缺失串与重复基因涉及或插入位置与重复基因完全涉及。5.根据权利要求1所述的基于片段重叠群的含有重复基因的双面基因组片段填充方法,其特征在于,步骤4所述的优先插入与重复基因具有无相关和半相关中的Type

1类型缺失串,即插入长度为n的Type

1类型缺失串可以产生n+1个邻接;然后采用构造二分图寻找最大匹配的策略,将剩下的具有无相关和半相关关系的缺失串插入到slot,...

【专利技术属性】
技术研发人员:柳楠李胜华朱永琦崔晓宇李晓峰任燕卞忠勇李洋
申请(专利权)人:山东建筑大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1