基于片段重叠群的含有重复基因的双面基因组片段填充方法和装置制造方法及图纸

技术编号:31763132 阅读:37 留言:0更新日期:2022-01-05 16:47
本发明专利技术公开了一种基于片段重叠群的含有重复基因的双面基因组片段填充方法及装置。该方法主要包括以下步骤:计算获得缺失基因集合;对最大缺失基因串分类,将基因元素分为三种类型:n

【技术实现步骤摘要】
基于片段重叠群的含有重复基因的双面基因组片段填充方法和装置


[0001]本专利技术技术方案为基于片段重叠群的含有重复基因的双面基因组片段填充的方法和装置,属于基因工程


技术介绍

[0002]早在上个世纪80年代,人类基因组计划就已经被提出,研究内容是遗传图谱、物理图谱、序列图谱和转录图谱的构建。近年来,全基因组测序已经引起广泛关注。虽然生物测序经历了第一代、第二代、第三代测序技术的发展,测试规模和测试速度有了很大提高,测序成本也大大降低,但是想要仅仅通过生物测序手段获得完整的全基因组序列仍是困难的。全基因组序列的获得是通过计算机相关技术即拼接算法将短小的基因片段组装成较大的基因片段。基因组的真实数据是由一系列连续的片段重叠群(contig)组成,通过确定基因组中所有片段重叠群的排列顺序以及每个片段重叠群之间的间隔距离,从而获得更大的基因结构
‑‑
基因组框架(Scaffold)。
[0003]计算基因组学是一门运用计算机技术和信息技术对基因组研究数据进行分析、建模和计算,从中获取生物信息的学科。基因组片段填充问题是计算基因组学中一个新兴的组合优化问题。基因组片段填充问题是研究将缺失基因填充到不完整基因片段之后,计算填充后的基因片段间差异。其中,片段间差异类型是指:基因组重组距离、基因组抽样距离、断点距离、最小公共字符串划分距离、最大公共邻接距离等。基于片段重叠群的双面基因组片段填充,是前期基于普通序列的双面基因组片段填充的更一般形式。N.Liu等人通过对片段中断点分类、对缺失串类型分类,设计了一种采用贪婪策略的近似算法,近似比可以达到1.5;J.Ma 等人通过构造5

连通无爪图和7

连通无爪图寻找最大独立集,将近似比进一步提高到1.4。但是,这两种算法只能解决普通序列的双面基因组片段填充问题,无法应用在基于片段重叠群的双面基因组片段填充。目前,Li等人提出了基于片段重叠群的双面基因组片段填充算法,虽然只是基于一类实例,可也是对相关领域提供了重大参考价值。由于基因是大量且多变的,该算法并不能应用在基于片段重叠群的含有重复基因的双面基因组片段填充问题。
[0004]因此,如何解决基于片段重叠群的含有重复基因的双面基因组片段填充问题,并计算该问题的一个近似算法,成为目前该
的热点问题。

技术实现思路

[0005]本专利技术的目的是针对现有技术存在的不足,提出一种新的基于片段重叠群的含有重复基因的双面基因组片段填充算法。通过大量研究与测试,本专利技术提出了一种基于回溯算法和最大匹配算法的双面基因组片段填充方法,设计了一个全新的近似算法,可以得到更为精确的基因组序列,同时提供了一项实现此项技术的装置,有利于日后基因组学领域的进一步研究和发展。
[0006]具体来说,第一方面本专利技术实施例提出了一种基于片段重叠群的含有重复基因的双面基因组片段填充方法,包括以下步骤:
[0007]步骤1:计算获得缺失基因集合;
[0008]将序列A和序列B中元素相互进行比较,可以得到序列A中缺失基因集合X,序列B 中缺失基因集合Y。
[0009]步骤2:对最大缺失基因串分类。
[0010]基于基因样本序列中各个元素之间组合产生公共邻接的数目不同,将基因元素分为三种类型:
[0011]n

Type

1类型:由n个缺失基因组成,且插入后可构成n+1个邻接。
[0012]n

Type

2类型:由n个缺失基因组成,且插入后可构成n个邻接。
[0013]n

Type

3类型:由n个缺失基因组成,且插入后可构成n

1个邻接。
[0014]步骤3:确定最大缺失基因串与重复基因的关系;
[0015]基于缺失基因串在序列中位置以及可插入位置,将缺失基因串与重复基因的关系分为三中类型:
[0016]无相关:最大缺失串与重复基因无涉及且插入位置与重复基因也无涉及。
[0017]半相关:最大缺失串与重复基因无涉及且插入位置与重复基因可能涉及,但有可替代插入位置。
[0018]相关:最大缺失串与重复基因涉及或插入位置与重复基因完全涉及。
[0019]步骤4:优先插入与重复基因具有无相关和半相关中的Type

1类型缺失串,然后通过构造二分图,使用最大匹配方法插入剩下的无相关和半相关关系的缺失串;
[0020]基于缺失基因串与重复基因的关系,可将具有无相关和半相关关系中的Type

1类型缺失串优先插入。
[0021]Type

1类型缺失串插入完成后,采用二分图寻找最大匹配策略,将剩余的无相关和半相关关系的缺失串插入。
[0022]步骤5:更新序列,搜索与重复基因具有相关关系的缺失基因,构造辅助图;
[0023]基于插入更新后的序列,搜索具有相关关系的缺失串,构造辅助图:
[0024]构造辅助图时,每次只考虑单个基因,若基因有插入位置,缺失基因与插入位置slot 用实线连接,若无插入位置,搜索相邻缺失基因,用虚线连接。
[0025]步骤6:使用回溯算法和最大匹配算法完成具有相关关系的缺失基因的插入;
[0026]从插入位置开始,若插入位置只连接了一条实线,则可以直接确定插入位置,同时贪婪的把虚线边连接的基因并入一起插入,若插入位置连接了多条实线边,则回溯到缺失基因,由缺失基因所包含实线边少的继承。
[0027]步骤7:将所有剩余Type

3串插入,同时保证不能破坏现有的公共邻接;
[0028]在不能破坏现有邻接的情况下可以将n

Type

3串插入到任意一个slot中,不失一般性,选择将该类串统一插入到基因序列最右端的slot中。
[0029]第二方面,本专利技术实施例提供了一种基于片段重叠群的含有重复基因的双面基因组填充装置,包括以下:
[0030]输入单元:两个基于片段重叠群的含有重复基因的基因组序列,均为不完整序列;
[0031]初始化单元:根据输入序列,遍历输入序列得到缺失基因集合;
[0032]分类单元:对基因样本序列中基因元素进行分类;
[0033]识别单元:确定最大缺失基因串与重复基因的关系;
[0034]无相关和半相关单元:通过构造二分图,使用最大匹配方法插入剩下的无相关和半相关关系的缺失串;
[0035]相关关系单元:搜索与重复基因具有相关关系的缺失基因,构造辅助图,使用回溯算法和最大匹配算法完成具有相关关系的缺失基因的插入;
[0036]剩余缺失基因插入单元:将所有剩余n

Type

3串分别插入到基因序列中,并保证同时不会破坏现有邻接;
[0037]输出单元:填本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于片段重叠群的含有重复基因的双面基因组片段填充方法,其特征在于,主要包括以下步骤:步骤1:计算获得缺失基因集合;步骤2:对最大缺失基因串分类;步骤3:确定最大缺失基因串与重复基因的关系;步骤4:优先插入与重复基因具有无相关和半相关中的Type

1类型缺失串,然后通过构造二分图,使用最大匹配方法插入剩下的无相关和半相关关系的缺失串;步骤5:更新序列,搜索与重复基因具有相关关系的缺失基因,构造辅助图;步骤6:使用回溯算法和最大匹配算法完成具有相关关系的缺失基因的插入;步骤7:将所有剩余Type

3串插入,同时保证不能破坏现有的公共邻接。2.根据权利要求1所述的基于片段重叠群的含有重复基因的双面基因组片段填充方法,其特征在于,步骤1所述的计算获得缺失基因集合,遍历两条基因组序列,片段A和片段B相互作为参考,计算缺失基因集合X,Y。3.根据权利要求1所述的基于片段重叠群的含有重复基因的双面基因组片段填充方法,其特征在于,步骤2所述的对最大缺失基因串分类,最优解中由X和Y中元素构成的最大缺失串类型:设该串长度为n,即由n个缺失基因组成;具体包括:n

Type

1类型串;n

Type

2类型串;n

Type

3类型串。4.根据权利要求1所述的基于片段重叠群的含有重复基因的双面基因组片段填充方法,其特征在于,步骤3所述的确定最大缺失基因串与重复基因的关系,分为三种类型:无相关、半相关和相关;无相关是指最大缺失串与重复基因无涉及且插入位置与重复基因也无涉及;半相关是指最大缺失串与重复基因无涉及且插入位置可能会与重复基因有涉及,有无涉及插入位置替代;相关是指最大缺失串与重复基因涉及或插入位置与重复基因完全涉及。5.根据权利要求1所述的基于片段重叠群的含有重复基因的双面基因组片段填充方法,其特征在于,步骤4所述的优先插入与重复基因具有无相关和半相关中的Type

1类型缺失串,即插入长度为n的Type

1类型缺失串可以产生n+1个邻接;然后采用构造二分图寻找最大匹配的策略,将剩下的具有无相关和半相关关系的缺失串插入到slot,...

【专利技术属性】
技术研发人员:柳楠李胜华朱永琦崔晓宇李晓峰任燕卞忠勇李洋
申请(专利权)人:山东建筑大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1