基于片段重叠群的双面基因组片段填充方法及装置制造方法及图纸

技术编号:28042136 阅读:39 留言:0更新日期:2021-04-09 23:25
本发明专利技术公开了一种基于片段重叠群的基因组片段填充方法及装置,该方法包括以下步骤:计算得到缺失基因;对最大缺失基因串分类;合并符合条件的最大缺失基因串;搜索Type‑1类型串,执行Type‑1串插入算法;搜索无slot的Type‑3‑II类型串,执行no‑slot‑Type‑3‑II串插入算法;搜索Type‑2、Type‑3类型串,处理矛盾公共基因相关的公共邻接关系,执行Type‑2&3串插入算法。本发明专利技术基于片段重叠群进行计算,形式更一般,应用更广泛。该填充方法搜索速度快,填充效率高,能够降低基于片段重叠群的基因组片段填充的时间、空间复杂度,提高填充的敏感性和特异性。

【技术实现步骤摘要】
基于片段重叠群的双面基因组片段填充方法及装置
本专利技术涉及基于片段重叠群的双面基因组片段进行填充的方法及装置,属于基因工程

技术介绍
随着基因测序技术的不断发展,测序的规模、速度有了很大的提高,测序成本也有效降低,但是想要获得一个完整的基因组序列,仅凭基因测序手段仍很困难。一般情况下,全基因组序列的获得是通过基因测序仪获得大量的碱基序列,再通过计算机相关技术即拼接算法将这些短小的基因片段组装成较大的基因片段(片段重叠群),并确定基因组中所有片段重叠群的排列顺序,及每个片段重叠群之间的间隔距离,从而获得更大的基因结构----基因组框架。在基因组框架中,存在许多缺失的基因。利用多次测序获得同一基因组的多个框架,进行基因组片段填充,能够将缺失基因填充到不完整序列的片段重叠群间隔中,有效提高框架的完整性,大大降低生物测序的成本。基因组片段填充是将缺失基因填充到不完整序列的片段重叠群间隔中,有效提高基因组片段的完整性和准确性,降低基因测序的成本,具有一定的应用价值。基于片段重叠群的双面基因组片段填充,是前期基于普通序列的双面基因组片段本文档来自技高网...

【技术保护点】
1.基于片段重叠群的基因组片段填充方法,其特征在于,包括以下步骤:/n计算得到缺失基因;/n对最大缺失基因串分类;/n合并符合条件的最大缺失基因串;/n搜索Type-1类型串,执行type-1串插入算法;/n搜索无 slot 的 Type-3-II 类型串,执行 no-slot-Type-3-II 串插入算法;/n搜索 Type-2、Type-3 类型串,处理矛盾公共基因相关的公共邻接关系,执行 Type-2&3 串插入算法;/n将所有剩余的缺失基因分别插到各排列的末尾。/n

【技术特征摘要】
1.基于片段重叠群的基因组片段填充方法,其特征在于,包括以下步骤:
计算得到缺失基因;
对最大缺失基因串分类;
合并符合条件的最大缺失基因串;
搜索Type-1类型串,执行type-1串插入算法;
搜索无slot的Type-3-II类型串,执行no-slot-Type-3-II串插入算法;
搜索Type-2、Type-3类型串,处理矛盾公共基因相关的公共邻接关系,执行Type-2&3串插入算法;
将所有剩余的缺失基因分别插到各排列的末尾。


2.根据权利要求1所述的基于片段重叠群的基因组片段填充方法,其特征在于,所述的对最大缺失基因串分类,最优解中由X和Y中元素构成的最大缺失基因串的类型:设该串的串长为n,即由n个缺失基因组成;具体包括:Type-1类型;Type-1-I类型;Type-1-II类型;Type-2类型;Type-2-I类型;Type-2-II类型;Type-2-III类型;Type-3类型;Type-3-I类型;Type-3-II类型。


3.根据权利要求1所述的基于片段重叠群的基因组片段填充方法,其特征在于,所述的合并符合条件的最大缺失基因串,合并操作是去掉连续的最大缺失基因串之间的slot(最外侧的slot保持不变)。


4.根据权利要求1所述的基于片段重叠群的基因组片段填充方法,其特征在于,所述的搜索Type-2、Type-3类型串,处理矛盾公共基因相关的公共邻接关系,执行Type-2&3串插入算法,由于在进行Type-2类型的缺失串搜索时,若根据原始邻接分别进行各排列的邻接匹配,由于矛盾公共基因与缺失串之间有slot,若向该slot插入缺失基因,则可能破坏原始的邻接依据,需要同时处理矛盾基因相关的公共邻接关系,以避免矛盾匹配导致插入结果的错误;因此,首先要对矛盾公共基因与最大缺失基因串构成的邻接匹配分类:(1)扭公共邻接关系;(2)slot抢占邻接关系。


5.根据权利要求1所述的基于片段重叠群的基因组片段填充方法,其特征在于,所述的搜索Type-2、Type-3类型串,处理矛盾公共基因相关的公共邻接关系,执行Type-2&3串插入算法,因为矛盾公共基因的存在,在单面片段填充问题中常用的二分图最大匹配已经不能获得正确的结果;Type-2&3串插入算法通过建立一般图的带权最大匹配模型,使用加权带花树算法思想,获得邻接的最大匹配,根据匹配实现缺失串的插入,获得某最优解中的所有Type-2和Type-3串;使用加权带花树算法实现获得最优数量的邻接,要确定:(1)结点的结构;(2)结点间边的建立规则;(3)边的权值。


6.根据权利要求5所述的基于片段重叠群的基因组片段填充方法,其特征在于...

【专利技术属性】
技术研发人员:柳楠李春良李胜华朱永琦李晓峰郑晶玲尤宝山王向辉
申请(专利权)人:山东建筑大学
类型:发明
国别省市:山东;37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1