当前位置: 首页 > 专利查询>中南大学专利>正文

一种基于蛋白质信息的基因组序列拼接方法技术

技术编号:19593668 阅读:46 留言:0更新日期:2018-11-28 04:58
本发明专利技术公开了一种基于蛋白质信息的基因组序列拼接方法,包括:获取待拼接的DNA序列与蛋白质序列之间的比对信息;确定每条蛋白质序列上对应的DNA序列之间的相邻关系;构建相邻DNA序列之间的连接边并获取每个蛋白质序列上对应的每个DNA序列连接边的支持信息;依次对每个DNA序列连接边的支持信息进行去噪处理;基于权重打分函数依次对每个DNA序列的前、后节点进行去噪处理;计算存在支持信息的所有DNA序列连接边的连接间距;基于所有DNA序列连接边的连接间距以及每个DNA序列的前、后节点依次串接得到基因组序列拼接路径。通过上述方法提高基因组序列拼接结果的敏感性和精确度。

【技术实现步骤摘要】
一种基于蛋白质信息的基因组序列拼接方法
本专利技术属于生物信息学领域,具体涉及一种基于蛋白质信息的基因组序列拼接方法。
技术介绍
低成本化发展的新测序技术已经极大地改变了全基因组测序的格局,使科学家们能够启动众多的基因组项目来解码以前未被测序的生物体的基因组。测序技术在短短几天内就可以对大多数物种完成深度测序,包括哺乳动物在内。但是DNA测序技术不能直接产生染色体级别的完整序列,相反,它们会生成大量的读数,从基因组的不同部分取样长度从数十到数千不等的连续碱基。基因组拼接长序列由测序技术生成的数百万或数十亿个长度短的DNA序列测序读数拼接而成。大多数物种由于缺乏参考基因组,在分析基因组开始之前,必须对读数进行序列从头拼接。不幸的是,基因组拼接仍然是一个非常困难的问题。基因组拼接软件根据读数的重叠将其合并为更长称为蛋白质序列(contigs),确定contigs的方向、顺序以及contigs间的距离构建基因组拼接长序列(scaffolds)。但是,目前的测序技术面临许多阻碍拼接工具重新构建完整染色体的难题,包括读数错误和基因组中大量的重复区。基因组测序技术的局限性以及基因组固有的复杂性导本文档来自技高网...

【技术保护点】
1.一种基于蛋白质信息的基因组序列拼接方法,其特征在于:包括如下步骤:S1:获取待拼接的DNA序列与蛋白质序列之间的比对信息;其中,一个DNA序列与一个蛋白质序列相匹配时获取到一条比对信息,获取的每一条比对信息对应的蛋白质序列至少匹配了两个DNA序列,所述比对信息至少包括:匹配值、蛋白质序列上匹配区域的起始位置坐标和终止位置坐标、比对方向;所述蛋白质序列与所述DNA序列属于同一物种或同源物种;S2:获取存在所述比对信息的蛋白质序列,并根据每条蛋白质序列的每条比对信息中蛋白质序列上匹配区域的起始位置和终止位置分别确定每条蛋白质序列上对应的DNA序列之间的相邻关系;S3:基于DNA序列之间的相邻关...

【技术特征摘要】
1.一种基于蛋白质信息的基因组序列拼接方法,其特征在于:包括如下步骤:S1:获取待拼接的DNA序列与蛋白质序列之间的比对信息;其中,一个DNA序列与一个蛋白质序列相匹配时获取到一条比对信息,获取的每一条比对信息对应的蛋白质序列至少匹配了两个DNA序列,所述比对信息至少包括:匹配值、蛋白质序列上匹配区域的起始位置坐标和终止位置坐标、比对方向;所述蛋白质序列与所述DNA序列属于同一物种或同源物种;S2:获取存在所述比对信息的蛋白质序列,并根据每条蛋白质序列的每条比对信息中蛋白质序列上匹配区域的起始位置和终止位置分别确定每条蛋白质序列上对应的DNA序列之间的相邻关系;S3:基于DNA序列之间的相邻关系构建相邻DNA序列之间的连接边,并获取每个蛋白质序列上对应的每个DNA序列连接边的支持信息;一个DNA序列连接边与N个蛋白质序列存在匹配关系时,所述DNA序列连接边对应存在N条支持信息,N为正整数;所述支持信息用于表示一个蛋白质序列上对应DNA序列连接边中两个DNA序列的连接类型,所述连接类型包括L1L2连接类型和gap连接类型;S4:基于比对信息依次对每个DNA序列连接边的支持信息进行去噪处理;其中,去噪处理后每个DNA序列连接边仅存在一条支持信息;S5:基于权重打分函数依次对每个DNA序列的前、后节点进行去噪处理;其中,去噪处理后每个DNA序列的前、后节点的个数均不超过1,且前节点和后节点的权重分数分别大于对应DNA序列的剩余每个前节点、剩余每个后节点中权重分数,且依据去噪后每个DNA序列的前、后节点保留对应的DNA序列连接边的支持信息,并删除剩余支持信息;其中,一个DNA序列连接边中位于前端的DNA序列为前节点,后端的DNA序列为后节点;S6:计算存在支持信息的所有DNA序列连接边的连接间距;S7:基于S6中所有DNA序列连接边的连接间距以及每个DNA序列的前、后节点依次串接得到基因组序列拼接路径;其中,相邻DNA序列的距离与DNA序列连接边对应的连接间距一一对应。2.根据权利要求1所述的方法,其特征在于:步骤S5中对一个DNA序列的前、后节点进行去噪处理的过程如下:先依次计算待去噪处理的DNA序列的所有前节点、所有后节点中每个节点的权重分数,并分别判断所述所有前节点、所有后节点中是否存在唯一的节点的权重分数为最大值;若不存在,删除待去噪处理的DNA序列与对应的所有前节点或对应的所有后节点的支持信息;若存在,再分别从所有前节点、所有后节点中选择权重分数最高的节点作为待去噪处理的DNA序列的前节点、后节点;最后再依据选择出的每个DNA序列的前、后节点保留对应的DNA序列连接边的支持信息,并删除剩余支持信息;其中,权重分数的计算公式如下:S=M+P*w1+α*w2+β*w3)/F2,w1<w2<w3式中,S为待去噪处理的DNA序列的前节点或后节点的权重分数,M为所述前节点或后节点对应的匹配值,P为所述待去噪处理的DNA序列与所述前节点或后节点确定的DNA蛋白质连接边的蛋白质支持度,F为所述前节点或所述后节点的前节点的个数,w1、w2、w3分别为第一权重系数、第二权重系数、第三权重系数,α和β分别为支持系数;其中,所述DNA序列连接边的蛋白质支持度P等于与DNA序列连接边的连接方向满足S4中对应统一连接方向的蛋白质序列个数;支持系数α、β的取值依据待去噪处理的DNA序列与前或后节点构成的DNA序列连接边的支持信息而定;若待去噪处理的DNA序列与前或后节点构成的DNA序列连接边的支持信息为L1L2连接类型时,支持系数α为1或0,支持系数β为0;若为gap连接类型时,支持系数α为0,支持系数β为1。3.根据权利要求2所述的方法,其特征在于:在计算待去噪处理的DNA序列的前、后每个节点的权重分数之前,还包括分别获取权重分数计算中的支持系数α、β以及节点个数F;其中,S51:获取待处理的DNA序列与每个前或后节点构成的DNA序列连接边,并获取每个DNA序列连接边对应支持信息;S52:获取S51中支持信息为L1L2连接类型的所有DNA序列连接边,并计算每个DNA序列连接边的末端长度L1,并依次判断每个DNA序列连接边的末端长度L1是否满足精度;若满足精度,对应DNA序列连接边的支持系数α为1,β为0;若不满足,对应DNA序列连接边的支持系数α为0,β为0;其中,DNA序列连接边的末端长度L1表示前端DNA序列未比对到对应蛋白质序列上的末端长度;S53:获取S51中支持信息为gap连接类型的所有DNA序列连接边,且获取的所述所有DNA序列连接边的支持系数α均为0,β为1;S54:获取待处理的DNA序列的每个前节点或每个后节点的前节点个数。4.根据权利要求3所述的方法,其特征在于:S52中依次判断每个DNA序列连接边的末端长度L1是否满足精度的过程如下:首先,从支持信息为L1L2连接类型的所有DNA序列连接边的末端长度L1中选择出末端长度L1的最大值,并依次计算每个DNA序列连接边的末端长度L1与所述最大值的比值;然后,依次判断每个DNA序列连接边对应的比值是否大于0.9,若大于,则满足精度;否则,不满足精度。5.根据权利要求1所述的方法,其特征在于:S4中对每一个DNA序列连接边的支持信息进行去噪处理的过程均如下:S41:依据比对信息中的比对方向获取同一DNA序列连接边上支持正向连接的蛋白质序列的个数以及支持反向连接的蛋白质序列的个数;其中,依据比对信息中的比对方向识别DNA序列连接边的两个DNA序列在同一个蛋白质序列的比对方向是否相同,若相同,DNA序列连接边与蛋白质序列之间...

【专利技术属性】
技术研发人员:王建新尚娟李洪东
申请(专利权)人:中南大学
类型:发明
国别省市:湖南,43

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1