用于基因组的数据处理方法和装置制造方法及图纸

技术编号:10068820 阅读:185 留言:0更新日期:2014-05-23 11:49
本发明专利技术公开了一种用于基因组的数据处理方法和装置。该用于基因组的数据处理方法包括:将目标基因组的信息与参考基因组的信息进行第一比对,得到第一比对结果;从第一比对结果中获取未比对上的基因组片段的信息;将未比对上的基因组片段的信息与参考基因组的信息进行第二比对,得到第二比对结果;以及从第二比对结果中获取目标基因组的特异序列的信息。通过本发明专利技术,解决了相关技术中难以得到精确的特异序列的问题。

【技术实现步骤摘要】
用于基因组的数据处理方法和装置
本专利技术涉及数据处理领域,具体而言,涉及一种用于基因组的数据处理方法和装置。
技术介绍
比较基因组分析方向包括:一,通过寻找物种之间基因组的相似的基因序列,研究物种之间可能具有的相似的基因功能和机制;二,通过寻找物种之间基因组宽广区域的的相似和特异序列,研究物种的进化历史和物种在进化过程中产生的基因组变异事件等。目前,在相关技术中,在寻找物种之间基因组的特异序列时,只是将待研究物种的基因组蛋白序列同进化关系上的近缘物种的基因组蛋白序列进行比对,以得到物种间蛋白序列的比对信息,并将物种间蛋白序列的比对信息进行聚类,从而获得物种之间基因组的特异序列。由于基因组除了包括蛋白序列之外,还包括其他元件的序列,因而难以得到精确的特异序列。另外,由于基因组的信息量较大,因此上述技术方案中基因组蛋白序列的比对需要消耗大量的时间和内存。针对相关技术中难以得到精确的特异序列的问题,目前尚未提出有效的解决方案。
技术实现思路
本专利技术的主要目的在于提供一种用于基因组的数据处理方法和装置,以解决相关技术中难以得到精确的特异序列的问题。为了实现上述目的,根据本专利技术的一个方面,提供了一种用于基因组的数据处理方法。该方法包括:将目标基因组的信息与参考基因组的信息进行第一比对,得到第一比对结果;从第一比对结果中获取未比对上的基因组片段的信息;将未比对上的基因组片段的信息与参考基因组的信息进行第二比对,得到第二比对结果;以及从第二比对结果中获取目标基因组的特异序列的信息。进一步地,将未比对上的基因组片段的信息与参考基因组的信息进行第二比对,得到第二比对结果包括:检测未比对上的基因组片段的信息中是否存在重复的序列信息;如果检测出未比对上的基因组片段的信息中存在重复的序列信息,则将重复的序列信息进行标注,得到标注过的信息;从未比对上的基因片段的信息中滤除标注过的信息,得到过滤后的信息;以及将过滤后的信息与参考基因组的信息进行比对,得到第二比对结果。进一步地,第一比对结果包括多个同源基因组片段,其中,多个同源基因组片段为多个比对上的基因组片段,从第一比对结果中获取未比对上的基因组片段的信息包括:从第一比对结果中滤除多个同源基因组片段,得到多个未比对上的基因组子片段;根据多个未比对上的基因组子片段在目标基因组中的位置关系进行排序,得到多个未比对上的基因组子片段的序列;将序列中任意两个位置相邻且具有重叠部分的基因组子片段进行合并,得到包括多个合并的未比对上的基因组子片段的序列;以及连接包括多个合并的未比对上的基因组子片段的序列中的全部基因组子片段,得到未比对上的基因组片段的信息。进一步地,第二比对结果包括多个同源基因组碎片,从第二比对结果中获取目标基因组的特异序列的信息包括:提取多个同源基因组碎片;根据多个同源基因组碎片在目标基因组中的位置关系进行排序,得到多个同源基因组碎片的序列;检测序列中任意两个位置相邻的同源基因组碎片是否存在重叠部分;如果检测出序列中任意两个位置相邻的同源基因组碎片存在重叠部分,则合并重叠部分,得到多个合并后的同源基因组碎片;以及从第二比对结果中滤除包括多个合并后的同源基因组碎片的信息,得到目标基因组的特异序列的信息。进一步地,在提取多个同源基因组碎片之前,数据处理方法还包括:判断多个基因组碎片的长度是否大于等于预设长度;如果判断出多个基因组碎片的长度大于等于预设长度,则判断多个基因组碎片的相似度是否大于等于预设相似度;如果判断出多个基因组碎片的相似度大于等于预设相似度,则判断多个基因组碎片的比对率是否大于等于预设比对率;以及如果判断出多个基因组碎片的比对率大于等于预设比对率,则将多个基因组碎片的信息作为多个同源基因组碎片的信息。为了实现上述目的,根据本专利技术的另一方面,提供了一种用于基因组的数据处理装置。该装置包括:第一比对单元,用于将目标基因组的信息与参考基因组的信息进行第一比对,得到第一比对结果;第一获取单元,用于从第一比对结果中获取未比对上的基因组片段的信息;第二比对单元,用于将未比对上的基因组片段的信息与参考基因组的信息进行第二比对,得到第二比对结果;以及第二获取单元,用于从第二比对结果中获取目标基因组的特异序列的信息。进一步地,第二比对单元包括:第一检测模块,用于检测未比对上的基因组片段的信息中是否存在重复的序列信息;标注模块,用于如果检测出未比对上的基因组片段的信息中存在重复的序列信息,则将重复的序列信息进行标注,得到标注过的信息;第一过滤模块,用于从未比对上的基因片段的信息中滤除标注过的信息,得到过滤后的信息;以及比对模块,用于将过滤后的信息与参考基因组的信息进行比对,得到第二比对结果。进一步地,第一比对结果包括多个同源基因组片段,其中,多个同源基因组片段为多个比对上的基因组片段,第一获取单元包括:第二过滤模块,用于从第一比对结果中滤除多个同源基因组片段,得到多个未比对上的基因组子片段;第一排序模块,用于根据多个未比对上的基因组子片段在目标基因组中的位置关系进行排序,得到多个未比对上的基因组子片段的序列;第一合并模块,用于将序列中任意两个位置相邻且具有重叠部分的基因组子片段进行合并,得到包括多个合并的未比对上的基因组子片段的序列;以及连接模块,用于连接包括多个合并的未比对上的基因组子片段的序列中的全部基因组子片段,得到未比对上的基因组片段的信息。进一步地,第二比对结果包括多个同源基因组碎片,第二获取单元包括:提取模块,用于提取多个同源基因组碎片;第二排序模块,用于根据多个同源基因组碎片在目标基因组中的位置关系进行排序,得到多个同源基因组碎片的序列;第二检测模块,用于检测序列中任意两个位置相邻的同源基因组碎片是否存在重叠部分;第二合并模块,用于如果检测出序列中任意两个位置相邻的同源基因组碎片存在重叠部分,则合并重叠部分,得到多个合并后的同源基因组碎片;以及第三过滤模块,用于从第二比对结果中滤除包括多个合并后的同源基因组碎片的信息,得到目标基因组的特异序列的信息。进一步地,该数据处理装置还包括:第一判断模块,用于在提取多个同源基因组碎片之前,判断多个基因组碎片的长度是否大于等于预设长度;第二判断模块,用于如果判断出多个基因组碎片的长度大于等于预设长度,则判断多个基因组碎片的相似度是否大于等于预设相似度;第三判断模块,用于如果判断出多个基因组碎片的相似度大于等于预设相似度,则判断多个基因组碎片的比对率是否大于等于预设比对率;以及确定模块,用于如果判断出多个基因组碎片的比对率大于等于预设比对率,则将多个基因组碎片的信息确认为多个同源基因组碎片的信息。通过本专利技术,采用将目标基因组的信息与参考基因组的信息进行第一比对,得到第一比对结果;从第一比对结果中获取未比对上的基因组片段的信息;将未比对上的基因组片段的信息与参考基因组的信息进行第二比对,得到第二比对结果;以及从第二比对结果中获取目标基因组的特异序列的信息,解决了相关技术中难以得到精确的特异序列的问题,进而达到了提高特异序列的精确度的效果。附图说明构成本申请的一部分的附图用来提供对本专利技术的进一步理解,本专利技术的示意性实施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定。在附图中:图1是根据本专利技术实施例的用于基因组的数据处理装置本文档来自技高网...
用于基因组的数据处理方法和装置

【技术保护点】
一种用于基因组的数据处理方法,其特征在于,包括:将目标基因组的信息与参考基因组的信息进行第一比对,得到第一比对结果;从所述第一比对结果中获取未比对上的基因组片段的信息;将所述未比对上的基因组片段的信息与所述参考基因组的信息进行第二比对,得到第二比对结果;以及从所述第二比对结果中获取所述目标基因组的特异序列的信息。

【技术特征摘要】
1.一种用于基因组的数据处理方法,其特征在于,包括:将目标基因组的信息与参考基因组的信息进行第一比对,得到第一比对结果;从所述第一比对结果中获取未比对上的基因组片段的信息;将所述未比对上的基因组片段的信息与所述参考基因组的信息进行第二比对,得到第二比对结果;以及从所述第二比对结果中获取所述目标基因组的特异序列的信息;所述第一比对结果包括多个同源基因组片段,其中,所述多个同源基因组片段为多个比对上的基因组片段,从所述第一比对结果中获取未比对上的基因组片段的信息包括:从所述第一比对结果中滤除所述多个同源基因组片段,得到多个未比对上的基因组子片段;根据所述多个未比对上的基因组子片段在所述目标基因组中的位置关系进行排序,得到多个未比对上的基因组子片段的序列;将所述序列中任意两个位置相邻且具有重叠部分的基因组子片段进行合并,得到包括多个合并的未比对上的基因组子片段的序列;以及连接所述包括多个合并的未比对上的基因组子片段的序列中的全部基因组子片段,得到所述未比对上的基因组片段的信息。2.根据权利要求1所述的数据处理方法,其特征在于,将所述未比对上的基因组片段的信息与所述参考基因组的信息进行第二比对,得到第二比对结果包括:检测所述未比对上的基因组片段的信息中是否存在重复的序列信息;如果检测出所述未比对上的基因组片段的信息中存在重复的序列信息,则将所述重复的序列信息进行标注,得到标注过的信息;从所述未比对上的基因片段的信息中滤除所述标注过的信息,得到过滤后的信息;以及将所述过滤后的信息与所述参考基因组的信息进行比对,得到所述第二比对结果。3.根据权利要求1所述的数据处理方法,其特征在于,所述第二比对结果包括多个同源基因组碎片,从所述第二比对结果中获取所述目标基因组的特异序列的信息包括:提取所述多个同源基因组碎片;根据所述多个同源基因组碎片在所述目标基因组中的位置关系进行排序,得到所述多个同源基因组碎片的序列;检测所述序列中任意两个位置相邻的同源基因组碎片是否存在重叠部分;如果检测出所述序列中任意两个位置相邻的同源基因组碎片存在重叠部分,则合并所述重叠部分,得到多个合并后的同源基因组碎片;以及从所述第二比对结果中滤除包括多个合并后的同源基因组碎片的信息,得到所述目标基因组的特异序列的信息。4.根据权利要求3所述的数据处理方法,其特征在于,在提取所述多个同源基因组碎片之前,所述数据处理方法还包括:判断多个基因组碎片的长度是否大于等于预设长度;如果判断出所述多个基因组碎片的长度大于等于预设长度,则判断所述多个基因组碎片的相似度是否大于等于预设相似度;如果判断出所述多个基因组碎片的相似度大于等于预设相似度,则判断所述多个基因组碎片的比对率是否大于等于预设比对率;以及如果判断出所述多个基因组碎片的比对率大于等于预设比对率,则将所述多个基因组碎片的信息作为所述多个同源基因组碎片的信息。5.一种用于基因组的数据处理装置,其特征在于,包括:第一比对单元,用于将目标基因组的信息与参考基因组的...

【专利技术属性】
技术研发人员:江文恺占伟
申请(专利权)人:北京诺禾致源生物信息科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1