用于管理基因序列的方法和装置制造方法及图纸

技术编号:14863530 阅读:26 留言:0更新日期:2017-03-19 17:27
本发明专利技术提供了用于管理基因序列的方法和装置。在一个实施方式中,提供了一种用于确定第一基因序列与第二基因序列之间的相似性的方法,包括:分别在第一基因序列和第二基因序列上移动预定长度的滑动窗口;在滑动窗口的第i次移动期间,提取所述第一基因序列在所述滑动窗口内的第一部分、和所述第二基因序列在所述滑动窗口内的第二部分;以及基于第一部分和第二部分确定第一基因序列与第二基因序列之间的相似性。在其他实施方式中,还用于压缩基因序列的方法、以及用于对经压缩的基因序列进行解压缩的方法。采用本发明专利技术,可以以更加适合于基因序列的自身特点的方式来度量两个基因序列之间的相似性,还可以基于该相似性来找到参考数据库中的最为匹配参考基因序列,并压缩基因序列。

【技术实现步骤摘要】

本专利技术的各实施方式涉及数据管理,更具体地,涉及用于管理基因序列(genesequence)的方法和装置。
技术介绍
随着生物学的发展,人类对于生物基因的研究已经越来越深入,例如,已经涉及到了诸如人类健康、药物研发、动植物新品种以及关于微生物等诸多方面。通过对生物的基因序列进行测序(sequencing),可以获得构成该生物的染色体的碱基对的序列。通常,将测量一个物种的第一个样本的基因序列的过程称为测序,而将测量该物种的其他样本的基因序列的过程称为重测序(re-sequencing)。测序和重测序技术已经实现了突破,并且随着所涉及的各项成本的降低,越来越多的个人或者团体开始认识到基因序列的重要性,并且目前已经通过测序/重测序过程而获得了大量物种的基因序列数据。基因序列包括大量数据,仅以人类基因为例,人类基因包括大约30亿个碱基对,按照现有的表示方式,人类的基因序列将包括大约60亿个字符(字符A、G、T、C)。因而,在基因数据库中存储的每个基因序列将会占用大量的存储空间。进一步,当需要存储大量基因序列、或者当需要针对基因序列进行拷贝和传输时,将会面临数据存储/数据传输效率方面的更多挑战。生物学家已经发现,同一物种的各个样本的基因序列之间存在一定的相似性。例如,人类的基因序列之间的相似性远远高于人类与其他物种的基因序列之间的相似性;进一步,黄色人种的基因序列之间的相似性通常会高于黄色人种与白色人种的基因序列之间的相似性。因而基于相似性,目前已经提出了参考基因序列的概念,参考基因序列可以是在以往的数据处理期间获得的具有代表性的典型基因序列。例如,对于人类而言,黄色人种的男性的基因序列中可能会存在某些共同的部分,例如,控制皮肤颜色、头发颜色、性别的基因序列片段可能是相同的或者仅存在较小差异。因而,可以将某个黄色人种男性的基因序列作为参考基因序列。当需要存储另一个黄色人种男性的基因序列时,可以将该另一男性的基因序列与参考基因序列进行比较,并且仅需要存储两个基因序列之间数据差异和参考基因序列的标识符即可。以此方式,可以大大降低待存储的数据量,因而实现数据压缩的目的。应当注意,由于黄色人种的男性的基因序列中的很多部分是相同的,并且差异数据所占的比例通常并不太高。因而上述方法可以大大降低带存储基因序列所占用的数据空间。可以在参考数据库中存储大量参考基因序列,并且基于相似性搜索来从参考数据库中选择与待存储基因序列最为匹配的参考基因序列。然而,由于每个基因序列的数据量通常极大,并且包括字符A、G、T、C的各种组合,这些特点使得现有的相似性搜索算法并不十分适合于基因序列。在基因序列处理的
中,如何确定两个基因序列之间的相似性是选择参考基因序列以及其他后续处理的基础,因而如何基于基因序列的特征而提供更有效的确定相似性的方法,成为目前基因序列处理领域中的一个研究热点。
技术实现思路
因而,期望能够充分考虑基因序列的自身特点,来提供用于确定第一基因序列与第二基因序列之间的相似性的更加有效的技术方案。进一步,期望可以基于该确定相似性的方法来找到更加匹配于待存储基因序列的参考基因序列,以便降低待存储基因序列和参考基因序列之间的差异数据的数据量,进而实现更好的数据压缩效果。在本专利技术的一个实施方式中,提供了一种用于确定第一基因序列与第二基因序列之间的相似性的方法,包括:分别在第一基因序列和第二基因序列上移动预定长度的滑动窗口;在滑动窗口的第i次移动期间,提取所述第一基因序列在所述滑动窗口内的第一部分String1i、和所述第二基因序列在所述滑动窗口内的第二部分String2i;以及基于第一部分String1i和第二部分String2i确定第一基因序列与第二基因序列之间的相似性。在本专利技术的一个实施方式中,提供了一种用于压缩基因序列的方法,包括:响应于获取基因序列以及至少一个参考基因序列,采用根据本专利技术的方法,确定至少一个参考基因序列中的每个参考基因序列与基因序列之间的至少一个相似性;响应于至少一个相似性中的最小值小于或者等于预定阈值,选择相似性为最小值的参考基因序列作为当前参考基因序列;以及生成经压缩的基因序列,经压缩的基因序列包括当前参考基因序列的标识符以及基因序列与当前参考基因序列之间的差异数据。在本专利技术的一个实施方式中,提供了一种用于对经压缩的基因序列进行解压缩的方法,包括:响应于接收到根据本专利技术方法进行压缩的经压缩的基因序列,从经压缩的基因序列中提取当前参考基因序列的标识符以及差异数据;基于当前参考基因序列的标识符从参考数据库中获取当前参考基因序列;以及基于参考基因序列和差异数据,对经压缩的基因序列进行解压缩。在本专利技术的一个实施方式中,提供了一种用于确定第一基因序列与第二基因序列之间的相似性的装置,包括:移动模块,配置用于分别在第一基因序列和第二基因序列上移动预定长度的滑动窗口;提取模块,配置用于在滑动窗口的第i次移动期间,提取所述第一基因序列在所述滑动窗口内的第一部分String1i、和所述第二基因序列在所述滑动窗口内的第二部分String2i;以及确定模块,配置用于基于第一部分String1i和第二部分String2i确定第一基因序列与第二基因序列之间的相似性。在本专利技术的一个实施方式中,提供了一种用于压缩基因序列的装置,包括:确定模块,配置用于响应于获取基因序列以及至少一个参考基因序列,采用根据本专利技术的装置,确定至少一个参考基因序列中的每个参考基因序列与基因序列之间的至少一个相似性;选择模块,配置用于响应于至少一个相似性中的最小值小于或者等于预定阈值,选择相似性为最小值的参考基因序列作为当前参考基因序列;以及生成模块,配置用于生成经压缩的基因序列,经压缩的基因序列包括当前参考基因序列的标识符以及基因序列与当前参考基因序列之间的差异数据。在本专利技术的一个实施方式中,提供了一种用于对经压缩的基因序列进行解压缩的装置,包括:提取模块,配置用于响应于接收到根据本专利技术的装置进行压缩的经压缩的基因序列,从经压缩的基因序列中提取当前参考基因序列的标识符以及差异数据;获取模块,配置用于基于当前参考基因序列的标识符从参考数据库中获取当前参考基因序列;以及解压模块,配置用于基于参考基因序列和差异数据,对经压缩的基因序列进行解压缩。采用根据本专利技术的实施方本文档来自技高网
...

【技术保护点】
一种用于确定第一基因序列与第二基因序列之间的相似性的方法,包括:分别在所述第一基因序列和所述第二基因序列上移动预定长度的滑动窗口;在所述滑动窗口的第i次移动期间,提取所述第一基因序列在所述滑动窗口内的第一部分String1i、和所述第二基因序列在所述滑动窗口内的第二部分String2i;以及基于所述第一部分String1i和所述第二部分String2i确定所述第一基因序列与所述第二基因序列之间的相似性。

【技术特征摘要】
1.一种用于确定第一基因序列与第二基因序列之间的相似性的
方法,包括:
分别在所述第一基因序列和所述第二基因序列上移动预定长度
的滑动窗口;
在所述滑动窗口的第i次移动期间,提取所述第一基因序列在所述
滑动窗口内的第一部分String1i、和所述第二基因序列在所述滑动窗口
内的第二部分String2i;以及
基于所述第一部分String1i和所述第二部分String2i确定所述第一基
因序列与所述第二基因序列之间的相似性。
2.根据权利要求1所述的方法,其中所述分别在所述第一基因
序列和所述第二基因序列上移动所述预定长度的所述滑动窗口包括:
以小于或者等于所述预定长度的步长来移动所述滑动窗口。
3.根据权利要求1或2所述的方法,其中所述基于所述第一部
分String1i和所述第二部分String2i确定所述第一基因序列与所述第二基
因序列之间的所述相似性包括:在所述滑动窗口的所述第i次移动期
间,
计算所述第一部分String1i和所述第二部分String2i之间的局部相似
性similarityi;以及
基于所述局部相似性similarityi确定所述第一基因序列与所述第二
基因序列之间的相似性。
4.根据权利要求3所述的方法,其中所述计算所述第一部分String1i和所述第二部分String2i之间的所述局部相似性similarityi包括:
基于所述第一部分String1i和所述第二部分String2i之间的编辑距离
di计算所述局部相似性similarityi。
5.根据权利要求3所述的方法,其中所述基于所述局部相似性
similarityi确定所述第一基因序列与所述第二基因序列之间的所述相似

\t性包括:
基于以下公式计算所述相似性其中N为所
述滑动窗口移动的次数。
6.一种用于压缩基因序列的方法,包括:
响应于获取所述基因序列以及至少一个参考基因序列,采用根据
权利要求1-5中的任一项所述的方法,确定所述至少一个参考基因序
列中的每个参考基因序列与所述基因序列之间的至少一个相似性;
响应于所述至少一个相似性中的最小值小于或者等于预定阈值,
选择相似性为所述最小值的所述参考基因序列作为当前参考基因序
列;以及
生成经压缩的基因序列,所述经压缩的基因序列包括所述当前参
考基因序列的标识符以及所述基因序列与所述当前参考基因序列之
间的差异数据。
7.根据权利要求6所述的方法,其中所述生成所述经压缩的基
因序列包括:
响应于所述基因序列中存在注释,在所述经压缩的基因序列中包
括所述注释的位置和标识符;以及
在所述经压缩的基因序列中包括所述基因序列中的一部分与所
述当前参考基因序列的相应部分之间的差异数据,所述基因序列中的
所述一部分是无关于所述注释的部分。
8.根据权利要求6所述的方法,其中所述生成经压缩的基因序
列包括:
将所述基因序列划分为多个分段;
针对所述多个分段中的每个分段,
在所述当前参考基因序列内搜索与所述每个分段相匹配的部
分;
在所述经压缩的基因序列中包括所述相匹配的部分在所述当
前参考基因序列中的位置、以及所述每个分段与所述相匹配的部
分之间的差异数据。
9.根据权利要求6所述的方法,进一步包括:
响应于所述至少一个相似性中的所述最小值大于所述预定阈值,
将所述基因序列与其他待压缩基因序列划分至至少一个聚类,其中所
述其他待压缩基因序列中的每个基因序列与所述至少一个参考基因
序列中的任一参考基因序列之间的相似性大于所述预定阈值;以及
生成经压缩的基因序列,所述经压缩的基因序列包括所述基因序
列所属于的聚类的聚类中心的指示符、以及所述基因序列与所述聚类
中心之间的差异数据。
10.一种用于对经压缩的基因序列进行解压缩的方法,包括:
响应于接收到根据权利要求6-8中的任一项所述的方法进行压缩
的经压缩的基因序列,从所述经压缩的基因序列中提取当前参考基因
序列的标识符以及差异数据;
基于所述当前参考基因序列的标识符从参考数据库中获取当前
参考基因序列;以及
基于所述参考基因序列和所述差异数据,对所述经压缩的基因序
列进行解压缩。
11.一种用...

【专利技术属性】
技术研发人员:丁建栋朱俊黄胜张亚楠严骏驰
申请(专利权)人:国际商业机器公司
类型:发明
国别省市:美国;US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1