【技术实现步骤摘要】
本专利技术的各实施方式涉及数据管理,更具体地,涉及用于管理基因序列(genesequence)的方法和装置。
技术介绍
随着生物学的发展,人类对于生物基因的研究已经越来越深入,例如,已经涉及到了诸如人类健康、药物研发、动植物新品种以及关于微生物等诸多方面。通过对生物的基因序列进行测序(sequencing),可以获得构成该生物的染色体的碱基对的序列。通常,将测量一个物种的第一个样本的基因序列的过程称为测序,而将测量该物种的其他样本的基因序列的过程称为重测序(re-sequencing)。测序和重测序技术已经实现了突破,并且随着所涉及的各项成本的降低,越来越多的个人或者团体开始认识到基因序列的重要性,并且目前已经通过测序/重测序过程而获得了大量物种的基因序列数据。基因序列包括大量数据,仅以人类基因为例,人类基因包括大约30亿个碱基对,按照现有的表示方式,人类的基因序列将包括大约60亿个字符(字符A、G、T、C)。因而,在基因数据库中存储的每个基因序列将会占用大量的存储空间。进一步,当需要存储大量基因序列、或者当需要针对基因序列进行拷贝和传输时,将会面临数据存储/数据传输效率方面的更多挑战。生物学家已经发现,同一物种的各个样本的基因序列之间存在一定的相似性。例如,人类的基因序列之间的相似性远远高于人类与其他物种的基因序列之间的相似性;进一步,黄色人种的基因序列之间的相似性通常会 ...
【技术保护点】
一种用于确定第一基因序列与第二基因序列之间的相似性的方法,包括:分别在所述第一基因序列和所述第二基因序列上移动预定长度的滑动窗口;在所述滑动窗口的第i次移动期间,提取所述第一基因序列在所述滑动窗口内的第一部分String1i、和所述第二基因序列在所述滑动窗口内的第二部分String2i;以及基于所述第一部分String1i和所述第二部分String2i确定所述第一基因序列与所述第二基因序列之间的相似性。
【技术特征摘要】
1.一种用于确定第一基因序列与第二基因序列之间的相似性的
方法,包括:
分别在所述第一基因序列和所述第二基因序列上移动预定长度
的滑动窗口;
在所述滑动窗口的第i次移动期间,提取所述第一基因序列在所述
滑动窗口内的第一部分String1i、和所述第二基因序列在所述滑动窗口
内的第二部分String2i;以及
基于所述第一部分String1i和所述第二部分String2i确定所述第一基
因序列与所述第二基因序列之间的相似性。
2.根据权利要求1所述的方法,其中所述分别在所述第一基因
序列和所述第二基因序列上移动所述预定长度的所述滑动窗口包括:
以小于或者等于所述预定长度的步长来移动所述滑动窗口。
3.根据权利要求1或2所述的方法,其中所述基于所述第一部
分String1i和所述第二部分String2i确定所述第一基因序列与所述第二基
因序列之间的所述相似性包括:在所述滑动窗口的所述第i次移动期
间,
计算所述第一部分String1i和所述第二部分String2i之间的局部相似
性similarityi;以及
基于所述局部相似性similarityi确定所述第一基因序列与所述第二
基因序列之间的相似性。
4.根据权利要求3所述的方法,其中所述计算所述第一部分String1i和所述第二部分String2i之间的所述局部相似性similarityi包括:
基于所述第一部分String1i和所述第二部分String2i之间的编辑距离
di计算所述局部相似性similarityi。
5.根据权利要求3所述的方法,其中所述基于所述局部相似性
similarityi确定所述第一基因序列与所述第二基因序列之间的所述相似
\t性包括:
基于以下公式计算所述相似性其中N为所
述滑动窗口移动的次数。
6.一种用于压缩基因序列的方法,包括:
响应于获取所述基因序列以及至少一个参考基因序列,采用根据
权利要求1-5中的任一项所述的方法,确定所述至少一个参考基因序
列中的每个参考基因序列与所述基因序列之间的至少一个相似性;
响应于所述至少一个相似性中的最小值小于或者等于预定阈值,
选择相似性为所述最小值的所述参考基因序列作为当前参考基因序
列;以及
生成经压缩的基因序列,所述经压缩的基因序列包括所述当前参
考基因序列的标识符以及所述基因序列与所述当前参考基因序列之
间的差异数据。
7.根据权利要求6所述的方法,其中所述生成所述经压缩的基
因序列包括:
响应于所述基因序列中存在注释,在所述经压缩的基因序列中包
括所述注释的位置和标识符;以及
在所述经压缩的基因序列中包括所述基因序列中的一部分与所
述当前参考基因序列的相应部分之间的差异数据,所述基因序列中的
所述一部分是无关于所述注释的部分。
8.根据权利要求6所述的方法,其中所述生成经压缩的基因序
列包括:
将所述基因序列划分为多个分段;
针对所述多个分段中的每个分段,
在所述当前参考基因序列内搜索与所述每个分段相匹配的部
分;
在所述经压缩的基因序列中包括所述相匹配的部分在所述当
前参考基因序列中的位置、以及所述每个分段与所述相匹配的部
分之间的差异数据。
9.根据权利要求6所述的方法,进一步包括:
响应于所述至少一个相似性中的所述最小值大于所述预定阈值,
将所述基因序列与其他待压缩基因序列划分至至少一个聚类,其中所
述其他待压缩基因序列中的每个基因序列与所述至少一个参考基因
序列中的任一参考基因序列之间的相似性大于所述预定阈值;以及
生成经压缩的基因序列,所述经压缩的基因序列包括所述基因序
列所属于的聚类的聚类中心的指示符、以及所述基因序列与所述聚类
中心之间的差异数据。
10.一种用于对经压缩的基因序列进行解压缩的方法,包括:
响应于接收到根据权利要求6-8中的任一项所述的方法进行压缩
的经压缩的基因序列,从所述经压缩的基因序列中提取当前参考基因
序列的标识符以及差异数据;
基于所述当前参考基因序列的标识符从参考数据库中获取当前
参考基因序列;以及
基于所述参考基因序列和所述差异数据,对所述经压缩的基因序
列进行解压缩。
11.一种用...
【专利技术属性】
技术研发人员:丁建栋,朱俊,黄胜,张亚楠,严骏驰,
申请(专利权)人:国际商业机器公司,
类型:发明
国别省市:美国;US
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。