具有对压缩数据的快速操作的前缀Burrow-Wheeler变换制造技术

技术编号:18466034 阅读:233 留言:0更新日期:2018-07-18 16:02
描述了前缀Burrows‑Wheeler变换(“PWBT”)以提供对数据集的数据操作,即使数据集被压缩。还描述了建立PWBT的技术——包括偏移表和前缀表——以及在数据集上应用由PWBT执行的数据操作的技术。数据操作包括k‑Mer子字符搜索。描述了使用PWBT例如剽窃搜索和开放源清理的技术的一般应用。还描述了PWBT的生物信息应用,例如基因组分析和基因组标记。

Prefix Burrow-Wheeler transform with fast operation on compressed data

The prefix Burrows Wheeler transform (\PWBT\) is described to provide data manipulation of the data set, even if the data set is compressed. Techniques for building PWBT, including offset tables and prefix tables, are also described, as well as techniques for applying data operations implemented by PWBT on data sets. The data operation includes the K Mer subcharacter search. General applications of technologies such as plagiarism search and open source cleanup using PWBT are described. Bioinformatics applications such as genomic analysis and genomic labeling of PWBT are also described.

【技术实现步骤摘要】
【国外来华专利技术】具有对压缩数据的快速操作的前缀Burrow-Wheeler变换
技术介绍
当执行数据处理时,计算机用于获取可被表示为计算机存储器中的结构和/或在持久性计算机存储器上的文件格式的数据,并对数据执行被称为数据操作的操作。一般对数据执行数据操作,该数据一般被区分为被称为数据集的离散集。对在数据处理的过程中的数据集的一般数据操作可包括:搜索,其为数据集的期望子集的取回;分类,其为数据集的重新组织;以及转换,其为将数据集从一个表示转换到另一表示。随着时间的过去,数据处理可采用的处理能力快速增加,但在很多情况中应用于数据处理技术的数据的数量甚至更快地增加。相应地,数据处理需要搜索、分类、转换和其它数据操作。通常通过减小用于执行操作的工作存储器的数量或通过提高操作的处理效率以便减小处理时间来提高数据操作。在大部分情况下,工作存储器的数量和处理效率导致优化折衷。减小在操作中的工作存储器的数量常常导致较低的处理效率。相反,增加处理效率导致在处理期间使用的存储器的较大数量。在同一优化中实现减小的存储器利用和较大的处理效率是相对罕见的。然而,对于大数据集——其为如此大的数据集使得执行数据操作太慢而不能实现交互式处理,以存储器利用为代价提高处理效率可使优化变得不实际。增加非常大的数据集的尺寸可导致所使用的存储器的数量大于可用存储器的数量。相应地,即使对数据操作的处理提高的优化很重要,它也由于可用的数量不够而对实现是不可用的。因此很多优化技术对大数据集应用是不实际的。目前存在很多大数据集应用。一些例子包括文档处理、图像处理、多媒体处理和生物信息学。例如,在生物信息学的情况下,所处理的数据由定义生物体的基因信息组成。基因信息由一系列碱基对腺嘌呤-胸腺嘧啶和鸟嘌呤-胞嘧啶组成。生物体越复杂,用于定义生物体的碱基对就越多。例如,大肠埃希氏杆菌使用大约4600万碱基对。相反,简单的病毒可用作少至几千个碱基对。生物信息学的主要应用是在人类中的基因条件的分析中,在用于药物疗法的搜索中。人类的基因信息是320亿碱基对。相应地,被分配到碱基对以便提高处理的每个字节潜在地添加工作存储器的额外3.2Gb。当执行序列比较时,使用人类或在分析中的其它生物体的不同实例,在数据处理期间使用的存储器的数量可快速扩大到难处理的数量。相应地,存在对提高例如在生物信息学中对大数据集的数据操作的处理速度同时减小所使用的存储器的数量的技术的需要。附图说明参考附图阐述详细描述。图1是前缀Burrow-Wheeler变换的顶级图。图2是前缀Burrow-Wheeler变换的示例性性能的流程图。图3a、3b、3c、3d、3e、3f、3g、3h、3i、3j和3k是经历前缀Burrow-Wheeler变换的示例性数据集的图示。图4是在前缀Burrow-Wheeler变换中的前缀表的示例性压缩数据存储器布局。图5是对由前缀Burrow-Wheeler变换来变换的数据的示例性k-Mer搜索数据操作的流程图。图6a、6b、6c、6d和6e是由经由示例性k-Mer搜索遍历的前缀Burrow-Wheeler变换来变换的示例性数据的图示。图7是前缀Burrow-Wheeler变换的示例性硬件、软件和通信环境的图。具体实施方式前缀Burrow-Wheeler变换技术的上下文概述在本文公开了对为性能时间和存储器都优化的大数据集执行数据操作的系统和方法。具体地,公开了前缀Burrow-Wheeler变换(“PBWT”)技术。为了帮助公开,这章描述基础PBWT。数据和数据表示的封闭域优化数据操作可利用对填充数据集的数据的洞察力。具体地,所有可能的数据的集合可填充被称为数据集的域的数据集。一些域是开放的,其中任何数据可被包括在数据集中。开放域的例子是模拟信号的表示,其中可被表示的信号的频率和振幅最初未被限制。其它域是封闭的,其中只有数据的有限集合可被准许进入数据集内。封闭域的例子是文本数据,其中只有被准许进入的数据是文本字符。在一些系统中,文本字符被限制到美国信息交换标准代码(“ASCII”)字符——表示拉丁字母数字字符、标点符号和公共格式化字符的128个字符的预定集合。相应地,可以在信息的七个位(即27=128)中表示每个ASCII字符。存在由可包括扩充的二进制编码的十进制交换码(“EBCDIC”)字符集和IBM扩充ASCII字符集的256个字母数字字符组成的其它封闭域,这两个字符集都具有由信息的八位(即28=256)表示的字符。注意,封闭域不需要由自然语言的整个字母表组成。如前面提到的,基因碱基对由腺嘌呤-胸腺嘧啶和鸟嘌呤-胞嘧啶对组成。相应地,基因信息的数据域可以是通常被表示为A、T、G和C的腺嘌呤、胸腺嘧啶、鸟嘌呤和胞嘧啶的封闭集合。因为在这个封闭集合中只有四个元素,这些元素可被表示在两对(即22=4)中。理解数据集的域并理解域如何在计算机存储器中被表示可帮助识别在数据操作中的效率。例如,考虑计算机程序与仅仅由大写和小写字母字符组成的ASCII字符一起工作的例子,即没有数字、标点符号或格式化字符。大写字母“A”由数字65(或在二进制中的0b1000001)表示,以及小写字母“a”由数字97(或在二进制中的0b1100001)表示。注意,小写字符具有比大写字符多32的值。因此相应地切换第六位在大写和小写字母之间切换字符。在ASCII中将小写字母都转换成大写字母的计算机程序可由关于每个字符是否是小写或大写字符来测试它的例程实现。如果字符是小写字符,则程序可调用查找表以将小写字符转换成它的相应大写字符。然而,可利用下面的知识来实现有效得多和等效的程序:ASCII大写和小写字符如何被编码并简单地使(0b0100000)的异或位掩码应用于每个字符。因此,没有存储器将用于查找表,且单个操作(异或)而不是对字盘和对更换进行测试的两个操作需要每字符被使用。相应地,这个实现同时表示在所使用的工作存储器的数量中的提高和在处理效率中的增加。搜索技术和优化在下面的讨论中,我们描述了关于如何在存储器中表示数据集的洞察力可用于优化数据操作。关于什么特定的数据操作将被执行的洞察力也可用于优化那个数据操作的实现。例如,搜索是公共数据操作,其中在数据集中检测到模式。然而,搜索数据操作具有不同程度的保真度。搜索数据操作可以是存在的,其中搜索数据操作简单地确定模式是否存在于数据集中。例如,对在数据集“ABBBCCCD”中的字母“C”的存在搜索可简单地返回值“真”,因为字母“C”确实在数据集中。搜索数据操作可以是基本的,其中搜索数据操作不仅对存在进行测试,而且对待检测的模式的实例的数量计数。例如,对在数据集“ABBBCCCD”中的字母“C”的基本搜索可返回3,因为字母“C”在数据集中出现三次。搜索操作可以是位置上的,其中搜索数据操作返回待检测的模式的位置。例如,在数据集“ABBBCCCD”中的字母“C”的位置搜索可返回5,因为在数据集中的字母“C”的第一实例在第五位置上。因此,如果理解了计算机程序将被优化用于存在搜索而不是基本搜索,则实现可以是扫描数据集,直到它发现模式的第一实例被检测到为止。这与可能扫描整个数据集的基本搜索相反,因为它对待检测的模式的实例的数量计数。因此,由跟随有搜索字母“C”的百万“A”字符的字母本文档来自技高网...

【技术保护点】
1.一种包括软件组件以对一组原始词素的前缀表表示执行存在搜索数据操作的系统,包括:处理器;存储器,可通信地耦合到所述处理器;持久存储器,可通信地耦合到存储一组原始词素的前缀表表示的所述处理器;存在搜索软件组件,被存储在所述存储器中,配置成接收搜索模式并对在所述前缀表表示中的所述搜索模式执行词素搜索。

【技术特征摘要】
【国外来华专利技术】2014.05.13 US 14/277,0381.一种包括软件组件以对一组原始词素的前缀表表示执行存在搜索数据操作的系统,包括:处理器;存储器,可通信地耦合到所述处理器;持久存储器,可通信地耦合到存储一组原始词素的前缀表表示的所述处理器;存在搜索软件组件,被存储在所述存储器中,配置成接收搜索模式并对在所述前缀表表示中的所述搜索模式执行词素搜索。2.如权利要求1所述的系统,其中用于存储一组原始词素的所述前缀表表示的持久存储器的数量与在所述组原始词素中的唯一词素的数量线性地成比例。3.如权利要求1所述的系统,包括存储在所述持久存储器中的偏移表,其中所述...

【专利技术属性】
技术研发人员:杰里米·布吕斯特勒
申请(专利权)人:螺旋遗传学公司
类型:发明
国别省市:美国,US

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1