【技术实现步骤摘要】
【国外来华专利技术】具有组格式的可变长度数据的改进型编码和解码
技术介绍
典型的搜索引擎索引算法采用反向索引数据结构。这在概念上类似于书籍背后的索引,它是将例如,词汇列表的索引数据结构映射到其在文档(或文档集)中的位置的索引数据结构。在搜索引擎的应用环境中,文档通常是Web页面、电子邮件消息等。词汇在文档中出现可以称为收录,包括一个词汇的所有文档的列表可以称为收录列表。刚好与书籍索引条目列表页码一样,收录列表可以包括文档标识号(docID)。当搜索引擎接收查询时,它可以对收录列表查找查询中的每个词汇,并组合结果。为了高效地组合结果,可以按其docID的次序存储器这些收录。期望将收录列表存储在尽可能小的空间中。使用相邻docID之间的差而非docID本身,收录能够包括更少的数量。从常用数据库到MIDI规范,有多种其他示例,其中可以更紧密地将数据编码,然后在较后的点处将其解码,其中常常基于需要数据的时间重复地进行解码。有多种为将数据存储在更少的空间中而开发的技术。但是,这些方法或许有缺点,包括速度限制或存储效率限制。附图简介将参考附图描述根据本专利技术披露的多种实施例,其中:图1图示其中能够实 ...
【技术保护点】
一种用于将可变长度数据解码的系统,其包括:处理器;以及存储装置,所述存储装置包括在被所述处理器执行时使所述系统执行如下操作的指令:读取一个或多个数据块,每个数据块包括多个编码的可变长度数据;读取与所述一个或多个数据块链接的一个或多个描述符;从查询表标识与所述一个或多个描述符链接的一个或多个整理序列;使用一个或多个所标识的整理序列对所述一个或多个数据块执行一个或多个整理操作;以及由整理的一个或多个数据块确定多个解码的可变长度数据。
【技术特征摘要】
【国外来华专利技术】2011.02.24 US 61/446,364;2011.03.31 US 13/077,4791.一种用于将可变长度数据解码的系统,其包括:处理器;以及存储器装置,所述存储器装置包括在被所述处理器执行时使所述系统执行如下操作的指令:读取一个或多个数据块,每个数据块包括多个编码的可变长度数据,所述多个编码的可变长度数据中的每一个表示文档标识号之间的差,并且以封包一进制或组一进制格式中的至少一个编码;读取与所述一个或多个数据块链接的一个或多个描述符,每个描述符包括所述一个或多个数据块的尺寸信息;从查询表标识与所述一个或多个描述符链接的一个或多个整理序列;通过使用所述一个或多个整理序列对所述一个或多个数据块并行执行一个或多个整理操作生成整理的数据;将一个或多个零序列插入所述整理的数据以标准格式表示所述一个或多个数据块的一个或多个部分;以及由所述整理的一个或多个数据块确定多个解码的可变长度数据。2.如权利要求1所述的用于将可变长度数据解码的系统,其中通过并行执行一个或多个整理操作生成整理的数据还包括,将一个或多个零序列插入到所述整理的一个或多个数据块以按标准格式来表示所述一个或多个数据块的一个或多个部分。3.如权利要求1所述的用于将可变长度数据解码的系统,其中所述一个或多个数据块表示多个可变长度整数。4.如权利要求1所述的用于将可变长度数据解码的系统,其中由所述整理的一个或多个数据块确定多个解码的可变长度数据还包括:由所述整理的一个或多个数据块确定部分结果,其中由另一个数据块确定与所述部分结果关联的剩余部分。5.如权利要求1所述的用于将可变长度数据解码的系统,其中所述一个或多个整理操作包括来自单指令多数据(SIMD)处理器指令集的一个或多个并行整理指令。6.如权利要求1所述的用于将可变长度数据解码的系统,其还包括:标识与所述一个或多个描述符链接的一个或多个偏移量。7.如权利要求6所述的用于将可变长度数据解码的系统,其中与所述一个或多个描述符链接的所述一个或多个偏移量包括具有固定大小的输入偏移量和可变大小的输...
【专利技术属性】
技术研发人员:丹尼尔·E·罗斯,亚历山大·A·斯特潘诺夫,阿尼尔·拉梅什·冈格利,帕拉姆吉特·S·奥比罗,瑞安·雅各布·恩斯特,
申请(专利权)人:A九COM公司,
类型:
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。