数据处理装置和为值串形式索引值建立索引的方法制造方法及图纸

技术编号:6537802 阅读:273 留言:0更新日期:2012-04-11 18:40
本发明专利技术涉及一种数据处理装置和为值串形式索引值建立索引的索引方法。该数据处理装置包括为值串形式的索引值建立前缀树索引的索引部分,索引部分包括:中间索引值获取单元,用于将索引值补位到预定长度,并基于补位后的各索引值的相应位以及相应位的组合来获取中间索引值;中间索引项产生单元,用于产生针对中间索引值的索引数据作为中间索引数据,并建立中间索引值与中间索引数据之间的对应关系,中间索引数据是中间索引值覆盖的各索引值的索引数据或索引数据的变形的集合;在该集合中,索引数据或索引数据的变形按照与索引值的各位相关的预定顺序排列,且每一个索引值的索引数据或索引数据的变形各自包含表示本身在何处结束的结束标志。

【技术实现步骤摘要】

本专利技术涉及信息、数据处理领域,尤其涉及一种。
技术介绍
随着网络技术的发展,数据信息量呈指数增长。如何快速对数据信息进行有效的检索和查询成为关注焦点。在这样的背景下,建立便于查询的高效索引是解决该问题的有效途径。在各种数据类型中,对于特定应用,需要对某一范围内的值串形式的数据进行检索。值串形式的数据例如数字串、时间数据以及字符串等。作为值串形式的数据索弓丨,以日期时间索引为例。在现有技术中,信息检索系统中对于日期、时间等类型数据的索引通常以最小时间粒度为单位作为索引值选择的依据。因此,检索系统在对日期数据进行索引之前,需要在年、月、日、时、分的单位内建立该范围的秒级索引项,以便检索查询。然而这会导致大量索引项,通常会使得检索系统需要遍历的索引项数过多,从而降低系统的效率。对数字串或字符串的范围检索同样存在这样的问题。例如,对abc、abb. . . abx范围内的字符串进行检索,同样存在磁盘访问次数过多,系统检索效率低的问题。
技术实现思路
本专利技术的一个目的是提供一种数据处理装置,其能够减少范围检索中的磁盘访问次数,从而提高值串形式数据的检索效率。本专利技术的另一个目的是提供一种在数据处理装置中用于为值串形式的索引值建立前缀树索引的方法,其能够减少范围检索中的磁盘访问次数,从而提高值串形式数据的检索效率。本专利技术的一个实施例是一种数据处理装置,包括为值串形式的索引值建立前缀树索引的索引部分,索引部分包括中间索引值获取单元,用于将索引值补位到预定长度,并基于补位后的各索引值的相应位以及相应位的组合来获取中间索引值;中间索引项产生单元,用于产生针对中间索引值的索引数据作为中间索引数据,并建立中间索引值与中间索引数据之间的对应关系,中间索引数据是中间索引值覆盖的各索引值的索引数据或这些索引数据的变形的集合;其中,在该集合中,索引数据或这些索引数据的变形按照与索引值的各位相关的预定顺序排列,并且,每一个索引值的索引数据或索引数据的变形各自包含表示本身在何处结束的结束标志。在本专利技术的一个实施例中,在每一个文档具有一个索引值的应用中,中间索引数据是中间索引值覆盖的各索引值的相应索引数据的集合。在本专利技术的一个实施例中,在文档的至少之一具有多于一个索引值的应用中,中间索引数据是中间索引值覆盖的各索引值的相应索引数据的变形的集合。在本专利技术的一个实施例中,中间索引项产生单元还包括前向索引产生单元,用于产生中间索引值的前向索引数据,并建立中间索引值与其前向索引数据之间的对应关系; 后向索引产生单元,用于产生中间索引值的后向索引数据,并建立中间索引值与其后向索引数据之间的对应关系。在本专利技术的一个实施例中,在前向索引产生单元中,对于每一个中间索引值,将该中间索引值覆盖的索引值按照与索引值的各位相关的预定顺序排列,并从前向后遍历这些索引值,利用等式(1)来获得中间索引值的前向索引数据本文档来自技高网...

【技术保护点】
1.一种数据处理装置,包括为值串形式的索引值建立前缀树索引的索引部分,所述索引部分包括:中间索引值获取单元,用于将索引值补位到预定长度,并基于补位后的各索引值的相应位以及所述相应位的组合来获取中间索引值;中间索引项产生单元,用于产生针对所述中间索引值的索引数据作为中间索引数据,并建立所述中间索引值与所述中间索引数据之间的对应关系,所述中间索引数据是所述中间索引值覆盖的各索引值的索引数据或这些索引数据的变形的集合;其中,在所述集合中,所述索引数据或这些索引数据的变形按照与所述索引值的各位相关的预定顺序排列,并且,每一个索引值的索引数据或索引数据的变形各自包含表示本身在何处结束的结束标志。

【技术特征摘要】
1.一种数据处理装置,包括为值串形式的索引值建立前缀树索引的索引部分,所述索引部分包括中间索引值获取单元,用于将索引值补位到预定长度,并基于补位后的各索引值的相应位以及所述相应位的组合来获取中间索引值;中间索引项产生单元,用于产生针对所述中间索引值的索引数据作为中间索引数据, 并建立所述中间索引值与所述中间索引数据之间的对应关系,所述中间索引数据是所述中间索引值覆盖的各索引值的索引数据或这些索引数据的变形的集合;其中,在所述集合中,所述索引数据或这些索引数据的变形按照与所述索引值的各位相关的预定顺序排列,并且,每一个索引值的索引数据或索引数据的变形各自包含表示本身在何处结束的结束标志。2.根据权利要求1所述的数据处理装置,其中,在文档的至少之一具有多于一个索引值的应用中,所述中间索引数据是所述中间索引值覆盖的各索引值的相应索引数据的变形的集合。3.根据权利要求2所述的数据处理装置,其中,所述中间索引项产生单元还包括前向索引产生单元,用于产生所述中间索引值的前向索引数据,并建立所述中间索引值与其前向索引数据之间的对应关系;后向索引产生单元,用于产生所述中间索引值的后向索引数据,并建立所述中间索引值与其后向索引数据之间的对应关系。4.根据权利要求3所述的数据处理装置,其中,在所述前向索引产生单元中,对于每一个中间索引值,将该中间索引值覆盖的索引值按照与所述索引值的各位相关的所述预定顺序排列,并从前向后遍历这些索引值,利用等式(1)来获得所述中间索引值的前向索引数据5.根据权利要求3所述的数据处理装置,其中,在所述后向索引产生单元中,对于每一个中间索引值,将该中间索引值覆盖的索引值按照与所述索引值的各位相关的所述预定顺序的相反顺序排列,并从前向后遍历这些索引值,利用等式(2)来获得所述中...

【专利技术属性】
技术研发人员:王主龙葛付江于浩贾文杰何楠王新文贾晓建
申请(专利权)人:富士通株式会社
类型:发明
国别省市:JP

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1