文档管理方法和装置以及文档搜索方法和装置制造方法及图纸

技术编号:2849875 阅读:175 留言:0更新日期:2012-04-11 18:40
一种文档管理方法,包括从文档数据移动多个字符的字符串并剪辑它,确定通过剪辑所获得的管理Gram是第一低频Gram和第二高频Gram中的一个,将第一登记数据存储在与通过计算第一Gram的字符串获得的Gram值相关的第一登记区中,该第一登记数据具有指示包含第一Gram的文档数据的一组文档标识符(ID)和指示其字符串位置的文档内偏移量,以及将第二登记数据存储在与第二Gram的字符串相关的第二登记区中,该第二登记数据具有指示包含第二Gram的文档数据的一组文档标识符(ID)和指示其字符串位置的文档内偏移量。

【技术实现步骤摘要】

本专利技术涉及用于有效地管理登录的文档以搜索保存在存储器中的大量文档中与检索关键字匹配的文档的文档管理方法,用于搜索文档的文档搜索方法,以及有效管理文档的文档管理系统。
技术介绍
已知一种索引生成方法,用于在保存文档数据到存储器中时生成索引,以便当从大量保存在数据库中的一组文档数据中搜索与搜索关键字匹配的文档数据时加速检索。一种用于以文档数据中的连续N个字符为单位编制N字符索引的方法是已知的。这被称作N-Gram索引系统。N表示大于1的整数,对于日文文献来说,常规的是以N=2(双Gram)为单位来剪辑Gram。对于英文文献来说,通常是以N=3以上为单位来剪辑Gram。在例如N=2的情况下,字符串例如“XMLデ一タベ一ス”被剪辑成”XM”,”ML”,”Lデ”,”デ一”,”一タ”,”タベ”,”ベ一”,”一ス”。在检索文档数据组时,使用从检索关键字剪辑的Gram作为索引进行搜索。该N-Gram索引系统不需要依赖于语言的词典,并且便于多语种应用。其对于没有任何词汇分隔符(例如空格)的日语和汉语来说特别有用。如果利用与偏移量(文档数据中Gram出现的位置)合并的Gram进行检索,则可以减少搜索损耗。虽然具有这种优点,但是N-Gram索引系统具有相对于Gram的大小(N的大小)而折衷的问题。换句话说,如果N的大小增加,就要精拣对应于作为索引的Gram的文档数据的候选,从而提高检索速度。Gram信息区(存储器中用于存储有关Gram的信息的区域)呈指数增长。相反,如果N的大小减少,就要增加对应于Gram的文档数据的候选数目。因此,用于调配位置的次数增加,从而增加搜索时间。此外,如果N的大小增加,索引的类型数目(Gram类)也增加。当从例如N=2的日文文献中提取索引时,出现多于3M字节的Gram类。因此,当N增加大于2时,很明显索引数据的大小会进一步增加。针对有关N的大小的折衷问题,日本专利公开No.2000-57151提供了一种为了增加搜索速度并抑制索引数据大小的增长到最小而增加N的大小的方法。换句话说,通过对应于检索项的子串的索引,提取使位置关系作为检索项子串的文本数据的位置信息,并且将与该文本数据子串对应的索引的大小与预定的参考索引大小进行比较。当该索引的大小大于参考索引的大小时,确定是否与该索引对应的子串最可能被搜索。当其最可能被搜索时,通过添加字符串到所述子串中获得扩展字符串,并生成对应于该扩展字符串的索引。根据日本专利公开No.2000-57151,如果N的大小增加,则当给出较长的搜索关键字时,Gram类的数目可以减少。然而,要精确地设置用于确定是否最有可能搜索对应于该索引的字符串以及有效的增加N的大小是困难的。因此,存在缩短登录和检索文档的时间的限制。
技术实现思路
本专利技术的目的是提供一种能够实现缩短登录和搜索文档的时间、同时使用N-Gram索引系统的文档管理方法,使用N-Gram索引系统的文档检索方法,及其文档管理系统。本专利技术的一个方面提供了一种用于管理存储在存储单元的文档数据区中的文档数据的文档管理方法,包括从文档数据移动给定字符数量的字符串并剪辑该字符串以产生管理Gram;确定该管理Gram是小于阈值的较低发生频率的第一Gram和不小于该阈值的较高发生频率的第二Gram中的一个;与通过计算第一Gram的字符串获得的Gram值相关,将第一登记(post)数据存储在存储单元的第一登记区中,该第一登记数据被配置具有指示包含第一Gram的字符串的文档数据的一组文档标识符(ID)和指示该第一Gram的字符串位置的文档内偏移量;以及与第二Gram的字符串相关,将第二登记数据存储在存储单元的第二登记区域中,该第二登记数据被配置具有指示包含第二Gram的字符串的文档数据的一组文档标识符(ID)和指示该第二Gram的字符串位置的文档内偏移量。附图的简要说明附附图说明图1是与本专利技术的实施例有关的文档管理系统的框图。附图2是表示根据附图1的集成Gram信息区和集成Gram登记区的配置示例的示意图。附图3是表示根据附图1的普通Gram信息区和普通Gram登记区的配置示例的示意图。附图4是指示使用文档数量作为参数的Gram的顺序与发生频率之间的关系的示意图。附图5是表示在所述实施例中文档登录处理的示意过程的流程图。附图6是表示根据附图5的索引登录处理的过程流程图。附图7是表示将要新存储在数据文件中的文档数据的示例图。附图8是表示当最初输入附图7中的文档数据时,集成Gram信息区和集成Gram登记区的内容示例图。附图9是表示当最初输入附图7中的文档数据时,普通Gram信息区和普通Gram登记区的内容示例图。附图10是表示当再次输入附图7中的文档数据时,集成Gram信息区和集成Gram登记区的内容示例图。附图11是表示当再次输入附图7中的文档数据时,普通Gram信息区和普通Gram登记区的内容示例图。附图12是表示在所述实施例中文档检索处理的过程流程图。附图13是表示在所述实施例中文档检索处理的索引扫描处理的过程流程图。附图14是表示在所述实施例中文档检索处理的一个具体例子的示意图。具体实施例方式下面将参照附图对本专利技术的实施例进行描述。<文档管理系统的总体配置> 如附图1所示,有关本专利技术的实施例的文档管理系统包括客户机11和服务器12。客户机11例如是个人计算机。服务器12访问作为外部存储单元的数据文件13以登录和搜索文档。换句话说,由客户机11输入的文档数据和索引数据在登录该文档时被存储在数据文件13中。假定当搜索文档时,存储在数据文件13中的一组文档数据是将被搜索的对象。使用N-Gram作为索引搜索包含由客户机11指定的字符串构成的检索关键字(被称为检索项)的文档。客户机11、服务器12和数据文件13通过网络14(例如互联网)连接。服务器12和数据文件13可以直接相互连接。客户机11发布集成参数设置、文档登录和利用索引的文档搜索三个请求。服务器12通过输入输出接口20接收请求并处理这些请求,并将结果返回给客户机11。在文档登录请求的情况下,从客户机11发送至服务器12的数据为文档数据。在文档搜索请求的情况下,从客户机11发送至服务器12的数据为检索关键字。服务器12具有集成参数设置单元21、文档登录单元22和索引检索单元23三个大的处理器。数据文件13包括集成参数区31、索引数据区32和文档数据区37。索引数据区32包括集成Gram信息区33、普通Gram信息区34、集成Gram登记(post)区35和普通Gram登记区36。后面将对这些区进行详细说明。<服务器> 下面对服务器12进行详细说明。集成参数设置单元21设置集成参数,用于管理小至不会对搜索造成影响之范围的频率的Gram,以便减少表观的Gram类的数目。以下将对集成参数的一个具体例子进行描述。文档登录单元22访问Gram确定单元24、集成Gram登录单元25,以及普通Gram登录单元26以记录文档。Gram确定单元24确定从客户机11发送的文档数据剪辑的Gram(被称为管理Gram)是集成Gram还是普通Gram。正如以下详细描述的,集成Gram是小于阈值的较低发生频率的Gram,普通Gram是除本文档来自技高网
...

【技术保护点】
一种文档管理方法,用于管理存储在存储单元的文档数据区中的文档数据,包括:从文档数据移动给定字符数量的字符串,并剪辑该字符串以产生管理Gram;确定该管理Gram是小于阈值的较低发生频率的第一Gram和不小于该阈值的较高发生频 率的第二Gram中的一个;与通过计算该第一Gram的字符串获得的Gram值相关,将第一登记数据存储在存储单元的第一登记区中,该第一登记数据被配置具有指示包含该第一Gram的字符串的文档数据的一组文档标识符(ID)和指示该第一Gram 的字符串位置的文档内偏移量;以及与该第二Gram的字符串相关,将第二登记数据存储在该存储单元的第二登记区中,该第二登记数据被配置具有指示包含该第二Gram的字符串的文档数据的一组文档标识符(ID)和指示该第二Gram的字符串位置的文 档内偏移量。

【技术特征摘要】
JP 2005-3-11 069823/20051.一种文档管理方法,用于管理存储在存储单元的文档数据区中的文档数据,包括从文档数据移动给定字符数量的字符串,并剪辑该字符串以产生管理Gram;确定该管理Gram是小于阈值的较低发生频率的第一Gram和不小于该阈值的较高发生频率的第二Gram中的一个;与通过计算该第一Gram的字符串获得的Gram值相关,将第一登记数据存储在存储单元的第一登记区中,该第一登记数据被配置具有指示包含该第一Gram的字符串的文档数据的一组文档标识符(ID)和指示该第一Gram的字符串位置的文档内偏移量;以及与该第二Gram的字符串相关,将第二登记数据存储在该存储单元的第二登记区中,该第二登记数据被配置具有指示包含该第二Gram的字符串的文档数据的一组文档标识符(ID)和指示该第二Gram的字符串位置的文档内偏移量。2.根据权利要求1所述的文档管理方法,其中所述确定包括当满足Rk(g)<V1时,确定所述管理Gram为该第一Gram,其中V1表示该管理Gram的减小发生频率的顺序中最小的序,Rk(g)表示在按减小发生频率的顺序排列的所有管理Grams中该管理Gram的序。3.根据权利要求1所述的文档管理方法,其中所述确定包括当满足Oc(g)<Oave×V2时,确定该管理Gram为该第一Gram,其中V2表示代表在开始将文档数据存入该文档数据区的初始状态下,用于计算该第一Gram的发生频率的Gram的平均发生频率的倍数的值,Oc(g)表示该管理Gram的发生频率,并且Oave=∑gOc(g)表示该管理Gram的平均发生频率。4.根据权利要求1所述的文档管理方法,还包括计算该第一Gram的字符串的散列值以获取Gram值。5.根据权利要求1所述的文档管理方法,其中剪辑字符串包括从日文文档的文档数据中剪辑两个日文字符,同时以一个字符为单位移动该字符串。6.一种文档检索方法,用于根据检索关键字搜索存储在文档数据区中的文档数据,该方法包括准备存储单元,该存储单元包含其中存储有文档数据的文档数据存储区;与通过计算第一Gram的字符串获得的Gram值相关、用于存储第一登记数据的第一登记区,该第一登记数据被配置具有指示包含该第一Gram的字符串的文档数据的一组文档标识符(ID)和指示该字符串的位置的文档内偏移量;以及与第二Gram的字符串相关、用于存储第二登记数据的第二登记区,该第二登记数据被配置具有指示包含该第二Gram的字符串的文档数据的一组文档标识符(ID)和指示该第二Gram的字符串的位置的文档内偏移量;从检索关键字移动给定字符数量的字符串,并剪辑该字符串以产生检索Gram;根据由计算该检索Gram的字符串所获得的Gram值,通过扫描该第一登记区来从该第一登记区中读取该第一登记数据;根据所述检索Gram的字符串,通过扫描该第二登记区来从该第二登记区中读取该第二登记数据;以及使用第一读取的登记数据和第二登记数据,在该文档数据区中搜索与所述检索关键字匹配的文档数据。7.根据权利要求6所述的文档检索方法,其中,该第一登记区为每个Gram值存储指示存在或缺乏与该Gram值对应的管理Gram的标记,并且读取该第一登记数据包括在扫描该第一登记区时检查该第一登记区中的该标记,并跳过不包含该管理Gram的该第一登记区中的区域。8.根据权利要求6所述的用于搜索日文文档的文档数据的文档检索方法,其中剪辑该字符串包括从日文文档的文档数据中剪辑两个日文字符,同时以一个字符为单位移动该字符串。9.一种文档管理装置,包括存储单元,具有其中存储有文档数据的文档数据区;确定单元,被配置成确定管理Gram与小于阈值的较低发生频率的第一Gram和不小于该阈值的较高发生频率的第二Gram中的一个对应,该管理Gram通过从该存储单元的文档数据移动给定字符数量的字符串并剪辑该字符串而...

【专利技术属性】
技术研发人员:服部雅一
申请(专利权)人:株式会社东芝
类型:发明
国别省市:JP[日本]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1