文档管理方法和装置以及文档搜索方法和装置制造方法及图纸

技术编号：2849875 阅读：185 留言：0更新日期：2012-04-11 18:40

一种文档管理方法，包括从文档数据移动多个字符的字符串并剪辑它，确定通过剪辑所获得的管理Ｇｒａｍ是第一低频Ｇｒａｍ和第二高频Ｇｒａｍ中的一个，将第一登记数据存储在与通过计算第一Ｇｒａｍ的字符串获得的Ｇｒａｍ值相关的第一登记区中，该第一登记数据具有指示包含第一Ｇｒａｍ的文档数据的一组文档标识符（ＩＤ）和指示其字符串位置的文档内偏移量，以及将第二登记数据存储在与第二Ｇｒａｍ的字符串相关的第二登记区中，该第二登记数据具有指示包含第二Ｇｒａｍ的文档数据的一组文档标识符（ＩＤ）和指示其字符串位置的文档内偏移量。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及用于有效地管理登录的文档以搜索保存在存储器中的大量文档中与检索关键字匹配的文档的文档管理方法，用于搜索文档的文档搜索方法，以及有效管理文档的文档管理系统。
技术介绍
已知一种索引生成方法，用于在保存文档数据到存储器中时生成索引，以便当从大量保存在数据库中的一组文档数据中搜索与搜索关键字匹配的文档数据时加速检索。一种用于以文档数据中的连续N个字符为单位编制N字符索引的方法是已知的。这被称作N-Gram索引系统。N表示大于1的整数，对于日文文献来说，常规的是以N＝2(双Gram)为单位来剪辑Gram。对于英文文献来说，通常是以N＝3以上为单位来剪辑Gram。在例如N＝2的情况下，字符串例如“XMLデ一タベ一ス”被剪辑成”XM”，”ML”，”Lデ”，”デ一”，”一タ”，”タベ”，”ベ一”，”一ス”。在检索文档数据组时，使用从检索关键字剪辑的Gram作为索引进行搜索。该N-Gram索引系统不需要依赖于语言的词典，并且便于多语种应用。其对于没有任何词汇分隔符(例如空格)的日语和汉语来说特别有用。如果利用与偏移量(文档数据中Gram出现的位置)合并的Gram...

【技术保护点】
一种文档管理方法，用于管理存储在存储单元的文档数据区中的文档数据，包括：从文档数据移动给定字符数量的字符串，并剪辑该字符串以产生管理Ｇｒａｍ；确定该管理Ｇｒａｍ是小于阈值的较低发生频率的第一Ｇｒａｍ和不小于该阈值的较高发生频率的第二Ｇｒａｍ中的一个；与通过计算该第一Ｇｒａｍ的字符串获得的Ｇｒａｍ值相关，将第一登记数据存储在存储单元的第一登记区中，该第一登记数据被配置具有指示包含该第一Ｇｒａｍ的字符串的文档数据的一组文档标识符（ＩＤ）和指示该第一Ｇｒａｍ的字符串位置的文档内偏移量；以及与该第二Ｇｒａｍ的字符串相关，将第二登记数据存储在该存储单元的第...

【技术特征摘要】
JP 2005-3-11 069823/20051.一种文档管理方法，用于管理存储在存储单元的文档数据区中的文档数据，包括从文档数据移动给定字符数量的字符串，并剪辑该字符串以产生管理Gram；确定该管理Gram是小于阈值的较低发生频率的第一Gram和不小于该阈值的较高发生频率的第二Gram中的一个；与通过计算该第一Gram的字符串获得的Gram值相关，将第一登记数据存储在存储单元的第一登记区中，该第一登记数据被配置具有指示包含该第一Gram的字符串的文档数据的一组文档标识符(ID)和指示该第一Gram的字符串位置的文档内偏移量；以及与该第二Gram的字符串相关，将第二登记数据存储在该存储单元的第二登记区中，该第二登记数据被配置具有指示包含该第二Gram的字符串的文档数据的一组文档标识符(ID)和指示该第二Gram的字符串位置的文档内偏移量。2.根据权利要求1所述的文档管理方法，其中所述确定包括当满足Rk(g)＜V1时，确定所述管理Gram为该第一Gram，其中V1表示该管理Gram的减小发生频率的顺序中最小的序，Rk(g)表示在按减小发生频率的顺序排列的所有管理Grams中该管理Gram的序。3.根据权利要求1所述的文档管理方法，其中所述确定包括当满足Oc(g)＜Oave×V2时，确定该管理Gram为该第一Gram，其中V2表示代表在开始将文档数据存入该文档数据区的初始状态下，用于计算该第一Gram的发生频率的Gram的平均发生频率的倍数的值，Oc(g)表示该管理Gram的发生频率，并且Oave＝∑gOc(g)表示该管理Gram的平均发生频率。4.根据权利要求1所述的文档管理方法，还包括计算该第一Gram的字符串的散列值以获取Gram值。5.根据权利要求1所述的文档管理方法，其中剪辑字符串包括从日文文档的文档数据中剪辑两个日文字符，同时以一个字符为单位移动该字符串。6.一种文档检索方法，用于根据检索关键字搜索存储在文档数据区中的文档数据，该方法包括准备存储单元，该存储单元包含其中存储有文档数据的文档数据存储区；与通过计算第一Gram的字符串获得的Gram值相关、用于存储第一登记数据的第一登记区，该第一登记数据被配置具有指示包含该第一Gram的字符串的文档数据的一组文档标识符(ID)和指示该字符串的位置的文档内偏移量；以及与第二Gram的字符串相关、用于存储第二登记数据的第二登记区，该第二登记数据被配置具有指示包含该第二Gram的字符串的文档数据的一组文档标识符(ID)和指示该第二Gram的字符串的位置的文档内偏移量；从检索关键字移动给定字符数量的字符串，并剪辑该字符串以产生检索Gram；根据由计算该检索Gram的字符串所获得的Gram值，通过扫描该第一登记区来从该第一登记区中读取该第一登记数据；根据所述检索Gram的字符串，通过扫描该第二登记区来从该第二登记区中读取该第二登记数据；以及使用第一读取的登记数据和第二登记数据，在该文档数据区中搜索与所述检索关键字匹配的文档数据。7.根据权利要求6所述的文档检索方法，其中，该第一登记区为每个Gram值存储指示存在或缺乏与该Gram值对应的管理Gram的标记，并且读取该第一登记数据包括在扫描该第一登记区时检查该第一登记区中的该标记，并跳过不包含该管理Gram的该第一登记区中的区域。8.根据权利要求6所述的用于搜索日文文档的文档数据的文档检索方法，其中剪辑该字符串包括从日文文档的文档数据中剪辑两个日文字符，同时以一个字符为单位移动该字符串。9.一种文档管理装置，包括存储单元，具有其中存储有文档数据的文档数据区；确定单元，被配置成确定管理Gram与小于阈值的较低发生频率的第一Gram和不小于该阈值的较高发生频率的第二Gram中的一个对应，该管理Gram通过从该存储单元的文档数据移动给定字符数量的字符串并剪辑该字符串而...

【专利技术属性】
技术研发人员：服部雅一，
申请(专利权)人：株式会社东芝，
类型：发明
国别省市：JP[日本]

全部详细技术资料下载我是这个专利的主人