信息生成程序、装置、方法以及信息检索程序、装置、方法制造方法及图纸

技术编号:8304030 阅读:189 留言:0更新日期:2013-02-07 11:40
本发明专利技术涉及信息生成程序、装置、方法以及信息检索程序、装置、方法,执行(A)从对象文件组(F)的合计,(B)以出现频率的降序的排序,(C)到目标出现率的次序为止的提取,(D)映射生成,这样的4个阶段。(A1)首先,信息生成装置读取对象文件组(F),对基础单词的出现频率进行计数。(B1)若在对象文件组F中基础单词的合计结束,则信息生成装置将基础单词出现频率表(101)以出现频率的降序排序。即,按出现频率从高到低的顺序排列,从出现频率最高的基础单词开始定序。(C1)接下来,信息生成装置参照(B1)排序后的基础单词出现频率表(101),提取到目标出现率Pw为止的次序的基础单词。(D1)最后,信息生成装置对于特定基础单词群生成特定基础单词出现映射(M1)。

【技术实现步骤摘要】
【国外来华专利技术】
本专利技术涉及生成表示字符或基础单词的有无的索引信息,使用索引信息进行检索 的信息生成程序、信息检索程序、信息生成装置、信息检索装置、信息生成方法,以及信息检索方法。
技术介绍
已知ー种高速生成所谓字符成分表的全文检索索引的位图型的全文检索技术(例如,參照下述专利文献I 3。)。以往的位图型的全文检索技术中,由于不进行词素解析,所以能够高速生成,能够压缩位图。一般的国语词典中,有约24万项目的记录,以约6000 8000字符记述,单一字符的位图也有约6000 8000。专利文献I :日本特开平I 一 181329号公报专利文献2 日本特开平3 — 174652号公报专利文献3 日本特开平5 — 174064号公报
技术实现思路
然而,在上述的以往技术中,存在如下问题包含于各项目(记录)的假名、片假名和英文字符的出现频率高,在单一字符的位图中,锁定对象项目的效率低。另外,若追加2连接字符串的位图,则尺寸变大而使存储器不够用。若通过哈希(hash)处理进行尺寸縮小则产生检索噪声。因此,位图的锁定效率降低,检索速度变得缓慢。另ー方面,由英文字符、假名、片假名等的单词构成的字符串中产生因字符的本文档来自技高网...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】

【专利技术属性】
技术研发人员:片冈正弘
申请(专利权)人:富士通株式会社
类型:
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1