信息检索方法和信息检索装置制造方法及图纸

技术编号：2885626 阅读：223 留言：0更新日期：2012-04-11 18:40

本发明专利技术揭示一种信息检索方法和信息检索装置，包括存储检索对象文本的检索对象数据存储手段１０１；将检索对象文本划分为词单元的文本划分手段１０２；保持划分为词单元的文本的单词划分文本存储手段１０３；根据划分为词单元的文本，生成具有表示词界的单词信息且字符数为Ｎ的带单词信息字符串索引的索引生成手段１０４；存储所生成带单词信息字符串索引的索引存储手段１０５；用带单词信息字符串索引进行检索词的字符串检索和单词检索的检索手段１０６。（*该技术在2020年保护过期，可自由使用*）

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及实施利用电子计算机进行机器翻译、大量文本检索、文本自动摘要等的自然语言处理系统前处理分析部分中，进行信息检测用的方法及其装置，特别涉及能降低检索噪声无漏检的信息检索方法和装置。全文检索系统是指从存储的文本数据检索使用者指定的字符串用的系统。为了实现全文检索，已提出各种方法的建议。典型的方法，如长尾真等人所著《语言信息处理》(岩波书店1998年发行)第72页～第77页所述，有以下两种。一种为根据文本数据生成单词索引后，由单词索引检索使用者指定的字符串(检索词)；另一种为根据文本数据生成字符串索引后由字符串索引对检索词进行检索。单词索引生成法生成文本中所出现全部单词的索引。在日语之类粘着语的情况下，由于单词界限不明，通常用辞典进行形态单元分析，将文本划分为词单后，生成所有这些词的索引。例如对“東京都品川区”的文本，生成“東京”、“東京都”、“品川”、“品川区”这4种索引。检索时，在指定東京”或“品川区”的场合，原样检索该索引即可，而在指定复合词“東京都品川区”时，利用形态单元分析对检索词进行分解后，对各词分别进行检索即可。利用上述方法，可按文章中任意的词进行检索。为了减少单词索引的数量，还提出一种作法的建议，即采用包含某词的最长单词作为索引。上述例子中，“東京都”包含“東京”，因而仅将“東京都”作为索引(日本专利特开平10-334118公报等)。单词划分方面，除形态单元分析外，还提出用统计术进行划分的方法(中渡濑秀一著“用归一化频度推定形态单元边界”，信息处理学会自然语言研究会113-3(1996)等)。字符串索引生成法生成对文本中全部连续...

【技术保护点】
一种信息检索方法，所述信息检索方法对文本数据进行全文检索，其特征在于，将检索对象文本划分为词单元，根据划分为词单元的所述文本，生成具有表示词界的单词信息且字符数为Ｎ的带单词信息字符串索引后，根据所述带单词信息字符串索引，用字符串检索或单词检索或这两种检索对检索词进行检索。

【技术特征摘要】
...

【专利技术属性】
技术研发人员：饭塚泰树，田邉智子，菊池忠一，
申请(专利权)人：松下电器产业株式会社，
类型：发明
国别省市：JP[日本]

全部详细技术资料下载我是这个专利的主人