构建索引库的方法、装置及检索的方法、装置和系统制造方法及图纸

技术编号:11868082 阅读:122 留言:0更新日期:2015-08-12 17:06
本发明专利技术提供了一种构建索引库的方法、装置及检索的方法、装置和系统。构建索引库的方法包括:对文档进行预处理,得到文档对应的词项;对文档进行关键词计算,得到文档对应的关键词;判断各词项是否是各文档的关键词,如果是,则在第一索引表中建立该词项与对应的文档的倒排索引;否则,在第二索引表中建立该词项与对应的文档的倒排索引。本发明专利技术能够快速查找到与搜索词相关程度较高的文档,在提高检索准确度的同时,还提高了检索效率,给用户以良好的检索体验。

【技术实现步骤摘要】

本专利技术涉及自然语言处理领域,特别涉及一种构建索引库的方法、装置及检索的 方法、装置和系统。
技术介绍
索引技术是搜索引擎的核心技术之一。搜索引擎对收集到的信息进行整理、分类、 索引以产生索引库。现有技术中构建索引的方法包括以下几个步骤: 一、对文档进行预处理,包括分词,去停用词; 二、将预处理得到的词项作为属性值,以文档编号作为属性值地址建立倒排索 引; 三、根据用户输入的搜索词查找索引表,从而找到包含该搜索词的文档。 上述技术方案至少存在以下问题: 一、检索结果的准确性较低。现有技术将含有搜索词的文档全部列出来,许多文档 虽然含有搜索词,但与搜索词相关程度较低,这样的文档也会被输出,导致搜索结果的准确 性和可靠性较低。 二、检索效率低。现有技术将文档中所有的词项及含有各词项的所有的文档都存 入索引表中,由于文档中词项的数量非常庞大,含有每个词项的文档数量也非常庞大,因此 索引表中的词项及对应的文档的倒排链的数量相当大,进行检索时需要耗费大量的资源, 检索效率较低。
技术实现思路
为克服上述现有技术存在的不足,本专利技术的目的在于提供一种构建索引库的方 法、装置及本文档来自技高网...

【技术保护点】
一种构建索引库的方法,其特征在于,该方法包括:对文档进行预处理,得到文档对应的词项;对文档进行关键词计算,得到文档对应的关键词;判断各所述词项是否是各所述文档的关键词,如果是,则在第一索引表中建立所述词项与对应的文档的倒排索引;否则,在第二索引表中建立所述词项与对应的文档的倒排索引。

【技术特征摘要】

【专利技术属性】
技术研发人员:周青
申请(专利权)人:深圳证券信息有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1