一种搭建索引库的方法和系统及检索系统技术方案

技术编号:40056912 阅读:25 留言:0更新日期:2024-01-16 22:05
本发明专利技术提供了一种搭建索引库的方法和系统及检索系统。搭建索引库的方法包括:对文档进行预处理,得到文档对应的词项;对文档进行关键词计算,得到文档对应的关键词;判断各词项是否是各文档的关键词,如果是,则在第一索引表中建立该词项与对应的文档的倒排索引;否则,在第二索引表中建立该词项与对应的文档的倒排索引。本发明专利技术能够快速查找到与搜索词相关程度较高的文档,在提高检索准确度的同时,还提高了检索效率,给用户以良好的检索体验。

【技术实现步骤摘要】

本专利技术涉及自然语言处理领域,特别涉及一种搭建索引库的方法和系统及检索系统


技术介绍

1、索引技术是搜索引擎的核心技术之一。搜索引擎对收集到的信息进行整理、分类、索引以产生索引库。现有技术中搭建索引的方法包括以下几个步骤:

2、一、对文档进行预处理,包括分词,去停用词;

3、二、将预处理得到的词项作为属性值,以文档编号作为属性值地址建立倒排索引;

4、三、根据用户输入的搜索词查找索引表,从而找到包含该搜索词的文档。

5、上述技术方案至少存在以下问题:

6、一、检索结果的准确性较低。现有技术将含有搜索词的文档全部列出来,许多文档虽然含有搜索词,但与搜索词相关程度较低,这样的文档也会被输出,导致搜索结果的准确性和可靠性较低。

7、二、检索效率低。现有技术将文档中所有的词项及含有各词项的所有的文档都存入索引表中,由于文档中词项的数量非常庞大,含有每个词项的文档数量也非常庞大,因此索引表中的词项及对应的文档的倒排链的数量相当大,进行检索时需要耗费大量的资源,检索效率较低


本文档来自技高网...

【技术保护点】

1.一种搭建索引库的方法,其特征在于,该方法包括:

2.根据权利要求1所述的搭建索引库的方法,其特征在于,所述第一索引表的优先级高于所述第二索引表。

3.一种搭建索引库的系统,其特征在于,所述系统包括预处理单元、关键词计算单元、判断单元、索引建立单元,其中:

4.根据权利要求3所述的搭建索引库的系统,其特征在于,所述索引建立单元还用于设置所述第一索引表的优先级高于第二索引表。

5.一种利用如权利要求1-2任一个所述的方法搭建的索引库进行检索的方法,其特征在于,所述方法包括:

6.一种利用如权利要求5所述的检索系统进行检索的系统,...

【技术特征摘要】

1.一种搭建索引库的方法,其特征在于,该方法包括:

2.根据权利要求1所述的搭建索引库的方法,其特征在于,所述第一索引表的优先级高于所述第二索引表。

3.一种搭建索引库的系统,其特征在于,所述系统包括预处理单元、关键词计算单元、判断单元、索引建立单元,其中:

4.根据权利要求3所述的搭建索引库的系统,其特征在于,所述索引建立单元还用于...

【专利技术属性】
技术研发人员:李伟汤学华彭斌利胡飞
申请(专利权)人:深圳市全景网络有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1