【技术实现步骤摘要】
本专利技术涉及自然语言处理领域,特别涉及一种搭建索引库的方法和系统及检索系统。
技术介绍
1、索引技术是搜索引擎的核心技术之一。搜索引擎对收集到的信息进行整理、分类、索引以产生索引库。现有技术中搭建索引的方法包括以下几个步骤:
2、一、对文档进行预处理,包括分词,去停用词;
3、二、将预处理得到的词项作为属性值,以文档编号作为属性值地址建立倒排索引;
4、三、根据用户输入的搜索词查找索引表,从而找到包含该搜索词的文档。
5、上述技术方案至少存在以下问题:
6、一、检索结果的准确性较低。现有技术将含有搜索词的文档全部列出来,许多文档虽然含有搜索词,但与搜索词相关程度较低,这样的文档也会被输出,导致搜索结果的准确性和可靠性较低。
7、二、检索效率低。现有技术将文档中所有的词项及含有各词项的所有的文档都存入索引表中,由于文档中词项的数量非常庞大,含有每个词项的文档数量也非常庞大,因此索引表中的词项及对应的文档的倒排链的数量相当大,进行检索时需要耗费大量的资源,检索效率较低
【技术保护点】
1.一种搭建索引库的方法,其特征在于,该方法包括:
2.根据权利要求1所述的搭建索引库的方法,其特征在于,所述第一索引表的优先级高于所述第二索引表。
3.一种搭建索引库的系统,其特征在于,所述系统包括预处理单元、关键词计算单元、判断单元、索引建立单元,其中:
4.根据权利要求3所述的搭建索引库的系统,其特征在于,所述索引建立单元还用于设置所述第一索引表的优先级高于第二索引表。
5.一种利用如权利要求1-2任一个所述的方法搭建的索引库进行检索的方法,其特征在于,所述方法包括:
6.一种利用如权利要求5所述的检索
...【技术特征摘要】
1.一种搭建索引库的方法,其特征在于,该方法包括:
2.根据权利要求1所述的搭建索引库的方法,其特征在于,所述第一索引表的优先级高于所述第二索引表。
3.一种搭建索引库的系统,其特征在于,所述系统包括预处理单元、关键词计算单元、判断单元、索引建立单元,其中:
4.根据权利要求3所述的搭建索引库的系统,其特征在于,所述索引建立单元还用于...
【专利技术属性】
技术研发人员:李伟,汤学华,彭斌利,胡飞,
申请(专利权)人:深圳市全景网络有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。