构建索引库的方法、装置及检索的方法、装置和系统制造方法及图纸

技术编号:11868082 阅读:101 留言:0更新日期:2015-08-12 17:06
本发明专利技术提供了一种构建索引库的方法、装置及检索的方法、装置和系统。构建索引库的方法包括:对文档进行预处理,得到文档对应的词项;对文档进行关键词计算,得到文档对应的关键词;判断各词项是否是各文档的关键词,如果是,则在第一索引表中建立该词项与对应的文档的倒排索引;否则,在第二索引表中建立该词项与对应的文档的倒排索引。本发明专利技术能够快速查找到与搜索词相关程度较高的文档,在提高检索准确度的同时,还提高了检索效率,给用户以良好的检索体验。

【技术实现步骤摘要】

本专利技术涉及自然语言处理领域,特别涉及一种构建索引库的方法、装置及检索的 方法、装置和系统。
技术介绍
索引技术是搜索引擎的核心技术之一。搜索引擎对收集到的信息进行整理、分类、 索引以产生索引库。现有技术中构建索引的方法包括以下几个步骤: 一、对文档进行预处理,包括分词,去停用词; 二、将预处理得到的词项作为属性值,以文档编号作为属性值地址建立倒排索 引; 三、根据用户输入的搜索词查找索引表,从而找到包含该搜索词的文档。 上述技术方案至少存在以下问题: 一、检索结果的准确性较低。现有技术将含有搜索词的文档全部列出来,许多文档 虽然含有搜索词,但与搜索词相关程度较低,这样的文档也会被输出,导致搜索结果的准确 性和可靠性较低。 二、检索效率低。现有技术将文档中所有的词项及含有各词项的所有的文档都存 入索引表中,由于文档中词项的数量非常庞大,含有每个词项的文档数量也非常庞大,因此 索引表中的词项及对应的文档的倒排链的数量相当大,进行检索时需要耗费大量的资源, 检索效率较低。
技术实现思路
为克服上述现有技术存在的不足,本专利技术的目的在于提供一种构建索引库的方 法、装置及检索的方法、装置和系统,能够快速查找到与搜索词相关程度较高的文档,在提 高检索准确度的同时,还提高了检索效率,给用户以良好的检索体验。 为达上述目的,本专利技术提供一种构建索引库的方法,该方法包括: 对文档进行预处理,得到文档对应的词项; 对文档进行关键词计算,得到文档对应的关键词; 判断各所述词项是否是各所述文档的关键词,如果是,则在第一索引表中建立所 述词项与对应的文档的倒排索引;否则,在第二索引表中建立所述词项与对应的文档的倒 排索引。 本专利技术还提供了一种构建索引库的装置,包括预处理单元、关键词计算单元、判断 单元、索引建立单元,其中: 预处理单元,用于对文档进行预处理,得到文档对应的词项; 关键词计算单元,用于对文档进行关键词计算,得到文档对应的关键词; 判断单元,用于判断各所述词项是否是各所述文档的关键词; 索引建立单元,用于根据判断单元的判断结果建立所述词项到所述文档的索引, 如果所述词项是所述文档的关键词,则在第一索引表中建立所述词项与对应的文档的倒排 索引;否则,在第二索引表中建立所述词项与对应的文档的倒排索引。 本专利技术还提供了一种利用如上述方法构建的索引库进行检索的方法,该方法包 括: 接收用户输入的搜索词; 判断第一索引表中是否含有所述搜索词,如果是,则返回所述搜索词在第一索引 表中对应的文档;否则 在第二索引表中检索所述搜索词,并返回所述搜索词在第二索引表中对应的文 档。 本专利技术还提供了一种利用如上述检索方法进行检索的装置,该装置包括: 接收单元,用于接收用户输入的搜索词; 比较单元,用于判断第一索引表中是否含有所述搜索词; 检索单元,用于根据比较单元的判断结果进行检索,如果第一索引表中含有所述 搜索词,则返回所述搜索词在第一索引表中对应的文档;否则在第二索引表中检索所述搜 索词,并返回所述搜索词在第二索引表中对应的文档。 本专利技术还提供了一种检索系统,该系统包括上述构建索引库的装置和检索装置。 从上述技术方案可以看出,在本专利技术的实施方式中,根据文档的内容计算文档的 关键词,将文档预处理后得到的词项分为关键词和普通词项,并分别建立索引,一方面,由 于关键词与文档的关联程度较高,从而大幅提高了检索结果的准确性;另一方面,由于关键 词及关键词对应的文档的数量,均远小于普通词项和含有普通词项的文档的数量,从而极 大地精简了索引,提高了搜索的响应速度,而且在检索过程中,不用再进行相关度计算、排 序等步骤,进一步提高了检索效率。本专利技术解决了现有技术中检索准确度及检索效率较低 的问题,实现了高准确度、高效率的信息检索。【附图说明】 图1为本专利技术实施例构建索引库的方法流程图;图2为本专利技术实施例构建索引库的装置的结构示意图; 图3为根据本专利技术一实施例中构建的索引库进行检索的方法流程图; 图4为根据本专利技术一实施例中构建的索引库进行检索的装置的结构示意图; 图5是本专利技术实施例检索系统的结构示意图。【具体实施方式】 为使本专利技术的目的、技术方案和优点更加清楚,下面结合附图对本专利技术作进一步 的详细描述。本领域技术人员可由说明书所揭示的内容轻易地了解本专利技术的其它优点与功 效。本专利技术亦可通过其它不同的具体实施例加以施行或应用,本说明书中的各项细节亦可 基于不同观点与应用,在不背离本专利技术的精神下进行各种修饰与变更。 下面结合具体实例和附图,对本专利技术实施例构建索引库的方法的算法进行更详细 地说明。 在进行文档检索时,其中一个难点就是搜索结果与搜索词的相关程度不高的问 题。例如,文档1的内容为:"据新华网报道,从昨日在京召开的云计算发展与政策论坛第四 次高端会议上获悉,《政府采购云服务系列标准》已经基本完成,首轮可信云服务认证将在7 月中旬公布正式的认证结果。" 文档2的内容为:"新华网是新华社主办的,中国最大、具有全球影响力的国家重 点网站。由党中央直接部署,国家通讯社新华社主办的中央重点新闻网站主力军,是党和国 家重要的网上舆论当前第1页1 2 本文档来自技高网...

【技术保护点】
一种构建索引库的方法,其特征在于,该方法包括:对文档进行预处理,得到文档对应的词项;对文档进行关键词计算,得到文档对应的关键词;判断各所述词项是否是各所述文档的关键词,如果是,则在第一索引表中建立所述词项与对应的文档的倒排索引;否则,在第二索引表中建立所述词项与对应的文档的倒排索引。

【技术特征摘要】

【专利技术属性】
技术研发人员:周青
申请(专利权)人:深圳证券信息有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1