【技术实现步骤摘要】
本专利技术涉及自然语言处理领域,特别涉及一种构建索引库的方法、装置及检索的 方法、装置和系统。
技术介绍
索引技术是搜索引擎的核心技术之一。搜索引擎对收集到的信息进行整理、分类、 索引以产生索引库。现有技术中构建索引的方法包括以下几个步骤: 一、对文档进行预处理,包括分词,去停用词; 二、将预处理得到的词项作为属性值,以文档编号作为属性值地址建立倒排索 引; 三、根据用户输入的搜索词查找索引表,从而找到包含该搜索词的文档。 上述技术方案至少存在以下问题: 一、检索结果的准确性较低。现有技术将含有搜索词的文档全部列出来,许多文档 虽然含有搜索词,但与搜索词相关程度较低,这样的文档也会被输出,导致搜索结果的准确 性和可靠性较低。 二、检索效率低。现有技术将文档中所有的词项及含有各词项的所有的文档都存 入索引表中,由于文档中词项的数量非常庞大,含有每个词项的文档数量也非常庞大,因此 索引表中的词项及对应的文档的倒排链的数量相当大,进行检索时需要耗费大量的资源, 检索效率较低。
技术实现思路
为克服上述现有技术存在的不足,本专利技术的目的在于提供一种构建索 ...
【技术保护点】
一种构建索引库的方法,其特征在于,该方法包括:对文档进行预处理,得到文档对应的词项;对文档进行关键词计算,得到文档对应的关键词;判断各所述词项是否是各所述文档的关键词,如果是,则在第一索引表中建立所述词项与对应的文档的倒排索引;否则,在第二索引表中建立所述词项与对应的文档的倒排索引。
【技术特征摘要】
【专利技术属性】
技术研发人员:周青,
申请(专利权)人:深圳证券信息有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。