【技术实现步骤摘要】
基于分类的全文搜索
本公开内容的各种实施方式涉及全文搜索领域,并且更具体地,涉及用于基于分类的全文搜索的方法、设备和系统。
技术介绍
随着互联网以及数据库技术的快速发展,对信息的搜索已经成为广泛存在的需求。全文搜索(fulltextsearch)是信息搜索领域中一种越来越受欢迎的搜索方法。通常在全文搜索系统中,搜索引擎将电子文档的内容解析成全文索引并且将全文索引存储在索引库中。每个全文索引可以包括电子文档的一个或多个字、词、符号或句子。在使用过程中,搜索引擎使用用户输入的关键字在索引库中进行搜索,并且返回与匹配的全文索引对应的电子文档。然而,这种搜索过程返回的搜索结果通常难以使得用户满意,特别是当索引库中存储有大量的电子文档的全文索引时。
技术实现思路
本公开内容的多种实施方式提供了一种基于分类的全文搜索的方案。根据本公开内容的第一方面,提供了一种用于全文搜索的方法。该方法包括基于所获得的电子文档的内容生成第一全文索引。该方法还包括分类电子文档以确定电子文档的类别标识符,以及基于类别标识符生成第二全文索引。该方法进一步包括存储第一全文索引和第二全文索引。根据本公开内容的第二方面,提供了一种用于全文搜索的方法。该方法包括获取用户输入的搜索项,搜索项至少包括与待搜索的电子文档的类别标识符有关的类别关键词。该方法还包括将搜索项与预定义的多个全文索引进行匹配。多个全文索引至少包括第一全文索引,第一全文索引与通过分类至少一个电子文档而确定的类别标识符有关。该方法进一步包括基于所匹配的全文索引,确定相关联的电子文档。根据本公开内容的第三方面,提供了一种用于全文搜索的设备。 ...
【技术保护点】
一种用于全文搜索的方法,包括:基于所获得的电子文档的内容生成第一全文索引;分类所述电子文档以确定所述电子文档的类别标识符;基于所述类别标识符生成第二全文索引;以及存储所述第一全文索引和所述第二全文索引。
【技术特征摘要】
1.一种用于全文搜索的方法,包括:基于所获得的电子文档的内容生成第一全文索引;分类所述电子文档以确定所述电子文档的类别标识符;基于所述类别标识符生成第二全文索引;以及存储所述第一全文索引和所述第二全文索引。2.根据权利要求1所述的方法,其中分类所述电子文档包括以下各项中的至少一项:基于与所述电子文档相关联的元数据来分类所述电子文档;以及通过分析所述电子文档中的内容的语义来分类所述电子文档。3.根据权利要求1或2所述的方法,其中分类所述电子文档包括:确定所述电子文档是否属于预定类别;响应于确定所述电子文档属于所述预定类别,将与所述预定类别相关联的类别标识符确定为所述电子文档的类别标识符。4.根据权利要求3所述的方法,其中分类所述电子文档进一步包括:响应于确定所述电子文档属于所述预定类别,确定所述电子文档是否属于所述预定类别的子类别;以及响应于确定所述电子文档属于所述子类别,将与所述子类别相关联的类别标识符确定为所述电子文档的类别标识符。5.根据权利要求3所述的方法,其中所述预定类别与对应的子类别以树结构被存储,并且其中分类所述电子文档包括:遍历所述树结构,以确定所述电子文档的类别标识符。6.根据权利要求1所述的方法,进一步包括:基于与所述电子文档相关联的元数据生成第三全文索引;以及存储所述第三全文索引。7.一种用于全文搜索的方法,包括:获取用户输入的搜索项,所述搜索项至少包括与待搜索的电子文档的类别标识符有关的类别关键词;将所述搜索项与预定义的多个全文索引进行匹配,所述多个全文索引至少包括第一全文索引,所述第一全文索引与通过分类至少一个电子文档而确定的类别标识符有关;以及基于所匹配的全文索引,确定相关联的电子文档。8.根据权利要求7所述的方法,其中所述搜索项进一步包括与所述待搜索的电子文档的内容有关的内容关键词,并且所述多个全文索引进一步包括基于所述至少一个电子文档的内容而生成的第二全文索引。9.根据权利要求7或8所述的方法,其中获取用户输入的搜索项包括:向所述用户提供与预定类别对应的第一选项;以及响应于所述用户对所述第一选项的选择,基于所述预定类别的类别标识符确定所述类别关键词。10.根据权利要求9所述的方法,其中获取用户输入的搜索项进一步包括:向所述用户提供与所述预定类别的子类别对应的第二选项;以及响应于所述用户对所述第二选项的选择,基于所述子类别的类别标识符确定所述类别关键词。11.一种用于全文搜索的设备,包括:至少一个处理单元;以及至少一个存储器,所述至少一个存储器耦合至所述至少一个处理单元并且在其上存储指令,所述指令在由所述至少一个处理单元执行时执行包括以下各项的动作:基于所获得的电子文档的内容生成第一全文索引;分类所述电子文档以确定所述电子文档的类别标识符;基于所述类别标识符生成第二全文索引;以及存储所述第一全文索引和所述第二全文索引。12.根据权利要求11所述的设备,其中分类所述电子文档包括以下各项中的至少一项:基于与所述电...
【专利技术属性】
技术研发人员:陈超,刘晶晶,张磊,薛丁萌,周旻弘,代洪涛,
申请(专利权)人:伊姆西公司,
类型:发明
国别省市:美国,US
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。