当前位置: 首页 > 专利查询>伊姆西公司专利>正文

基于分类的全文搜索制造技术

技术编号:16327173 阅读:18 留言:0更新日期:2017-09-29 19:03
本公开内容的各种实施例提供了一种基于分类的全文搜索的方案。在一些实施例中,提供了一种用于全文搜索的方法。该方法包括基于所获得的电子文档的内容生成第一全文索引。该方法还包括分类电子文档以确定电子文档的类别标识符,以及基于类别标识符生成第二全文索引。该方法进一步包括存储第一全文索引和第二全文索引。

【技术实现步骤摘要】
基于分类的全文搜索
本公开内容的各种实施方式涉及全文搜索领域,并且更具体地,涉及用于基于分类的全文搜索的方法、设备和系统。
技术介绍
随着互联网以及数据库技术的快速发展,对信息的搜索已经成为广泛存在的需求。全文搜索(fulltextsearch)是信息搜索领域中一种越来越受欢迎的搜索方法。通常在全文搜索系统中,搜索引擎将电子文档的内容解析成全文索引并且将全文索引存储在索引库中。每个全文索引可以包括电子文档的一个或多个字、词、符号或句子。在使用过程中,搜索引擎使用用户输入的关键字在索引库中进行搜索,并且返回与匹配的全文索引对应的电子文档。然而,这种搜索过程返回的搜索结果通常难以使得用户满意,特别是当索引库中存储有大量的电子文档的全文索引时。
技术实现思路
本公开内容的多种实施方式提供了一种基于分类的全文搜索的方案。根据本公开内容的第一方面,提供了一种用于全文搜索的方法。该方法包括基于所获得的电子文档的内容生成第一全文索引。该方法还包括分类电子文档以确定电子文档的类别标识符,以及基于类别标识符生成第二全文索引。该方法进一步包括存储第一全文索引和第二全文索引。根据本公开内容的第二方面,提供了一种用于全文搜索的方法。该方法包括获取用户输入的搜索项,搜索项至少包括与待搜索的电子文档的类别标识符有关的类别关键词。该方法还包括将搜索项与预定义的多个全文索引进行匹配。多个全文索引至少包括第一全文索引,第一全文索引与通过分类至少一个电子文档而确定的类别标识符有关。该方法进一步包括基于所匹配的全文索引,确定相关联的电子文档。根据本公开内容的第三方面,提供了一种用于全文搜索的设备。该设备包括至少一个处理单元;以及至少一个存储器。至少一个存储器耦合至至少一个处理单元并且在其上存储指令,指令在由至少一个处理单元执行时执行包括以下各项的动作:基于所获得的电子文档的内容生成第一全文索引;分类电子文档以确定电子文档的类别标识符;基于类别标识符生成第二全文索引;以及存储第一全文索引和第二全文索引。根据本公开内容的第四方面,提供了一种用于全文搜索的设备。该设备包括至少一个处理单元;以及至少一个存储器。至少一个存储器耦合至至少一个处理单元并且在其上存储指令,指令在由至少一个处理单元执行时执行包括以下各项的动作:获取用户输入的搜索项,搜索项至少包括与待搜索的电子文档的类别标识符有关的类别关键词;将搜索项与预定义的多个全文索引进行匹配,多个全文索引至少包括第一全文索引,第一全文索引与通过分类至少一个电子文档而确定的类别标识符有关;以及基于所匹配的全文索引,确定相关联的电子文档。根据本公开内容的第五方面,提供了一种用于全文搜索的系统。该系统包括根据第三方面描述的用于全文搜索的设备。该系统还包括根据第四方面描述的用于全文搜索的设备。该系统进一步包括全文索引库,被配置为存储第一全文索引和第二全文索引。根据本公开内容的第六方面,提供了一种计算机可读存储介质。该计算机可读存储介质具有存储在其上的计算机可读程序指令。这些计算机可读程序指令用于执行根据以上第一方面所描述的方法的步骤。根据本公开内容的第七方面,提供了一种计算机可读存储介质。该计算机可读存储介质具有存储在其上的计算机可读程序指令。这些计算机可读程序指令用于执行根据以上第二方面所描述的方法的步骤。提供
技术实现思路
部分是为了简化的形式来介绍对概念的选择,它们在下文的具体实施方式中将被进一步描述。
技术实现思路
部分无意标识本公开内容的关键特征或主要特征,也无意限制本公开内容的范围。附图说明通过结合附图对本公开示例性实施例进行更详细的描述,本公开的上述以及其它目的、特征和优势将变得更加明显,其中,在本公开示例性实施例中,相同的参考标号通常代表相同部件。图1示出了可以在其中实施本公开内容的多个实施例的环境的示意图;图2示出了根据本公开内容的实施例的用于全文搜索的方法的流程图;图3A-3B示出了被存储为树结构的两个类别及其子类别的示意图;图4示出了根据本公开内容的实施例的用于全文搜索的方法的流程图;以及图5示出了可以用来实施本公开内容的实施例的示例设备的示意性框图。具体实施例下面将参照附图更详细地描述本公开的优选实施例。虽然附图中显示了本公开的优选实施例,然而应该理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了使本公开更加透彻和完整,并且能够将本公开的范围完整地传达给本领域的技术人员。在本文中使用的术语“包括”及其变形表示开放性包括,即“包括但不限于”。除非特别申明,术语“或”表示“和/或”。术语“基于”表示“至少部分地基于”。术语“一个示例实施例”和“一个实施例”表示“至少一个示例实施例”。术语“另一实施例”表示“至少一个另外的实施例”。术语“第一”、“第二”等等可以指代不同的或相同的对象。下文还可能包括其他明确的和隐含的定义。图1示出了可以在其中实施本公开内容的多个实施例的环境100的示意图。环境100包括全文搜索系统110,可以用于对一个或多个电子文档进行索引化,并且可以向用户提供搜索服务。全文搜索系统110可以包括索引处理设备112,其被配置为针对获得的电子文档,生成全文索引。索引处理设备112还可以将生成的全文索引存储至全文索引库120中。如本文中所使用的,术语“电子文档”指的是任何机器可读格式的文件,包括但不限于pdf文件、txt文件、各种office文件、各种网页文件等等。全文搜索系统110可以从各种数据源获得电子文档。例如,全文搜索系统110可以从各个网站(未示出)抓取网页文件。在某些示例中,还可以由用户终端、例如终端A132和/或终端B134向全文搜索系统110提供各种电子文档。除了向全文搜索系统110提供电子文档或者取而代之,终端A132和/或终端B134可以利用全文搜索系统110查询期望获得的电子文档。例如,终端A132和/或终端B134可以将用户输入的查询关键词发送给全文搜索系统110。全文搜索系统110的查询处理设备114可以使用查询关键词,在全文索引库120中查找匹配的全文索引,并且然后将匹配的全文索引对应的电子文档提供给相应的终端。在一些情况中,查询处理设备114可以将查找到的电子文档的地址提供给相应的终端,从而使得终端的用户可以根据该地址获得对应的电子文档。在一些实施例中,终端A132和/或终端B134可以经由有线和/或无线连接而连接至全文搜索系统110。终端A132和/或终端B134可以任意类型的移动终端、固定终端或便携式终端。应当认识到的是,虽然被示出为两个分离的设备,在一些实施例中,索引处理设备112和查询处理设备114可以由单个设备、例如服务器、计算设备等来实现。在另外一些实施例中,索引处理设备112或查询处理设备114还可以由多个设备、例如服务器、计算设备等来实现。全文搜索系统110有时也可以被称为搜索引擎。在已有的全文搜索系统中,电子文档的内容被解析为一个或多个全文索引,其中每个全文索引可以包括电子文档的一个或多个字、词、符号或句子。用户输入的关键词被用于与全文索引相匹配,以便查询电子文档。如先前提及的,这种全文搜索方法难以返回用户期望的电子文档。在一些情况下,通过利用关键词来匹配全文索引,本文档来自技高网
...
基于分类的全文搜索

【技术保护点】
一种用于全文搜索的方法,包括:基于所获得的电子文档的内容生成第一全文索引;分类所述电子文档以确定所述电子文档的类别标识符;基于所述类别标识符生成第二全文索引;以及存储所述第一全文索引和所述第二全文索引。

【技术特征摘要】
1.一种用于全文搜索的方法,包括:基于所获得的电子文档的内容生成第一全文索引;分类所述电子文档以确定所述电子文档的类别标识符;基于所述类别标识符生成第二全文索引;以及存储所述第一全文索引和所述第二全文索引。2.根据权利要求1所述的方法,其中分类所述电子文档包括以下各项中的至少一项:基于与所述电子文档相关联的元数据来分类所述电子文档;以及通过分析所述电子文档中的内容的语义来分类所述电子文档。3.根据权利要求1或2所述的方法,其中分类所述电子文档包括:确定所述电子文档是否属于预定类别;响应于确定所述电子文档属于所述预定类别,将与所述预定类别相关联的类别标识符确定为所述电子文档的类别标识符。4.根据权利要求3所述的方法,其中分类所述电子文档进一步包括:响应于确定所述电子文档属于所述预定类别,确定所述电子文档是否属于所述预定类别的子类别;以及响应于确定所述电子文档属于所述子类别,将与所述子类别相关联的类别标识符确定为所述电子文档的类别标识符。5.根据权利要求3所述的方法,其中所述预定类别与对应的子类别以树结构被存储,并且其中分类所述电子文档包括:遍历所述树结构,以确定所述电子文档的类别标识符。6.根据权利要求1所述的方法,进一步包括:基于与所述电子文档相关联的元数据生成第三全文索引;以及存储所述第三全文索引。7.一种用于全文搜索的方法,包括:获取用户输入的搜索项,所述搜索项至少包括与待搜索的电子文档的类别标识符有关的类别关键词;将所述搜索项与预定义的多个全文索引进行匹配,所述多个全文索引至少包括第一全文索引,所述第一全文索引与通过分类至少一个电子文档而确定的类别标识符有关;以及基于所匹配的全文索引,确定相关联的电子文档。8.根据权利要求7所述的方法,其中所述搜索项进一步包括与所述待搜索的电子文档的内容有关的内容关键词,并且所述多个全文索引进一步包括基于所述至少一个电子文档的内容而生成的第二全文索引。9.根据权利要求7或8所述的方法,其中获取用户输入的搜索项包括:向所述用户提供与预定类别对应的第一选项;以及响应于所述用户对所述第一选项的选择,基于所述预定类别的类别标识符确定所述类别关键词。10.根据权利要求9所述的方法,其中获取用户输入的搜索项进一步包括:向所述用户提供与所述预定类别的子类别对应的第二选项;以及响应于所述用户对所述第二选项的选择,基于所述子类别的类别标识符确定所述类别关键词。11.一种用于全文搜索的设备,包括:至少一个处理单元;以及至少一个存储器,所述至少一个存储器耦合至所述至少一个处理单元并且在其上存储指令,所述指令在由所述至少一个处理单元执行时执行包括以下各项的动作:基于所获得的电子文档的内容生成第一全文索引;分类所述电子文档以确定所述电子文档的类别标识符;基于所述类别标识符生成第二全文索引;以及存储所述第一全文索引和所述第二全文索引。12.根据权利要求11所述的设备,其中分类所述电子文档包括以下各项中的至少一项:基于与所述电...

【专利技术属性】
技术研发人员:陈超刘晶晶张磊薛丁萌周旻弘代洪涛
申请(专利权)人:伊姆西公司
类型:发明
国别省市:美国,US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1