一种信息搜索方法和装置制造方法及图纸

技术编号:9596767 阅读:78 留言:0更新日期:2014-01-23 02:16
本申请公开了一种信息搜索方法和装置。该方法包括:获取查询词,基于两个以上的词典分别对所述查询词进行分词,得到每个词典对应的分词结果,其中,所述两个以上的词典包括基本词典和新词词典,当需要收录所述基本词典中当前未收录的词组时,将所述当前未收录的词组存储在所述新词词典中;根据每个词典对应的分词结果分别获取搜索结果信息,得到每个词典对应的搜索结果信息,从各个词典对应的搜索结果信息中确定最终的搜索结果。应用本发明专利技术使得信息搜索结果更加全面。

【技术实现步骤摘要】
【专利摘要】本申请公开了一种信息搜索方法和装置。该方法包括:获取查询词,基于两个以上的词典分别对所述查询词进行分词,得到每个词典对应的分词结果,其中,所述两个以上的词典包括基本词典和新词词典,当需要收录所述基本词典中当前未收录的词组时,将所述当前未收录的词组存储在所述新词词典中;根据每个词典对应的分词结果分别获取搜索结果信息,得到每个词典对应的搜索结果信息,从各个词典对应的搜索结果信息中确定最终的搜索结果。应用本专利技术使得信息搜索结果更加全面。【专利说明】一种信息搜索方法和装置
本申请涉及信息搜索
,尤其涉及一种信息搜索方法和装置。
技术介绍
在当前信息化的社会中,信息搜索得到了广泛应用。目前的信息搜索过程一般包括:接收查询词,对查询词进行分词,根据分词结果查询倒排数据库,从倒排数据库中获取搜索结果,返回搜索结果。其中,分词是指,根据词典中的词组,将分词目标(例如查询词)划分为词典中的一个或多个词组;倒排数据库用于存储待搜索文档的索引信息,具体地,倒排数据库以词典中的词组作为索引,每一词组对应了以该词组作为索引的所有待搜索文档的信息。随着当前信息更新速度的加快,会不断涌现出新词,即未在词典中收录的词,这些新词常常可以由词典中已经收录的词组(简称旧词)组成,但是却拥有与组成该新词的各个旧词迥然不同的含义,比如“屌丝”由“屌”和“丝”组成,但是“屌丝”的含义却与“屌”和“丝”的含义完全不同。由于新词的出现,将导致分词所基于的词典的内容也将发生变化,由于分词是以词典中收录的词组作为最小单元而进行的,因此,随着词典内容的变化,即在词典收录新词以前和收录新词之后,将导致针对同一分词目标的分词结果发生变化。具体地,在进行分词所基于的词典收录新词之前,搜索引擎将按照词典中已收录的词组对该新词进行分词,得到组成该新词的各个词组,并根据组成该新词的各个词组从倒排数据库中获取搜索结果,例如在“屌丝”被收录到词典之前,对该“屌丝”的分词结果为“屌”和“丝”,则根据“屌”和“丝”从倒排数据库中获取搜索结果;在进行分词所基于的词典收录所述新词之后,搜索引擎将按照所述新词从倒排数据库中获取搜索结果。其中,倒排数据库中的文档索引信息,也会在词典中收录的词组更新以后,根据更新的词典中收录的词组重新对待搜索文档建立索引。可见,目前的信息搜索方法中,由于词典的内容会随着新词的涌现和收录而不断发生变化,因此,导致搜索结果要么仅能查询到与组成查询词的各个词组相关的文档,要么仅能查询到与查询词本身相关的文档,信息搜索的结果不够全面。
技术实现思路
本申请提供了 一种信息搜索方法和装置,从而使得信息搜索结果更加全面。本申请的技术方案具体是这样实现的:一种信息搜索方法,该方法包括:获取查询词,基于两个以上的词典分别对所述查询词进行分词,得到每个词典对应的分词结果,其中,所述两个以上的词典包括基本词典和新词词典,所述新词词典用于存储所述基本词典中未收录的词组;根据每个词典对应的分词结果分别获取搜索结果信息,得到每个词典对应的搜索结果信息,从各个词典对应的搜索结果信息中确定最终的搜索结果。一种信息搜索装置,该装置包括第一获取模块、分词模块、第二获取模块和确定模块;所述第一获取模块,用于获取查询词;所述分词模块,用于基于两个以上的词典分别对所述查询词进行分词,得到每个词典对应的分词结果,其中,所述两个以上的词典包括基本词典和新词词典,所述新词词典用于存储所述基本词典中未收录的词组;所述第二获取模块,用于根据每个词典对应的分词结果分别获取搜索结果信息,得到每个词典对应的搜索结果信息;所述确定模块,用于根据各个词典对应的搜索结果信息,确定最终的搜索结果。由上述方案可见,本申请在接收到查询词以后,基于两个以上的词典分别对所述查询词进行分词,得到每个词典对应的分词结果,根据每个词典对应的分词结果分别获取每个词典对应的搜索结果信息以后,根据各个词典对应的搜索结果信息,确定最终的搜索结果,并且,其中所述的两个以上的词典包括基本词典和新词词典,所述新词词典用于存储所述基本词典中未收录的词组。可见,由于本申请中,基于基本词典和新词词典进行分词,由于对于新词等基本词典中未收录的词组,并非像现有技术那样直接更新词典中已有的词组,而是将新词等基本词典中未收录的词组另外存储在新词词典中,综合利用基本词典和新词词典对查询词进行分词,并根据分词结果获取搜索结果信息,进而确定最终的搜索结果,因此,能够解决现有技术中由于词典内容不断变化导致的问题,即解决搜索结果要么仅能查询到与组成查询词的各个词组相关的文档,要么仅能查询到与查询词本身相关的文档,搜索结果不够全面的问题,使得搜索结果更加全面,提高了信息搜索质量。【专利附图】【附图说明】图1是本专利技术提供的信息搜索方法流程图。图2是本专利技术提供的信息搜索装置结构图。【具体实施方式】图1是本专利技术提供的信息搜索方法流程图。如图1所示,该流程包括:步骤101,获取查询词。本步骤中,所述获取可以是主动获取方式,也可以是接收等被动获取方式。步骤102,基于两个以上的词典分别对所述查询词进行分词,得到每个词典对应的分词结果,其中,所述两个以上的词典包括基本词典和新词词典,所述新词词典用于存储所述基本词典中未收录的词组。其中,新词词典的建立方法包括:当需要收录所述基本词典中当前未收录的词组时,将所述当前未收录的词组存储在所述新词词典中,从而建立新词词典。新词词典中会收入例如网络上新创造的词语例如屌丝、高富帅,等。步骤103,根据每个词典对应的分词结果分别获取搜索结果信息,得到每个词典对应的搜索结果信息。步骤104,根据各个词典对应的搜索结果信息,确定最终的搜索结果。本步骤中,从各个词典对应的搜索结果信息中确定最终的搜索结果,例如,可以将新词词典对应的全部搜索结果和基本词典对应的至少部分搜索结果确定为最终的搜索结果,或者,将新词词典对应的至少部分搜索结果确定为最终的搜索结果,或者,根据与查询词的相关性,从新词词典对应的搜索结果和基本词典对应的搜索结果中各选出至少部分确定为最终的搜索结果。其中,从各个词典对应的搜索结果信息中确定最终的搜索结果具体可以包括:判断新词词典对应的搜索结果条数信息是否达到预定阈值,如果是,从新词词典对应的搜索结果中确定最终的搜索结果,如果否,利用所述预定阈值减去新词词典对应的搜索结果个数,根据所得的差从基本词典对应的搜索结果中选出相应个数的搜索结果,将新词词典对应的搜索结果和从基本词典对应的搜索结果中选出的搜索结果确定为最终的搜索结果;或者,根据与查询词的相关性,从新词词典对应的搜索结果和基本词典对应的搜索结果中选出最终的搜索结果。可见,由于图1所示方法是基于两个以上的词典进行分词,进而根据两个以上的词典的分词结果确定最终的搜索结果,且该两个以上的词典包括基本词典和新词词典,其中,所述新词词典用于存储所述基本词典中未收录的词组,因此,当接收的查询词是未收录在基本词典中的新词、且由已收录在词典中的两个以上的旧词组成时,采用图1所述方法既能查询到与组成查询词的各个词组相关的文档,也能查询到与查询词本身相关的文档,搜索结果更加全面,提高了信息搜索质量。其中,在基于两个以上的词典分别对查询词进行分词时,可以针对本文档来自技高网
...

【技术保护点】
一种信息搜索方法,其特征在于,该方法包括:获取查询词,基于两个以上的词典分别对所述查询词进行分词,得到每个词典对应的分词结果,其中,所述两个以上的词典包括基本词典和新词词典,所述新词词典用于存储所述基本词典中未收录的词组;根据每个词典对应的分词结果分别获取搜索结果信息,得到每个词典对应的搜索结果信息,从各个词典对应的搜索结果信息中确定最终的搜索结果。

【技术特征摘要】

【专利技术属性】
技术研发人员:谢朴锐
申请(专利权)人:深圳市世纪光速信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1