从查询词中提取兴趣点的方法和装置制造方法及图纸

技术编号:15763086 阅读:56 留言:0更新日期:2017-07-05 23:58
本发明专利技术提供一种从查询词中提取兴趣点的方法和装置,方法包括:对用户输入的查询词进行分词,提取查询词中包含的地域信息;从查询词的分词结果中选择包含地域信息的候选兴趣点;根据地域信息将候选兴趣点进行匹配处理;从候选兴趣点中选择匹配成功的兴趣点作为查询词的兴趣点。根据本发明专利技术,由于兴趣点普遍包含地域信息,所以对查询词分词后提取地域信息,并将分词重组能够得到包含地域信息的候选兴趣点,得到的候选兴趣点数量有限;然后将候选兴趣点的地域信息与现有的兴趣点的地域信息进行匹配;由于得到的候选兴趣点数量有限,将其与现有兴趣点匹配不会占用太多的计算资源,同时根据地域信息来判断兴趣点效率、准确率很高。

Method and device for extracting interest points from query words

The present invention provides a method and apparatus of interest points extracted from the query method includes: segmentation of user input queries, extracting query words contained in the geographical information; geographical information contains a selection of candidate interest points from the query results of segmentation; according to the domain information matching processing candidate interest point selection; successful matching interest points from the candidate points of interest as the query points of interest. According to the invention, the point of interest generally contains geographical information, so the query word extraction and segmentation of geographical information, geographical information can be contained recombinant candidate interest points, the candidate points of interest is limited; then, the candidate points of interest and geographical information with the existing points of interest due to geographical information; the limited number of candidate points of interest, the interest points matching with the existing computing resources will not take up too much at the same time, according to the geographical information to determine the point of interest rate, the accuracy is very high.

【技术实现步骤摘要】
从查询词中提取兴趣点的方法和装置
本专利技术涉及计算机
,具体而言,涉及一种从查询词中提取兴趣点的方法和装置。
技术介绍
当前搜索引擎对查询词的处理过程主要是:分词→查询倒排索引→排序显示。查询词中有很多会涉及到POI(PointofInterest,兴趣点),目前由于问题的多样性和兴趣点数量级的限制,并没有一种恰当的方法针对查询词中的兴趣点进行识别和处理,如果能够将其中的兴趣点识别出来,而兴趣点又自带经纬度和地址,结合这些丰富的信息,能很大程度上提升对查询词语义的理解,对于涉及兴趣点的查询词能够直接丰富其结果维度,从而改善搜索引擎的质量。然而全国有几千万的兴趣点量,将一条查询词和几千万的兴趣点进行匹配显然是一个非常耗时的过程,而且连进行匹配的长度也不确定。因此,需要实现一种能够准确、高效的识别出查询词中所包含的兴趣点信息的技术方案。
技术实现思路
鉴于上述问题,提出了本专利技术以便提供一种克服上述问题或者至少部分地解决上述问题的从查询词中提取兴趣点的方法和装置。依据本专利技术的一种从查询词中提取兴趣点的方法,包括:对用户输入的查询词进行分词,提取所述查询词中包含的地域信息;从所述查询词的分词结果中选择包含所述地域信息的候选兴趣点;根据所述地域信息将所述候选兴趣点进行匹配处理;从所述候选兴趣点中选择匹配成功的兴趣点作为所述查询词的兴趣点。可选地,前述的方法,从所述查询词的分词结果中选择包含所述地域信息的候选兴趣点,具体包括:根据用于记载多个前缀以及所述多个前缀所在兴趣点的分词数量的前缀词典,从所述查询词的分词结果中选择分词组成所述候选兴趣点。可选地,前述的方法,根据所述地域信息将所述候选兴趣点进行匹配处理,具体包括:识别所述候选兴趣点的后缀,并使用去除后缀的所述候选兴趣点进行匹配处理。可选地,前述的方法,将所述候选兴趣点进行匹配处理,具体包括:根据预设方式对所述候选兴趣点进行计算得到结果值;根据所述候选兴趣点的结果值,从多个容器中选择对应的容器;其中预设多个容器存储多个信息点,且所述多个容器分别采用其中信息点按所述预设方式计算的结果值作为标识;判断所述对应的容器中存储的兴趣点包含的地域信息是否与所述候选兴趣点的所述地域信息相同。可选地,前述的方法,还包括:如果所述查询词的兴趣点为多个,其中第一兴趣点为第二兴趣点的部分时,从所述查询词的兴趣点中过滤掉所述第一兴趣点。可选地,前述的方法,还包括:判断所述查询词的兴趣点的含义是否清楚,根据判断结果确认是否保留所述查询词的兴趣点。依据本专利技术的一种从查询词中提取兴趣点的装置,包括:地域信息提取模块,用于对用户输入的查询词进行分词,提取所述查询词中包含的地域信息;候选兴趣点选择模块,用于从所述查询词的分词结果中选择包含所述地域信息的候选兴趣点;匹配模块,用于根据所述地域信息将所述候选兴趣点进行匹配处理;选择模块,用于从所述候选兴趣点中选择匹配成功的兴趣点作为所述查询词的兴趣点。可选地,前述的装置,所述候选兴趣点选择模块根据用于记载多个前缀以及所述多个前缀所在兴趣点的分词数量的前缀词典,从所述查询词的分词结果中选择分词组成所述候选兴趣点。可选地,前述的装置,所述匹配模块识别所述候选兴趣点的后缀,并使用去除后缀的所述候选兴趣点进行匹配处理。可选地,前述的装置,还包括:计算模块,用于根据预设方式对所述候选兴趣点进行计算得到结果值;容器查找模块,用于根据所述候选兴趣点的结果值,从多个容器中选择对应的容器;其中预设多个容器存储多个信息点,且所述多个容器分别采用其中信息点按所述预设方式计算的结果值作为标识;所述匹配模块判断所述对应的容器中存储的兴趣点包含的地域信息是否与所述候选兴趣点的所述地域信息相同。可选地,前述的装置,还包括:第一过滤模块,用于如果所述查询词的兴趣点为多个,其中第一兴趣点为第二兴趣点的部分时,从所述查询词的兴趣点中过滤掉所述第一兴趣点。可选地,前述的装置,还包括:第二过滤模块,用于判断所述查询词的兴趣点的含义是否清楚,根据判断结果确认是否保留所述查询词的兴趣点。根据以上技术方案,本专利技术的从查询词中提取兴趣点的方法和装置至少具有以下优点:在本专利技术的技术方案中,由于兴趣点普遍包含地域信息,所以对查询词分词后提取地域信息,并将分词重组能够得到包含地域信息的候选兴趣点,得到的候选兴趣点数量有限;然后将候选兴趣点的地域信息与现有的兴趣点的地域信息进行匹配,匹配成功则确认为查询词的兴趣点;由于得到的候选兴趣点数量有限,将其与现有兴趣点匹配不会占用太多的计算资源,同时根据地域信息来判断兴趣点效率、准确率很高。上述说明仅是本专利技术技术方案的概述,为了能够更清楚了解本专利技术的技术手段,而可依照说明书的内容予以实施,并且为了让本专利技术的上述和其它目的、特征和优点能够更明显易懂,以下特举本专利技术的具体实施方式。附图说明通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本专利技术的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:图1示出了根据本专利技术的一个实施例的从查询词中提取兴趣点的方法的流程图;图2示出了根据本专利技术的一个实施例的从查询词中提取兴趣点的方法的流程图;图3示出了根据本专利技术的一个实施例的从查询词中提取兴趣点的方法的原理图;图4示出了根据本专利技术的一个实施例的从查询词中提取兴趣点的装置的框图;图5示出了根据本专利技术的一个实施例的从查询词中提取兴趣点的装置的框图。具体实施方式下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。在描述本专利技术的实施例前,首先对以下实施例中提到的查询词和兴趣点的关系进行距举例说明,如下表所示:上表列出了查询词中包含兴趣点的几个例子。一条查询词中可能会包含多个兴趣点,第三个例子的查询词中并不能看出包含任何兴趣点,而兴趣点中恰好有个“广州珠江钢琴专卖店”,那么如果将查询词和该专卖店关联起来,那么对于搜索用户来说无疑是个惊喜,第四个例子中用户的查询词没有直接能够把兴趣点“家乐福(温江店)”提出,而是通过另外的其他说法说明。后面两个例子都是通过扩充后缀得到兴趣点,从而一定程度上解决了查询词中兴趣点名称说法多样性问题。如图1所示,本专利技术的一个实施例中提供一种从查询词中提取兴趣点的方法,包括:步骤110,对用户输入的查询词进行分词,提取查询词中包含的地域信息。在本实施例中,需要理解的是,兴趣点普遍包含地域信息,所以从查询词中提取兴趣点时,首先需要提取地域信息;具体地,可以首先构建全国省、市、区(县)、乡(镇)、村、街道列表,对查询词进行分词后,根据已构建的区域列表识别查询词中包含的区域,如下表所示,将查询词中包含的省、市、区(县)、乡(镇)、村、街道全部识别出来。步骤120,从查询词的分词结果中选择包含地域信息的候选兴趣点。在本实施例中,容易理解,兴趣点由查询词中的包含地域信息的多个分词组成,所以利用查询词的分词和地域信息可以组成候选本文档来自技高网...
从查询词中提取兴趣点的方法和装置

【技术保护点】
一种从查询词中提取兴趣点的方法,其特征在于,包括:对用户输入的查询词进行分词,提取所述查询词中包含的地域信息;从所述查询词的分词结果中选择包含所述地域信息的候选兴趣点;根据所述地域信息将所述候选兴趣点进行匹配处理;从所述候选兴趣点中选择匹配成功的兴趣点作为所述查询词的兴趣点。

【技术特征摘要】
1.一种从查询词中提取兴趣点的方法,其特征在于,包括:对用户输入的查询词进行分词,提取所述查询词中包含的地域信息;从所述查询词的分词结果中选择包含所述地域信息的候选兴趣点;根据所述地域信息将所述候选兴趣点进行匹配处理;从所述候选兴趣点中选择匹配成功的兴趣点作为所述查询词的兴趣点。2.根据权利要求1所述的方法,其特征在于,从所述查询词的分词结果中选择包含所述地域信息的候选兴趣点,具体包括:根据用于记载多个前缀以及所述多个前缀所在兴趣点的分词数量的前缀词典,从所述查询词的分词结果中选择分词组成所述候选兴趣点。3.根据权利要求1-2任一项所述的方法,其特征在于,根据所述地域信息将所述候选兴趣点进行匹配处理,具体包括:识别所述候选兴趣点的后缀,并使用去除后缀的所述候选兴趣点进行匹配处理。4.根据权利要求1-3任一项所述的方法,其特征在于,将所述候选兴趣点进行匹配处理,具体包括:根据预设方式对所述候选兴趣点进行计算得到结果值;根据所述候选兴趣点的结果值,从多个容器中选择对应的容器;其中预设多个容器存储多个信息点,且所述多个容器分别采用其中信息点按所述预设方式计算的结果值作为标识;判断所述对应的容器中存储的兴趣点包含的地域信息是否与所述候选兴趣点的所述地域信息相同。5.根据权利要求1-4任一项所述的方法,其特征在于,还包括:如果所述查询词的兴趣点为多个,其中第一兴趣点为第二兴趣点的部分时,从所述查询词的兴趣点中过滤掉所述第一兴趣点。6.根据权利要求1-5任一项所述的方法,其特征在于,还包括:判断所述查询词的兴趣点的含义是否清楚,根据判断结果确认是否保留所述查询词的兴趣点。7.一种从查询词中提取兴...

【专利技术属性】
技术研发人员:马健
申请(专利权)人:北京奇虎科技有限公司奇智软件北京有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1