一种基于检索词的地域识别装置及方法制造方法及图纸

技术编号:5462226 阅读:239 留言:0更新日期:2012-04-11 18:40
本发明专利技术提供一种基于检索词的地域识别装置及方法,该方法包括:获取检索词;扩充检索词,获得描述检索词的描述文本信息;从描述文本信息提取第一地域特征词集合;根据描述文本信息计算第一地域特征词对应的权值,形成第一地域特征向量;根据第一地域特征词集合获取多个备选地域,按照行政区域分别对多个备选地域进行扩展,获取多个与备选地域相关的不同行政区域级别的第二地域特征词集合,根据行政区域级别计算多个第二地域特征词的权值,形成多个第二地域特征向量;分别将多个第二地域特征向量与第一地域特征向量进行相似度计算,根据计算结果判断检索词的对应地域。通过以上方式,可精确定位检索词所描述地域。

【技术实现步骤摘要】

本专利技术涉及互联网技术,特别涉及一种基于检索词的地域识别装置及方法
技术介绍
随着互联网技术的发展,网络地图已成为人们日常生活的一部分。人们可利用网络地图进行公交路线查找、驾驶导航、街道和建筑物搜索等动作,网络地图的出现极大地便利了人们的生活。就现有技术而言,通常,若用户需要在网络地图上查找某个地点名称(如某某街道、天安门或东方明珠塔等),网络地图往往会先提供城市列表给用户选择,由用户挑选城市后,然后可在网络地图上输入一个检索词,然后网络地图在用户挑选的城市范围内进行搜索与检索词匹配的地点名称及相应座标。另外一些网络地图中,网络地图会根据用户当前使用的电脑的IP地址所在城市预先定位和限定搜索的范围,然后网络地图在用户电脑的IP地址所属的城市范围内进行搜索与检索词匹配的地点名称及相应座标。上述两种网络地图的现有技术均透过预先限定搜索范围而非在全部地图范围内进行搜索,来加速搜索的响应时间。然而,若用户当前使用的电脑的IP地址所在城市为广州市时(又或者是用户在网络地图上手动选择了特定城市为广州市),在网络地图上输入检索词为“天安门”,想在网络地图上获得北京天安门广场的地图信息时,网络地图却会限定在广州市内对标示有“天安门”的所有街道、建筑以及地名进行查询,可能会输出一系列与天安门不相关的街道、建筑或地名,如天安门大酒店、天安门大道等,与用户想要检索到的城市“北京市”不符。由此可见,现有技术中的网络地图难以精确定位检索词所描述的地域,举例来说,若用户仅知道地点名称,却不知道所在城市的情况,所输入的检索词在现有技术的搜索结果难以精准定位到检索词所在城市,造成用户为了查找到检索词所在城市,需要不断修正检索词或者点选多次的搜索结果才能得知检索词所在城市,导致网络地图服务器资源占用,以及网络流量浪费等问题。
技术实现思路
本专利技术提供了一种基于检索词的地域识别装置及方法,可解决现有技术中的网络地图难以精确定位检索词所描述的地域的技术问题。具体方案如下:提供一种基于检索词的地域识别方法,包括:a.获取检索词;b.对检索词进行扩充,获得描述检索词的描述文本信息;c.从描述文本信息提取第一地域特征词集合;d.根据描述文本信息计算第一地域特征词集合中每一第一地域特征词对应的权值,形成第一地域特征向量;e.根据第一地域特征词集合获取多个备选地域,按照行政区域分别对多个备选地域进行扩展,以获取多个与备选地域相关的不同行政区域级别的第二地域特征词集合,并根据行政区域级别计算多个第二地域特征词集合中每一第二地域特征-->词的权值,形成多个第二地域特征向量;f.分别将多个第二地域特征向量与第一地域特征向量进行相似度计算,并根据计算结果判断检索词的对应地域。根据本专利技术之一优选实施例,在步骤b中,利用搜索引擎搜索与检索词相关的网页信息,并将网页信息作为描述文本信息。根据本专利技术之一优选实施例,在步骤c中,根据地域特征词典对描述文本信息进行匹配搜索,以获取第一地域特征词。根据本专利技术之一优选实施例,在步骤d中,根据描述文本信息利用TF-IDF算法计算第一地域特征词对应的TF-IDF权值,以形成第一地域特征向量。根据本专利技术之一优选实施例,在步骤e中,利用聚类算法从第一地域特征词集合提取备选地域。根据本专利技术之一优选实施例,在步骤e中,行政区域级别越低的第二地域特征词的权值越大。根据本专利技术之一优选实施例,在步骤f中,利用余弦相似度计算公式分别对多个第二地域特征向量与第一地域特征向量进行余弦相似度计算,以获得多个余弦相似度值。根据本专利技术之一优选实施例,在步骤f中,进一步判断多个余弦相似度值中的最大值与其他余弦相似度值的区别度是否符合预定标准,若区别度符合预定标准,则将最大值对应的备选地域作为检索词的对应地域。根据本专利技术之一优选实施例,在步骤f中,判断最大值是否大于第一阈值,并判断最大值与多个余弦相似度值的求和值之间的比例是否大于第二阈值,若最大值大于第一阈值且比例大于第二阈值,则判定区别度符合预定标准。本专利技术进一步提供一种基于检索词的地域识别装置,包括:检索词获取模块,用于获取检索词;检索词扩充模块,用于对检索词进行扩充,获得描述检索词的描述文本信息;第一地域特征词获取模块,用于从描述文本信息提取第一地域特征词集合,第一地域特征向量获取模块,用于根据描述文本信息计算第一地域特征词集合中每一第一地域特征词对应的权值,形成第一地域特征向量;第二地域特征向量获取模块,包括:备选地域获取模块,用于根据第一地域特征词集合获取多个备选地域;第二地域特征词获取模块,用于按照行政区域分别对多个备选地域进行扩展,以获取多个与备选地域相关的不同行政区域级别的第二地域特征词集合;第二地域特征词权值计算模块,用于根据行政区域级别计算多组第二地域特征词集合中每一第二地域特征词的权值,形成多个第二地域特征向量;相似度计算模块,用于分别将多个第二地域特征向量与第一地域特征向量进行相似度计算,并根据计算结果判断检索词的对应地域。根据本专利技术之一优选实施例,检索词扩充模块利用搜索引擎搜索与检索词相关的网页信息,并将网页信息作为描述文本信息。根据本专利技术之一优选实施例,第一地域特征词获取模块用于根据地域特征词典对描述文本信息进行匹配搜索,以获取第一地域特征词。根据本专利技术之一优选实施例,第一地域特征向量获取模块用于根据描述文本信息利用TF-IDF算法计算第一地域特征词对应的TF-IDF权值,以形成第一地域特征向量。根据本专利技术之一优选实施例,备选地域获取模块利用聚类算法从第一地域特征词集合提取备选地域。-->根据本专利技术之一优选实施例,第二地域特征词权值计算模块的权值计算规则为:行政区域级别越低的第二地域特征词的权值越大。根据本专利技术之一优选实施例,相似度计算模块包括余弦相似度计算模块,余弦相似度计算模块利用余弦相似度计算公式分别对多个第二地域特征向量与第一地域特征向量进行余弦相似度计算,以获得多个余弦相似度值。根据本专利技术之一优选实施例,相似度计算模块进一步包括判断模块,判断模块用于判断多个余弦相似度值中的最大值与其他余弦相似度值的区别度是否符合预定标准,若区别度符合预定标准,则将最大值对应的备选地域作为检索词的对应地域。根据本专利技术之一优选实施例,判断模块用于判断最大值是否大于第一阈值,并判断最大值与多个余弦相似度值的求和值之间的比例是否大于第二阈值,若最大值大于第一阈值且比例大于第二阈值,则判定区别度符合预定标准。因此,本专利技术提供的技术方案可准确获取与检索词所描述最为接近的地域,保证了网络地图可在与检索词所描述最为接近的地域进行搜索,即用户在网络地图输入想要查找目的地的检索词后,本专利技术提供的基于检索词的地域识别装置及方法可精确定位检索词所描述的地域(如省、城市、县、区等),网络地图可在该地域上进行搜索,以向用户呈现目标地域中的搜索结果。附图说明图1是根据本专利技术第一实施例的基于检索词的地域识别方法的流程图;图2是根据本专利技术第一实施例的基于检索词的地域识别方法中的形成第二地域特征向量的流程图;图3是根据本专利技术第二实施例的基于检索词的地域识别装置的示意框图;图4是根据本专利技术第二实施例的基于检索词的地域识别装置的相似度计算模块的示意框图;图5是根据本专利技术第三实施例的基于检索词的地域识别装置的示意本文档来自技高网
...

【技术保护点】
一种基于检索词的地域识别方法,其特征在于,包括:a.获取所述检索词;b.对所述检索词进行扩充,获得描述所述检索词的描述文本信息;c.从所述描述文本信息提取第一地域特征词集合;d.根据所述描述文本信息计算所述第一地域特征词集合中每一第一地域特征词对应的权值,形成第一地域特征向量;e.根据所述第一地域特征词集合获取多个备选地域,按照行政区域分别对所述多个备选地域进行扩展,以获取多个与所述备选地域相关的不同行政区域级别的第二地域特征词集合,并根据行政区域级别计算所述多个第二地域特征词集合中每一第二地域特征词的权值,形成多个第二地域特征向量;f.分别将所述多个第二地域特征向量与所述第一地域特征向量进行相似度计算,并根据计算结果判断所述检索词的对应地域。

【技术特征摘要】
1.一种基于检索词的地域识别方法,其特征在于,包括:a.获取所述检索词;b.对所述检索词进行扩充,获得描述所述检索词的描述文本信息;c.从所述描述文本信息提取第一地域特征词集合;d.根据所述描述文本信息计算所述第一地域特征词集合中每一第一地域特征词对应的权值,形成第一地域特征向量;e.根据所述第一地域特征词集合获取多个备选地域,按照行政区域分别对所述多个备选地域进行扩展,以获取多个与所述备选地域相关的不同行政区域级别的第二地域特征词集合,并根据行政区域级别计算所述多个第二地域特征词集合中每一第二地域特征词的权值,形成多个第二地域特征向量;f.分别将所述多个第二地域特征向量与所述第一地域特征向量进行相似度计算,并根据计算结果判断所述检索词的对应地域。2.根据权利要求1所述的方法,其特征在于,在所述步骤b中,利用搜索引擎搜索与所述检索词相关的网页信息,并将所述网页信息作为所述描述文本信息。3.根据权利要求1所述的方法,其特征在于,在所述步骤c中,根据地域特征词典对所述描述文本信息进行匹配搜索,以获取所述第一地域特征词。4.根据权利要求1所述的方法,其特征在于,在所述步骤d中,根据所述描述文本信息利用TF-IDF算法计算所述第一地域特征词对应的TF-IDF权值,以形成所述第一地域特征向量。5.根据权利要求1所述的方法,其特征在于,在所述步骤e中,利用聚类算法从所述第一地域特征词集合提取所述备选地域。6.根据权利要求5所述的方法,其特征在于,在所述步骤e中,行政区域级别越低的第二地域特征词的权值越大。7.根据权利要求1所述的方法,其特征在于,在所述步骤f中,利用余弦相似度计算公式分别对所述多个第二地域特征向量与所述第一地域特征向量进行余弦相似度计算,以获得多个余弦相似度值。8.根据权利要求7所述的方法,其特征在于,在所述步骤f中,进一步判断所述多个余弦相似度值中的最大值与其他余弦相似度值的区别度是否符合预定标准,若所述区别度符合所述预定标准,则将所述最大值对应的备选地域作为所述检索词的对应地域。9.根据权利要求8所述的方法,其特征在于,在所述步骤f中,判断所述最大值是否大于第一阈值,并判断所述最大值与所述多个余弦相似度值的求和值之间的比例是否大于第二阈值,若所述最大值大于所述第一阈值且所述比例大于所述第二阈值,则判定所述区别度符合所述预定标准。10.一种基于检索词的地域识别装置,其特征在于,包括:检索词获取模块,用于获取所述检索词;检索词扩充模块,用于对所述检索词进行扩充,获得描述所述检索词的描述文本信息;第一地域特征词获取模块,用于...

【专利技术属性】
技术研发人员:张绍文蔡华纯
申请(专利权)人:百度在线网络技术北京有限公司
类型:发明
国别省市:11[中国|北京]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1