挖掘地理信息的方法、装置以及服务器制造方法及图纸

技术编号:12542956 阅读:104 留言:0更新日期:2015-12-19 11:23
本发明专利技术公开了挖掘地理信息的方法、装置以及服务器,本发明专利技术涉及计算机技术领域,该方法包括:在文本信息中查找地址信息标识;当在文本信息中查找到地址信息标识时,在文本信息中查找关键词;从查找到的关键词两侧开始依次检测文本信息中字符是否为结束标识,当在两侧分别检测到结束标识时,提取检测到的结束标识间的文本信息;将提取的文本信息确定为地址信息,输出所述地址信息。本发明专利技术解决了,采用人工收集地址信息的方式,造成成本过高和效率低下的问题;取得了降低地址信息提取成本和提高地址信息提取效率的有益效果。

【技术实现步骤摘要】

本专利技术涉及计算机
,具体涉及一种挖掘地理信息的方法、装置以及服务 器。
技术介绍
随着计算机技术的发展,电子地图被越来越多的使用。在制作电子地图时,需要使 用地址信息。举例而言,地址信息可以为POI(兴趣点,Point of Interest),一个POI可以 是一栋房子、一个商铺、一个邮筒、一个公交站等。 在现有技术中,获取地址信息的方法包括,派遣工作人员到现场对采样点进行经 炜度测量,并现场确定采样点的地址,即地址信息。将测量的经炜度与采样点的地址进行对 应。根据测量的经炜度和采样点的地址在电子地图中标识出采样点,并将采样点与地址信 息对应。可见,现有技术中通过人工方式进行地址信息收集。但是,由于地址信息数量的庞 大,采用人工收集地址信息的方式,造成成本过高和效率低下的问题。
技术实现思路
鉴于上述问题,提出了本专利技术以便提供一种克服上述问题或者至少部分地解决上 述问题的挖掘地理信息的方法、装置以及服务器。 依据本专利技术的一个方面,提供了一种挖掘地址信息的方法,该方法包括: 在文本信息中查找地址信息标识; 当在文本信息中查找到地址信息标识时,在文本信息中查找关键词; 从查找到的关键词两侧开始依次检测文本信息中字符是否为结束标识,当在两侧 分别检测到结束标识时,提取检测到的结束标识间的文本信息; 将提取的文本信息确定为地址信息,输出所述地址信息。 可选地,所述方法还包括: 在将提取的文本彳目息确定为地址彳目息之前,对提取的文本彳目息进行经炜度解析; 所述将提取的文本信息确定为地址信息,进一步包括: 将所提取的通过经炜度解析取得对应经炜度的文本信息,确定为地址信息。 可选地,所述对提取的文本信息进行经炜度解析,进一步包括: 对提取的文本信息进行切词,获得所述提取的文本信息对应的分词; 利用所述分词从经炜度解析数据库中查询所述提取的文本信息对应的经炜度。 可选地,所述利用所述分词从经炜度解析数据库中查询所述提取的文本信息对应 的经炜度,进一步包括: 当利用所述分词在经炜度解析数据库中查找到与所述提取的文本信息完全匹配 的采样点时,将完全匹配的采样点对应的经炜度确定为所述提取的文本信息对应的经炜 度。 可选地,所述利用所述分词从经炜度解析数据库中查询所述提取的文本信息对应 的经炜度,进一步包括: 当利用所述分词在经炜度解析数据库中查找到与所述提取的文本信息部分匹配 的采样点时,根据部分匹配的采样点对应的经炜度和所提取的文本信息确定所述提取的文 本信息对应的经炜度。 可选地,所述地址信息标识至少包括如下词汇中一个词:地址、地区、区域。 可选地,所述关键词至少包括如下词汇中一个词:路、道、街、巷、胡同。 可选地,所述结束标识至少包括如下字符中一种:空格字符、标点字符、回车字符、 分割字符。 根据本专利技术的另一方面,提供了一种挖掘地址信息的装置,该装置包括: 查找模块,适于在文本信息中查找地址信息标识,以及当在文本信息中查找到地 址信息标识时,在文本信息中查找关键词; 提取模块,适于从查找到的关键词两侧开始依次检测文本信息中字符是否为结束 标识,当在两侧分别检测到结束标识时,提取检测到的结束标识间的文本信息; 输出模块,适于将提取的文本信息确定为地址信息,输出所述地址信息。 可选地,所述装置还包括: 解析模块,适于在将提取的文本信息确定为地址信息之前,对提取的文本信息进 行经炜度解析; 所述输出模块,进一步适于将所提取的通过经炜度解析取得对应经炜度的文本信 息,确定为地址信息。 可选地,所述解析模块,进一步包括: 分词子模块,适于对提取的文本信息进行切词,获得所述提取的文本信息对应的 分词; 查询子模块,适于利用所述分词从经炜度解析数据库中查询所述提取的文本信息 对应的经炜度。 可选地,所述查询子模块,进一步适于当利用所述分词在经炜度解析数据库中查 找到与所述提取的文本信息完全匹配的采样点时,将完全匹配的采样点对应的经炜度确定 为所述提取的文本信息对应的经炜度。 可选地,所述查询子模块,进一步适于当利用所述分词在经炜度解析数据库中查 找到与所述提取的文本信息部分匹配的采样点时,根据部分匹配的采样点对应的经炜度和 所提取的文本信息确定所述提取的文本信息对应的经炜度。 可选地,所述地址信息标识至少包括如下词汇中一个词:地址、地区、区域。 可选地,所述关键词至少包括如下词汇中一个词:路、道、街、巷、胡同。 可选地,所述结束标识至少包括如下字符中一种:空格字符、标点字符、回车字符、 分割字符。 依据本专利技术的又一个方面,提供了一种挖掘地址信息的服务器,该服务器包括:上 述任一所述的装置。 根据本专利技术的技术方案,可以在文本信息中查找地址信息标识,当在文本信息中 查找到地址信息标识时,在文本信息中查找关键词,从查找到的关键词两侧开始依次检测 文本信息中字符是否为结束标识,当在两侧分别检测到结束标识时,提取检测到的结束标 识间的文本信息,将提取的文本信息确定为地址信息,输出所述地址信息。由此解决了,采 用人工收集地址信息的方式,造成成本过高和效率低下的问题。采用本专利技术中技术方案,能 够自动从文本?目息中提取地址?目息,取得了降低地址?目息提取成本和提尚地址?目息提取效 率的有益效果。 上述说明仅是本专利技术技术方案的概述,为了能够更清楚了解本专利技术的技术手段, 而可依照说明书的内容予以实施,并且为了让本专利技术的上述和其它目的、特征和优点能够 更明显易懂,以下特举本专利技术的【具体实施方式】。【附图说明】 通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通 技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本专利技术 的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中: 图1示出了根据本专利技术一个实施例的挖掘地址信息的方法的流程图; 图2示出了根据本专利技术一个实施例的网页的局部内容示意图; 图3示出了根据本专利技术一个实施例的对提取的文本信息进行经炜度解析的操作 的流程图; 图4示出了根据本专利技术一个实施例的挖掘地址信息的方法的流程图; 图5示出了根据本专利技术一个实施例的网页的局部内容示意图; 图6示出了根据本专利技术一个实施例的挖掘地址信息的装置的结构图;以及 图7示出了根据本专利技术一个实施例的挖掘地址信息的装置的结构图。【具体实施方式】 下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开 的示例性实施例,然而应当理解,可以以各种形式实现本公当前第1页1 2 3 4 本文档来自技高网...

【技术保护点】
一种挖掘地址信息的方法,该方法包括:在文本信息中查找地址信息标识;当在文本信息中查找到地址信息标识时,在文本信息中查找关键词;从查找到的关键词两侧开始依次检测文本信息中字符是否为结束标识,当在两侧分别检测到结束标识时,提取检测到的结束标识间的文本信息;将提取的文本信息确定为地址信息,输出所述地址信息。

【技术特征摘要】

【专利技术属性】
技术研发人员:王智广傅彤
申请(专利权)人:北京奇虎科技有限公司奇智软件北京有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1