一种处理地址信息的方法及装置制造方法及图纸

技术编号:18426249 阅读:37 留言:0更新日期:2018-07-12 01:58
本发明专利技术实施例公开了一种处理地址信息的方法及装置,涉及电子信息技术领域,能够识别提取形式上比较松散的地名地址信息,并将其形式标准化,从而为基于地址信息的匹配过程提供技术基础。本发明专利技术包括:从地址信息样本库中的提取地址元素标签,按照逻辑层次划分所提取的地址元素标签,根据所述按照逻辑层次划分后的地址元素标签,识别待处理的地址信息中的地址元素;将识别得到的地址元素,按照所述逻辑层次组装输出。这是一种面向松散形式的地址提取与标准化方法。

A method and device for dealing with address information

An embodiment of the invention discloses a method and device for dealing with address information, which involves the field of electronic information technology, and can identify and standardize the form and address information of a relatively loose place name, and thus provide a technical basis for the matching process based on address information. The invention includes: extracting address element labels from the address information sample library, dividing the extracted address element label according to the logical level, identifying the address elements in the address information to be processed according to the address element label divided at the logical level, and identifying the identified address elements according to the logic. Hierarchical assembly output. This is a loosely oriented method for address extraction and standardization.

【技术实现步骤摘要】
一种处理地址信息的方法及装置
本专利技术涉及电子信息
,尤其涉及一种处理地址信息的方法及装置。
技术介绍
未来的人机交互数据将越来越多涉及地理信息,互联网成为不断更新的地理信息数据仓库,聚集了大量形式规范的、非规范的地址信息。而涉及地理信息的产业,对地理信息数据的需求越来越高,以便为各类业务的分析、研究和决策提供支撑。互联网上采集的地理信息数据,数据量庞大,难以通过人工整理。目前现有技术中存在很多地址匹配技术,而地址匹配准确度与地理信息数据的精确程度有很大的关系。但是,对于网络上,尤其是类似网购平台上的地理信息,往往会存在格式很不规范、错误、歧义等问题,使得地理信息较为晦涩难懂,难以支撑更加复杂的业务需求,限制了地理信息数据的使用范围。
技术实现思路
本专利技术的实施例提供一种处理地址信息的方法及装置,能够识别提取形式上比较松散的地名地址信息,并将其形式标准化,从而为基于地址信息的匹配过程提供技术基础。根据不同城市和地区的地址命名习惯的差异,分别采用半自动的方式提取全要素的地址结构,提取所有层次的要素,使得各种地址的变体出现后,都可以通过解析基本要素解析归类,而且处理不规则地址、老地址等非标准化的地址信息的时候(比如某个区域被合并后就不再使用了),也能够进行识别,按照基本要素的词典就可以元素标签,综合运用N-Gram模型和规则优化的正向最小匹配算法对地址进行处理,配合字典进行地址信息的切分以及地址要素的识别,建立了完整的地址标签层级体系,颗粒度达到最小元素,并定义了标签间的层次逻辑关系,同时,还处理了重叠和歧义问题。本实施例解决了现有技术中,地理信息存在的格式很不规范、错误、歧义等问题,能够识别提取形式上比较松散的地名地址信息,并将其形式标准化,为基于地址信息的匹配过程提供技术基础。从而进一步支撑更加复杂的业务需求,限制了地理信息数据的使用范围。附图说明为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。图1a、图1b为本专利技术实施例提供的系统架构示意图;图2为本专利技术实施例提供的一种方法流程示意图;图3为本专利技术实施例提供的具体实例的示意图;图4为本专利技术实施例提供的一种装置示意图图5为本专利技术实施例提供的一种具体实例中被识别出元素的示意图。具体实施方式为使本领域技术人员更好地理解本专利技术的技术方案,下面结合附图和具体实施方式对本专利技术作进一步详细描述。下文中将详细描述本专利技术的实施方式,所述实施方式的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的,仅用于解释本专利技术,而不能解释为对本专利技术的限制。本
技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本专利技术的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的任一单元和全部组合。本
技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语)具有与本专利技术所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样定义,不会用理想化或过于正式的含义来解。本专利技术实施例具体可以实现在一种如图1a所示的系统中,其中:分析服务器具体可以是单独作成的服务器设备,比如:机架式、刀片、塔式或者机柜式的服务器设备,也可以采用工作站、大型计算机等具备较强计算能力硬件设备;也可以是由多个服务器设备组成的服务器集群。数据库系统上运行地址信息库,用于存储并管理地址信息。数据库系统具体可以是单独作成的,用于数据的管理、存储的分析服务器,也可以是由多个分析服务器组成的服务器集群。在数据库系统的硬件设备上运行对应分析服务器的数据库,用于管理并存储分析服务器的数据。具体可以采用常用的网状数据库(NetworkDatabase)、关系数据库(RelationalDatabase)、树状数据库(HierarchicalDatabase)、面向对象数据库(Object-orientedDatabase)以及新一代大数据系统架构。分析服务器具体也可以集成在数据库系统中,比如:将服务器集群中的部分分析服务器划分为前端服务器,用于与用户终端交互数据,这种前端服务器即可以称为分析服务器;而将服务器集群中的另一部分服务器和大部分的存储设备(比如磁盘阵列、缓存机等)都可以作为后台数据库为前端服务器提供数据访问服务,且在后台数据库上维护所述问题库。可选的,如图1b所示的系统,还可以包括用户终端,具体可以实做成单独一台系统,或整合于各种不同的业务应用系统中,诸如智能手机、平板电脑(TabletPersonalComputer)、膝上型电脑(LaptopComputer)或者个人数字助理(personaldigitalassistant,简称PDA)等。用户终端上可以通过安装的应用程序,显示应用界面,在应用界面中具体显示了分析服务器发送的处理过的地址等信息,并显示返回给分析服务器的应答消息,从而形成用户终端与分析服务器之间的“会话”,并展示给用户终端的操作用户。本专利技术实施例提供一种处理地址信息的方法,具体可以通过分析服务器实现,如图2所示,包括:S1、从地址信息样本库中的提取地址元素标签,按照逻辑层次划分所提取的地址元素标签。其中,所述逻辑层次包括了各地址元素标签之间从属关系的标准形式。逻辑层次具体是指各地址元素标签之间从属关系,由于地址中的元素标签分为不同的层次,根据层次关系建立层次体系,从而保证识别的正确率。地址信息样本库的来源具体可以包括:未经过专业训练的普通用户在填写地址过程中夹杂很多不规范形式的地址信息,例如:一些不动产、租房公司的地址信息库,链家、365租房等,此类地址结构相对较标准;以及网购平台的管理的用户信息形成的地址信息库,此类地址杂质较多。地址元素标签具体是指:从地址信息样本库中提取出的元素标记,如“XX省”、“XX市”、“XX路”、“XX号”中的最后一个字符。由于地区的差异性,中文中的地址信息的元素也不太一样(如北方城市的“XX胡同”,相对南方城市的“XX弄”),因而,在处理时,首先将地址按照城市分类分别处理,例如:对于不同地理区域的城市,可以设定不同的地址元素标签的词库,比如:利用不同城市的区号标记不同的地址元素标签的词库,如南京的区号025对应025号词库,025号词库中存储了符合南京地区语言习惯的地址元素标签。以便于地址元素标签的具体词组符合该地理区域的从而避免相互干扰,保证提取的全面性和准确性。本文档来自技高网
...

【技术保护点】
1.一种处理地址信息的方法,其特征在于,包括:从地址信息样本库中的提取地址元素标签,按照逻辑层次划分所提取的地址元素标签,所述逻辑层次包括了各地址元素标签之间从属关系的标准形式;根据所述按照逻辑层次划分后的地址元素标签,识别待处理的地址信息中的地址元素;将识别得到的地址元素,按照所述逻辑层次组装。

【技术特征摘要】
1.一种处理地址信息的方法,其特征在于,包括:从地址信息样本库中的提取地址元素标签,按照逻辑层次划分所提取的地址元素标签,所述逻辑层次包括了各地址元素标签之间从属关系的标准形式;根据所述按照逻辑层次划分后的地址元素标签,识别待处理的地址信息中的地址元素;将识别得到的地址元素,按照所述逻辑层次组装。2.根据权利要求1所述的方法,其特征在于,还包括:提取作为样本的地址信息,并识别所述作为样本的地址信息中不符合规范形式的字符;将所述不符合规范形式的字符替换为规范形式的字符,之后利用所述作为样本的地址信息建立地址信息样本库。3.根据权利要求1所述的方法,其特征在于,还包括:根据当前设定的地址编码规则,选择地址编码模型,所述地址编码模型包括至少一个标准地址表达式;根据当前设定的地理位置,读取所述地址编码模型中的标准地址表达式,所述标准地址表达式包括:各个类型的地址元素标签按照所述逻辑层次的排列顺序。4.根据权利要求3所述的方法,其特征在于,所述按照逻辑层次划分所提取的地址元素标签,包括:从所提取的地址元素标签中,筛选出符合所述标准地址表达式的地址元素标签;按照所述标准地址表达式,将筛选得到的地址元素标签,分别划分为不同的层次,并建立各层次之间的从属关系。5.根据权利要求4所述的方法,其特征在于,所述将识别得到的地址元素,按照所述逻辑层次组装,包括:按照地址元素标签划分出的层次,通过自左向右的正向最小匹配的方式,递归提取所述识别得到的地址元素;按照所读取的标准地址表达式,组装经过递归提取...

【专利技术属性】
技术研发人员:沈春泽周彬
申请(专利权)人:苏宁云商集团股份有限公司
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1