An embodiment of the invention discloses a method and device for dealing with address information, which involves the field of electronic information technology, and can identify and standardize the form and address information of a relatively loose place name, and thus provide a technical basis for the matching process based on address information. The invention includes: extracting address element labels from the address information sample library, dividing the extracted address element label according to the logical level, identifying the address elements in the address information to be processed according to the address element label divided at the logical level, and identifying the identified address elements according to the logic. Hierarchical assembly output. This is a loosely oriented method for address extraction and standardization.
【技术实现步骤摘要】
一种处理地址信息的方法及装置
本专利技术涉及电子信息
,尤其涉及一种处理地址信息的方法及装置。
技术介绍
未来的人机交互数据将越来越多涉及地理信息,互联网成为不断更新的地理信息数据仓库,聚集了大量形式规范的、非规范的地址信息。而涉及地理信息的产业,对地理信息数据的需求越来越高,以便为各类业务的分析、研究和决策提供支撑。互联网上采集的地理信息数据,数据量庞大,难以通过人工整理。目前现有技术中存在很多地址匹配技术,而地址匹配准确度与地理信息数据的精确程度有很大的关系。但是,对于网络上,尤其是类似网购平台上的地理信息,往往会存在格式很不规范、错误、歧义等问题,使得地理信息较为晦涩难懂,难以支撑更加复杂的业务需求,限制了地理信息数据的使用范围。
技术实现思路
本专利技术的实施例提供一种处理地址信息的方法及装置,能够识别提取形式上比较松散的地名地址信息,并将其形式标准化,从而为基于地址信息的匹配过程提供技术基础。根据不同城市和地区的地址命名习惯的差异,分别采用半自动的方式提取全要素的地址结构,提取所有层次的要素,使得各种地址的变体出现后,都可以通过解析基本要素解析归类,而且处理不规则地址、老地址等非标准化的地址信息的时候(比如某个区域被合并后就不再使用了),也能够进行识别,按照基本要素的词典就可以元素标签,综合运用N-Gram模型和规则优化的正向最小匹配算法对地址进行处理,配合字典进行地址信息的切分以及地址要素的识别,建立了完整的地址标签层级体系,颗粒度达到最小元素,并定义了标签间的层次逻辑关系,同时,还处理了重叠和歧义问题。本实施例解决了现有技术中,地理信息存在 ...
【技术保护点】
1.一种处理地址信息的方法,其特征在于,包括:从地址信息样本库中的提取地址元素标签,按照逻辑层次划分所提取的地址元素标签,所述逻辑层次包括了各地址元素标签之间从属关系的标准形式;根据所述按照逻辑层次划分后的地址元素标签,识别待处理的地址信息中的地址元素;将识别得到的地址元素,按照所述逻辑层次组装。
【技术特征摘要】
1.一种处理地址信息的方法,其特征在于,包括:从地址信息样本库中的提取地址元素标签,按照逻辑层次划分所提取的地址元素标签,所述逻辑层次包括了各地址元素标签之间从属关系的标准形式;根据所述按照逻辑层次划分后的地址元素标签,识别待处理的地址信息中的地址元素;将识别得到的地址元素,按照所述逻辑层次组装。2.根据权利要求1所述的方法,其特征在于,还包括:提取作为样本的地址信息,并识别所述作为样本的地址信息中不符合规范形式的字符;将所述不符合规范形式的字符替换为规范形式的字符,之后利用所述作为样本的地址信息建立地址信息样本库。3.根据权利要求1所述的方法,其特征在于,还包括:根据当前设定的地址编码规则,选择地址编码模型,所述地址编码模型包括至少一个标准地址表达式;根据当前设定的地理位置,读取所述地址编码模型中的标准地址表达式,所述标准地址表达式包括:各个类型的地址元素标签按照所述逻辑层次的排列顺序。4.根据权利要求3所述的方法,其特征在于,所述按照逻辑层次划分所提取的地址元素标签,包括:从所提取的地址元素标签中,筛选出符合所述标准地址表达式的地址元素标签;按照所述标准地址表达式,将筛选得到的地址元素标签,分别划分为不同的层次,并建立各层次之间的从属关系。5.根据权利要求4所述的方法,其特征在于,所述将识别得到的地址元素,按照所述逻辑层次组装,包括:按照地址元素标签划分出的层次,通过自左向右的正向最小匹配的方式,递归提取所述识别得到的地址元素;按照所读取的标准地址表达式,组装经过递归提取...
【专利技术属性】
技术研发人员:沈春泽,周彬,
申请(专利权)人:苏宁云商集团股份有限公司,
类型:发明
国别省市:江苏,32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。