基于大数据的地址分级标准方法技术

技术编号:27006319 阅读:14 留言:0更新日期:2021-01-08 17:09
本发明专利技术公开了一种基于大数据的地址分级标准方法,该方法包括以下步骤:建立地址分级标准;从非结构化数据中识别出地址;将识别出的地址按照地址分级定义,进行结构化拆分;建立地址库,其中,建立地址库包括两个方面,一是建立一到十级各个地址分级的地址库,二是建立八级和十级两级兴趣点类地标的地址索引。通过该方法,达到了以下效果:提供了更普适的地址分级标准;为地址标准化管理提供了基础依据;为自然语言文本中的不规范地址智能识别提供灵活可用的定义依据;为不同警务场景提供不同粒度的地址定义。

【技术实现步骤摘要】
基于大数据的地址分级标准方法
本专利技术涉及人工智能
,具体来说,涉及一种基于大数据的地址分级标准方法。
技术介绍
地址用来描述家庭、公司、门店等建筑物的物理位置,同时也可以描述事情的发生地。在实际使用和书面填报过程中,会出现各种格式的地址,尤其是在描述事发地点时,更由于人们的口语化而呈现出更多的不规范性,这不止带来地址标准化的困难,也带来了从自然语言文本中识别出地址的困难。地址分级标准指对地址做出基本的规范定义,那么在书面填报地址时需要按照规范填写,反之从文本中识别出的地址必然也属于地址标准分级中的某几级,从而将不规范的地址描述进行规范和标准化。现有的地址不规范问题有:1.地址缺失,主要是由于新增地址(道路、建筑物、门牌号等)。2.地址过时,主要是由于行政区划变更造成的。譬如县改市造成的标准地址与现行申报地址不一致,但其实为同一地址,例如海安县改为海安市,标准地址中仍为海安县。3.地址写法不统一,例如“狼山镇街道”有时写成“狼山镇”。很多时候也是由于行政区划变更造成,譬如镇升级为街道。4.地址写法不标准,譬如,标准地址重复或由两段地址拼接。5.地址存在缩写、简写、约定俗成的省略,譬如如万科花园小区、万科花园指的是同一地址。6.地址存在错别字,例如“2栋23号”写成“2懂23号”。为了将不规范地址进行规范化,现有一些从不同角度出发制定的地址分级标准,比如广东省公安厅信息通信处颁发的14级标准地址格式,公安部颁发的警用地理信息标准地址元素组合及编码规则等。综合分析现有地址分级标准可以发现,这些方法只侧重于从录入地址源头控制地址的标准输入,无论是14级地址标准还是公安部地址编码规则,都致力于对住宅区、兴趣点等拥有门牌的地址做规范化地址制定和使用,没有考虑到前期我们介绍的地址另一种功能,即地址在描述事发地点时,往往是非常口语且随意的,当有从非结构化文本中识别地址的需求时,无法套用现有标准,比如文本中会普遍出现的“金箔路一家广告店内”、“安德门大街和兴业路交界的兴致科技园”等地址无法对应到现有地址分级上。
技术实现思路
针对相关技术中的上述技术问题,本专利技术提出一种基于大数据的地址分级标准方法,能够克服现有技术的上述不足。为实现上述技术目的,本专利技术的技术方案是这样实现的:一种基于大数据的地址分级标准方法,该方法包括以下步骤:S1:建立地址分级标准;S2:从非结构化数据中识别出地址;S3:将识别出的地址按照地址分级定义,进行结构化拆分;S4:建立地址库,其中,建立地址库包括两个方面,一是建立一到十级各个地址分级的地址库,二是建立八级和十级两级兴趣点类地标的地址索引。进一步的,所述步骤S2进一步的包括以下步骤:在一段自然语言文字中,按照地址分级标准和文本的语义智能识别出地址文本和非地址文本。进一步的,所述建立地址库是基于海量地址数据的分级结果。进一步的,建立地址索引是基于海量数据。本专利技术的有益效果:通过该方法,达到了以下效果:1.提供了更普适的地址分级标准;2.为地址标准化管理提供了基础依据;3.为自然语言文本中的不规范地址智能识别提供灵活可用的定义依据;4.为不同警务场景提供不同粒度的地址定义。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1是根据本专利技术实施例所述的基于大数据的地址分级标准方法的流程框图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员所获得的所有其他实施例,都属于本专利技术保护的范围。如图1所示,根据本专利技术实施例所述的基于大数据的地址分级标准方法,包括以下步骤:S1:建立地址分级标准;S2:从非结构化数据中识别出地址;S3:将识别出的地址按照地址分级定义,进行结构化拆分;S4:建立地址库,其中,建立地址库包括两个方面,一是建立一到十级各个地址分级的地址库,二是建立八级和十级两级兴趣点类地标的地址索引。在本专利技术的一个具体实施例中,所述步骤S2进一步的包括以下步骤:在一段自然语言文字中,按照地址分级标准和文本的语义智能识别出地址文本和非地址文本。在本专利技术的一个具体实施例中,所述建立地址库是基于海量地址数据的分级结果。在本专利技术的一个具体实施例中,建立地址索引是基于海量数据。为了方便理解本专利技术的上述技术方案,以下对本专利技术的上述技术方案进行详细说明。制定合理可用的地址标准不止在警务地址信息的标准化管理中有重要意义,也对从复杂的非结构文本中精确识别出地址意义重大。地址标准是进一步进行地址标准化、地址智能识别的基石。正向制定一套地址标准用来约束地名规范、地址填报等工作是现有地址标准普遍侧重关注的问题,然而如何使这些标准普适于自然语言文本中的地址描述,是本专利技术兼容考虑的问题。根据现有的地址规范,我们可以很容易将“北京市海淀区颐和园路5号北京大学”按照14级或者9级的标准分级进行对号入座,做出“北京市”(市级)“海淀区”(区县级)“颐和园路5号”(路街巷级)“北京大学”(标志物级)等类似的划分。但是,当面对自然语言文本中常出现的“金箔路一家广告店内”,明显与“金箔路阿迪专卖店”表达的信息明确度不一样,然而在现行标准中对这些警务场景中使用度不同的地址描述是一视同仁的。并且自然语言文本中地址的描述词常常比较随意,“**家中”“**门口”等也常常是很重要的事发地点,却很难包含到现有的地址分级标准中。本专利不仅调研了现有地址标准的普适度,更在长期的警务场景业务处理中积攒了大量的自然语言文本地址描述,在综合分析了大量像“北京市海淀区颐和园路5号北京大学”这样的较为规范的地址和“金箔路一家广告店内”这样的自然语言文本地址的信息和规律之后,从业务角度出发,制定了一套适用于地址标准化管理以及地址智能识别的地址分级标准。本专利旨在兼顾正向地址规范制定和反向普适于已广泛存在于自然语言文本中的地址描述,经过大数据分析和调研、经过多种警务场景分析和落地,制定能同时服务于地址标准化管理和地址智能识别的地址分级标准。地址分级概览:地址分级细节:①省省、直辖市、自治区、特别行政区,指行政区划中直属中央政府管辖行政区,包括23个省、5个自治区、4个直辖市、2个特别行政区,合计34个省级行政区。②市省会城市、地级城市、自治州、盟等,指行政区划中直属一级行政区管辖行政区,包括293个地级市、7个地区、30个自治州、3个盟,合计3本文档来自技高网
...

【技术保护点】
1.基于大数据的地址分级标准方法,其特征在于,包括以下步骤:/nS1:建立地址分级标准;/nS2:从非结构化数据中识别出地址;/nS3:将识别出的地址按照地址分级定义,进行结构化拆分;/nS4:建立地址库,其中,建立地址库包括两个方面,一是建立一到十级各个地址分级的地址库,二是建立八级和十级两级兴趣点类地标的地址索引。/n

【技术特征摘要】
1.基于大数据的地址分级标准方法,其特征在于,包括以下步骤:
S1:建立地址分级标准;
S2:从非结构化数据中识别出地址;
S3:将识别出的地址按照地址分级定义,进行结构化拆分;
S4:建立地址库,其中,建立地址库包括两个方面,一是建立一到十级各个地址分级的地址库,二是建立八级和十级两级兴趣点类地标的地址索引。


2.根据权利要求1所述的基于大数据的地址...

【专利技术属性】
技术研发人员:王全修秦郑阳杨培文王明超何思琦
申请(专利权)人:北京睿企信息科技有限公司日照睿安信息科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1