基于大数据的地址分级标准方法技术

技术编号：27006319 阅读：14 留言：0更新日期：2021-01-08 17:09

本发明专利技术公开了一种基于大数据的地址分级标准方法，该方法包括以下步骤：建立地址分级标准；从非结构化数据中识别出地址；将识别出的地址按照地址分级定义，进行结构化拆分；建立地址库，其中，建立地址库包括两个方面，一是建立一到十级各个地址分级的地址库，二是建立八级和十级两级兴趣点类地标的地址索引。通过该方法，达到了以下效果：提供了更普适的地址分级标准；为地址标准化管理提供了基础依据；为自然语言文本中的不规范地址智能识别提供灵活可用的定义依据；为不同警务场景提供不同粒度的地址定义。

全部详细技术资料下载

【技术实现步骤摘要】
基于大数据的地址分级标准方法
本专利技术涉及人工智能
，具体来说，涉及一种基于大数据的地址分级标准方法。
技术介绍
地址用来描述家庭、公司、门店等建筑物的物理位置，同时也可以描述事情的发生地。在实际使用和书面填报过程中，会出现各种格式的地址，尤其是在描述事发地点时，更由于人们的口语化而呈现出更多的不规范性，这不止带来地址标准化的困难，也带来了从自然语言文本中识别出地址的困难。地址分级标准指对地址做出基本的规范定义，那么在书面填报地址时需要按照规范填写，反之从文本中识别出的地址必然也属于地址标准分级中的某几级，从而将不规范的地址描述进行规范和标准化。现有的地址不规范问题有：1.地址缺失，主要是由于新增地址(道路、建筑物、门牌号等)。2.地址过时，主要是由于行政区划变更造成的。譬如县改市造成的标准地址与现行申报地址不一致，但其实为同一地址，例如海安县改为海安市，标准地址中仍为海安县。3.地址写法不统一，例如“狼山镇街道”有时写成“狼山镇”。很多时候也是由于行政区划变更造成，譬如镇升级为街道。4.地址写法不标准，譬如，标准地址重复或由两段地址拼接。5.地址存在缩写、简写、约定俗成的省略，譬如如万科花园小区、万科花园指的是同一地址。6.地址存在错别字，例如“2栋23号”写成“2懂23号”。为了将不规范地址进行规范化，现有一些从不同角度出发制定的地址分级标准，比如广东省公安厅信息通信处颁发的14级标准地址格式，公安部颁发的警用地理信息标准地址元素组合...

【技术保护点】
1.基于大数据的地址分级标准方法，其特征在于，包括以下步骤：/nS1：建立地址分级标准；/nS2：从非结构化数据中识别出地址；/nS3：将识别出的地址按照地址分级定义，进行结构化拆分；/nS4：建立地址库，其中，建立地址库包括两个方面，一是建立一到十级各个地址分级的地址库，二是建立八级和十级两级兴趣点类地标的地址索引。/n

【技术特征摘要】
1.基于大数据的地址分级标准方法，其特征在于，包括以下步骤：
S1：建立地址分级标准；
S2：从非结构化数据中识别出地址；
S3：将识别出的地址按照地址分级定义，进行结构化拆分；
S4：建立地址库，其中，建立地址库包括两个方面，一是建立一到十级各个地址分级的地址库，二是建立八级和十级两级兴趣点类地标的地址索引。

2.根据权利要求1所述的基于大数据的地址...

【专利技术属性】
技术研发人员：王全修，秦郑阳，杨培文，王明超，何思琦，
申请(专利权)人：北京睿企信息科技有限公司，日照睿安信息科技有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人