基于置信度计算的地名地址清洗匹配方法及系统技术方案

技术编号:46497737 阅读:6 留言:0更新日期:2025-09-26 19:14
本发明专利技术公开了一种基于置信度计算的地名地址清洗匹配方法及系统,该系统具体包括:待清洗数据输入接口、待清洗数据预处理模块、层级化标准地址库、分词字典库、高频词管理模块、含二次匹配的清洗引擎、置信度计算模块。本发明专利技术构建包含二次匹配、标准地址库热更新、高频词介入的地名地址智能清洗匹配系统,克服了传统层级模型在地址清洗匹配中的静态性缺陷,实现了精度提升、效率突破以及资源优化。

【技术实现步骤摘要】

本专利技术属于数据处理,更具体地,涉及一种基于置信度计算的地名地址清洗匹配方法及系统


技术介绍

1、地名地址是描述地理实体空间位置与属性信息的结构化或非结构化文本,通常包含行政区名称(省/市/区/县)、道路名称、门牌号码、院落单位、楼幢号码及地理坐标等关键要素。其核心功能是将自然语言描述的空间位置转化为标准的、可解析的地址信息,为地理空间信息服务提供基础支撑。

2、随着我国数字化、智能化进程加速,地名地址数据已成为智慧城市管理、应急救灾指挥、物流路径优化、政务服务“一网通办”等场景的重要基础设施。例如,在智慧城市建设中,地名地址的一致性和现势性是不同系统、不同部门间信息共享与交互的关键;在政府应急管理中,地址信息的正确性直接影响应急响应效率与物资调配合理性;在物流配送领域,地址解析准确率直接决定末端配送时效与物流成本计算。

3、然而在实际业务中地名地址数据的应用面临诸多挑战。首先,地名地址数据的采集渠道涵盖政务部门的结构化数据库(如公安标准地址库)、企业自建地址数据库(可能存在兴趣点、别名等非标准地址)、互联网众源信息(含口语化描本文档来自技高网...

【技术保护点】

1.基于置信度计算的地名地址清洗匹配方法,其特征在于:包括如下步骤:

2.根据权利要求1所述的基于置信度计算的地名地址清洗匹配方法,其特征在于:步骤S2具体包括:首先基于正则表达式将地址文本转换为符合预设层级要求、易于分词的字符串,再利用文本去重算法删除冗余字符信息,并利用规则化描述映射表实现语义规范化。

3.根据权利要求1所述的基于置信度计算的地名地址清洗匹配方法,其特征在于:步骤S3具体包括:通过七层级模型表达地址要素间的逻辑关系,满足城市与农村地区地址的差异化表达,采用树状层级结构组织地址词条,按照常规周期更新+突发事件触发的更新策略,支持在不停止清洗服务的...

【技术特征摘要】

1.基于置信度计算的地名地址清洗匹配方法,其特征在于:包括如下步骤:

2.根据权利要求1所述的基于置信度计算的地名地址清洗匹配方法,其特征在于:步骤s2具体包括:首先基于正则表达式将地址文本转换为符合预设层级要求、易于分词的字符串,再利用文本去重算法删除冗余字符信息,并利用规则化描述映射表实现语义规范化。

3.根据权利要求1所述的基于置信度计算的地名地址清洗匹配方法,其特征在于:步骤s3具体包括:通过七层级模型表达地址要素间的逻辑关系,满足城市与农村地区地址的差异化表达,采用树状层级结构组织地址词条,按照常规周期更新+突发事件触发的更新策略,支持在不停止清洗服务的前提下对层级化标准地址库进行热更新,同时触发分词字典库热更新。

4.根据权利要求1所述的基于置信度计算的地名地址清洗匹配方法,其特征在于:步骤s5高频词管理具体包括高频词数据库和高频词管理工具,所述高频词数据库根据用户近期清洗匹配结果中高频匹配的标准地址自动汇总生成,并随层级化标准地址库定期同步更新,包括高频词文本、相应地址层级、高频词系数、时间戳、是否激活信息。

5.根据权利要求1所述的基于置信度计算的地名地址清洗匹配方法,其特征在于:步骤s9置信度计算具体包括:根据时空差异计算匹配置信度,计算方法为:置信度=层级系数×历史地址系数×高频词系数。

6.基于...

【专利技术属性】
技术研发人员:袁春东赵嘉旸齐志飞龚天宇
申请(专利权)人:南通市测绘院有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1