地址库构建方法和装置制造方法及图纸

技术编号:34466936 阅读:50 留言:0更新日期:2022-08-10 08:40
本公开提供一种地址库构建方法和装置,其中,方法包括:获取原始地址数据;对所述原始地址数据进行结构化处理,得到结构化的地址数据集;对所述结构化的地址数据集进行噪音过滤,得到去噪后的结构化地址数据集;对所述去噪后的结构化地址数据集进行标准化处理,得到标准化的地址数据集。本公开的地址库构建方法不依赖人工的编辑和标注,也不依赖外部已存在的标准地址数据,而是通过原始地址数据本身的特征,辨识地址数据中噪音信息、过滤错误的要素关系、解决要素关系冲突。解决要素关系冲突。解决要素关系冲突。

【技术实现步骤摘要】
地址库构建方法和装置


[0001]本公开涉及计算机
,尤其涉及一种地址库构建方法和装置。

技术介绍

[0002]许多构建地址库的方法依赖大量的人工干预,包括人工采集、编辑、清洗和标注。也即是对地址库中的所需要的地址的收集是由人进行操作,不同地址之间的包含与被包含关系是由人工进行确定。不仅如此,对于收集到的地址中存在错误的地址的清除也是由人工操作,比如说河南省苏州市这样的错误匹配关系由人加以判断。而对于地址的标注既是将地址对应的地理位置进行匹配,使之建立对应,而现有的地址库在标注时采用的是人工在地图上进行匹配的操作。许多构建地址库的方法依赖一个已存在的标准地址库(或同性质的外部知识、或预设的行政区划表等形式的标准地址信息数据),通过将非标地址(即包含噪音信息的地址)与标准地址信息进行匹配,才能处理非标地址数据。有些方法并没有针对地址数据集的判断为噪音的要素、地址信息冲突、地址纠错等这类实际场景常见的但又重要的问题提供明确的解决方法。

技术实现思路

[0003]本公开提供一种地址库构建方法和装置,用以解决现有技术中依赖人工标准本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种地址库构建方法,其特征在于,包括:获取原始地址数据;对所述原始地址数据进行结构化处理,得到结构化的地址数据集;对所述结构化的地址数据集进行噪音过滤,得到去噪后的结构化地址数据集;对所述去噪后的结构化地址数据集进行标准化处理,得到标准化的地址数据集。2.根据权利要求1所述的地址库构建方法,其特征在于,所述对所述原始地址数据进行结构化处理,得到结构化的地址数据集,具体包括:通过命名实体识别模型对所述原始地址数据进行处理,得到对应的地址要素词组;其中,所述地址要素词组包括至少一组互相对应的要素类型和要素文本;从所述地址要素词组中确定其中的一个或多个要素文本作为中心要素;根据至少一组互相对应的要素类型和要素文本以及所述中心要素进行组合,生成所述结构化的地址数据集。3.根据权利要求2所述的地址库构建方法,其特征在于,所述对所述结构化的地址集进行噪音过滤,得到去噪后的结构化地址数据集,具体包括:对所有结构化地址集中的要素文本按照要素类型进行划分,得到多种类型的要素文本集合;对每个类型的所述要素文本集合进行聚合,得到聚合后的要素文本集合;对每个类型的所述聚合后的要素文本集合进行噪音过滤,得到去噪后的结构化地址数据集。4.根据权利要求1所述的地址库构建方法,其特征在于,所述对所述去噪后的结构化地址数据集进行标准化处理,得到标准化的地址数据集,具体包括:对所述去噪后的结构化的地址数据集进行要素三元组抽取,得到抽取后的要素三元组;将所述要素三元组与三元组模板相结合,得到符合模板关系的要素三元组;对所述符合模板关系的要素三元组进行真正三元组关系判断,判断所述要素三元组的真正三元组关系是否正确;若所述要素三元组的真正三元组关系不正确,则对所述要素三元组进行要素替换和纠正,得到标准化的地址数据。5.根据权利要求3所述的地址库构建方法,其特征在于,所述对每个类型的所述要素文本集合进行聚合,得到聚合后的要素文本集合,具体包括:采用语义为基础、空间范围约束为辅的要素聚集方式对所述要素文本进行聚合,得到聚合后的要素文本集合。6.根据权利要求3所述的地址库构建方法,其特征在于,所述对每个类型的所述聚合后的要素文本集合进行噪音过滤,得到去噪后的结构化地址数据集,具体包括:获取要素文本集合中的每种类型的要素文本的频次;将所述频次与预设的阈值相比较,判断所述频次与所述阈值之间的大小;若所述频次比所述阈值小,则判断所述要素文本为噪音;对判断为噪音的要素文本进行清除,得到去噪后的结构化地址数据集。7.根据权利要求4所述的地址库构建方法,其特征在于,所述对所述符合模板关系的要
素三元组进行真正三元组关系判断,判断所述要素三元组的真正三元组关系是否正确,具体包括:对所述符合模板关系的要素三元组进行要素...

【专利技术属性】
技术研发人员:陈国春张钧波郑宇
申请(专利权)人:京东城市北京数字科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1