【技术实现步骤摘要】
一种标准地址库采集建库方法及系统
[0001]本专利技术涉及标准地址库采集建库
,具体为一种标准地址库采集建库方法及系统
。
技术介绍
[0002]标准地址库采集建库是一个重要的数据管理过程,用于收集
、
处理
、
验证和存储地址信息,以提供准确
、
完整
、
可信的地址数据
。
在现代社会中,地址信息广泛应用于物流
、
导航
、
公共服务等领域,因此建立高质量的标准地址库至关重要
。
[0003]现有技术中的数据质量评估方法可能无法充分准确地衡量地址数据的可信度和完整性
。
在某些情况下,可能会出现低质量的地址数据误判为高质量,或高质量的数据误判为低质量,从而影响最终的地址库准确性
。
[0004]现有技术中的优先级评估和验证方案选择可能相对简单,未能充分考虑不同地址数据的特点和不同验证方法的适用性
。
这可能导致一些地址数据得不到充分验证,或者低优先级的数据占用了过多验证资源
。
技术实现思路
[0005]针对现有技术的不足,本专利技术提供了一种标准地址库采集建库方法及系统,该专利技术引入数据完整系数
Wz
和数据可信系数
Kx
,结合数据源缺失因子
R
的计算,更准确地衡量地址数据的可信度和完整性
。
而本专利技术通过根据验证需求系数r/>Yz
与标准阈值
Q
之间的差值,智能地确定地址数据的验证优先级,并匹配相应的验证方案
。
优化验证流程,确保高优先级的数据得到充分验证,低优先级的数据得到适度验证,从而提高验证效率和成本效益
。
且在数据质量评估
、
验证方案选择
、
数据存储和管理等方面有益效果明显,可以解决现有技术中存在的一些不足之处,提高标准地址库的质量和准确性,满足现代社会对地址信息的广泛需求
。
[0006]为实现以上目的,本专利技术通过以下技术方案予以实现:一种标准地址库采集建库方法,包括以下步骤,
[0007]多渠道采集原始地址数据,多渠道数据源包括政府机构
、
地图数据提供商渠道
、
企业数据库渠道和公众提交渠道,获得若干个原始地址数据;
[0008]将若干个原始地址数据进行清洗
、
去重
、
标准化和整合处理后,并将处理后的若干个原始地址数据统一成固定格式;
[0009]采用地址解析和地理编码技术,对收集到的若干个原始地址数据进行解析后,转换为结构化数据,并将地址映射到地理坐标,获得地理编码,并存储为数据集
SJ
;
[0010]对数据集
SJ
进行追溯,获得渠道来源标识,评估数据集
SJ
内单一原始地址数据的可信度,计算获取数据完整系数
Wz
和数据可信系数
Kx
;并将数据完整系数
Wz
和数据可信系数
Kx
进行拟合,引入数据源缺失因子
R
,计算获得验证需求系数
Yz
,所述验证需求系数
Yz
通过以下公式计算获得:
[0011][0012]式中,
m
表示为地址数据长度,
a
和
β
分别为数据完整系数
Wz
和数据可信系数
Kx
的权重系数,且
a+
β
=
1.0
;
[0013]将验证需求系数
Yz
与标准阈值
Q
对比,若验证需求系数
Yz
高于标准阈值
Q
,则表示单一原始地址数据准确度达到标准,若验证需求系数
Yz
低于标准阈值
Q
时,则表示需要对单一原始地址数据进行验证;在验证需求系数
Yz
低于标准阈值
Q
时,则计算验证需求系数
Yz
该与标准阈值
Q
之间的差值,并依据差值,确认优先级评估结果,并根据优先级的类别匹配相对应的验证方案;
[0014]将高于标准阈值
Q
的验证需求系数
Yz
的数据集
SJ
进行存储在数据库系统,并建立响应的数据结构和索引,便于支持快速的查询和数据管理;
[0015]设置固定时间轴时间,对数据库系统进行更新和维护
。
[0016]优选的,对若干个原始地址数据进行去重操作,删除重复的地址记录,确保每个地址只出现一次;对于存在缺失信息的地址记录,进行适当的填充或标记,填充过程中,省市和街道要在大数据中得到验证的数据后,设置进行填充,以确保数据完整性;
[0017]识别和处理若干个原始地址数据中存在的异常值,包括错误的拼写
、
不合法的地址信息;
[0018]将不同格式的地址信息标准化为同一格式,格式统一地址的省
/
州
、
城市
、
街道
、
门牌号信息的排列顺序和间隔;对于地址字段,包括省
/
州
、
城市
、
街道时,确保使用统一的名称和缩写;
[0019]将原始地址数据进行解析,拆分为国家
、
省
/
州
、
城市
、
街道
、
门牌号和邮政编码部分,对于存在相似或相同地址信息的记录,进行合并;
[0020]将处理后的原始地址数据按照固定格式进行格式化,确保所有地址数据都遵循统一的数据结构
。
[0021]优选的,将处理后的原始地址数据导出为统一的数据文件格式,包括
CSV
和
JSON
格式,将数据存储在数据集
SJ
中;使用地理编码技术将地址映射到地理坐标;包括经度和维度,地理编码将地址信息转换为地球上的具体位置坐标,形成地址数据和相对应的地理坐标,存储在数据集
SJ
中
。
[0022]优选的,所述数据源缺失因子
R
通过以下步骤进行获取:
[0023]设置测试子集包含
N
挑地址记录,每条记录都包含多个字段,有些字段是必填项,有些字段是可选项;设置将缺失的字段定义为那些未提供有效值或为空值的字段;
[0024]建立测试模型,对将所有记录的缺失字段数相加,得到数据源中缺失的字段总数,记为
U
;
[0025]所述数据源缺失因子
R
通过测试模型计算缺失字段总本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.
一种标准地址库采集建库方法,其特征在于:包括以下步骤,多渠道采集原始地址数据,多渠道数据源包括政府机构
、
地图数据提供商渠道
、
企业数据库渠道和公众提交渠道,获得若干个原始地址数据;将若干个原始地址数据进行清洗
、
去重
、
标准化和整合处理后,并将处理后的若干个原始地址数据统一成固定格式;采用地址解析和地理编码技术,对收集到的若干个原始地址数据进行解析后,转换为结构化数据,并将地址映射到地理坐标,获得地理编码,并存储为数据集
SJ
;对数据集
SJ
进行追溯,获得渠道来源标识,评估数据集
SJ
内单一原始地址数据的可信度,计算获取数据完整系数
Wz
和数据可信系数
Kx
;并将数据完整系数
Wz
和数据可信系数
Kx
进行拟合,引入数据源缺失因子
R
,计算获得验证需求系数
Yz
,所述验证需求系数
Yz
通过以下公式计算获得:式中,
m
表示为地址数据长度,
a
和
β
分别为数据完整系数
Wz
和数据可信系数
Kx
的权重系数,且
a+
β
=
1.0
;将验证需求系数
Yz
与标准阈值
Q
对比,若验证需求系数
Yz
高于标准阈值
Q
,则表示单一原始地址数据准确度达到标准,若验证需求系数
Yz
低于标准阈值
Q
时,则表示需要对单一原始地址数据进行验证;在验证需求系数
Yz
低于标准阈值
Q
时,则计算验证需求系数
Yz
该与标准阈值
Q
之间的差值,并依据差值,确认优先级评估结果,并根据优先级的类别匹配相对应的验证方案;将高于标准阈值
Q
的验证需求系数
Yz
的数据集
SJ
进行存储在数据库系统,并建立响应的数据结构和索引,便于支持快速的查询和数据管理;设置固定时间轴时间,对数据库系统进行更新和维护
。2.
根据权利要求1所述的一种标准地址库采集建库方法,其特征在于:对若干个原始地址数据进行去重操作,删除重复的地址记录,确保每个地址只出现一次;对于存在缺失信息的地址记录,进行适当的填充或标记,填充过程中,省市和街道要在大数据中得到验证的数据后,设置进行填充,以确保数据完整性;识别和处理若干个原始地址数据中存在的异常值,包括错误的拼写
、
不合法的地址信息;将不同格式的地址信息标准化为同一格式,格式统一地址的省
/
州
、
城市
、
街道
、
门牌号信息的排列顺序和间隔;对于地址字段,包括省
/
州
、
城市
、
街道时,确保使用统一的名称和缩写;将原始地址数据进行解析,拆分为国家
、
省
/
州
、
城市
、
街道
、
门牌号和邮政编码部分,对于存在相似或相同地址信息的记录,进行合并;将处理后的原始地址数据按照固定格式进行格式化,确保所有地址数据都遵循统一的数据结构
。3.
根据权利要求1所述的一种标准地址库采集建库方法,其特征在于:将处理后的原始地址数据导出为统一的数据文件格式,包括
CSV
和
JSON
格式,将数据存储在数据集
SJ
中;使用地理编码技术将地址映射到地理坐标;包括经度和维度,地理编码将地址信息转换为地
球上的具体位置坐标,形成地址数据和相对应的地理坐标,存储在数据集
SJ
中
。4.
根据权利要求1所述的一种标准地址库采集建库方法,其特征在于:所述数据源缺失因子
R
通过以下步骤进行获取:设置测试子集包含
N
挑地址记录,每条记录都包含多个字段,有些字段是必填项,有些字段是可选项;设置将缺失的字段定义为那些未提供有效值或为空值的字段;建立测试模型,对将所有记录的缺失字段数相加,得到数据源中缺失的字段总数,记为
U
;所述数据源缺失因子
R
通过测试模型计算缺失字段总数
U
除以数据集中所有字段的总数之和乘以
100
来计算,公式如下:式中,
Um
表示为测试子集中所有字段的总数,包括必填字段和可选字段;公式的意义为,得到的数据源缺失因子
R
表示数据源中缺失字段的百分比;数据源缺失因子
R
值越大,说明数据源中的缺失数据越严重
。5.
根据权利要求1所述的一种标准地址库采集建库方法,其特征在于:所述数据完整系数
Wz
通过以下公式进行计算:通过以下公式进行计算:式中,
wzd
表示单一原始地址数据的类目完整度;
g
表示为地址所属国家或地区,采用名称或代码表示;
s
表示为地址所属省份或州,采用名称或代码表示;
c
表示地址所属城市或城镇,采用城市名称或代码表示;
j
表示地址所在的具体街道或路名;
m
表示为地址的门牌号码,用于唯一标识一个地址在街道上的位置;...
【专利技术属性】
技术研发人员:胡胜军,
申请(专利权)人:深圳市晓象科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。