一种基于大数据的地址匹配方法及其系统技术方案

技术编号:27935805 阅读:43 留言:0更新日期:2021-04-02 14:15
本发明专利技术涉及一种基于大数据的地址匹配方法及其系统,包括构建由地址定位器和街道网络组成的大数据库;输入非结构化的地址;归一化和标准化非结构化的地址;基于大数据的匹配算法进行地址匹配;基于地址参考进行定位;输出地址坐标以及地址对象。本发明专利技术考虑规则街道段与不规则街道段之间的差异,采用与街道段的距离和角度以及与街道段末端的偏移量等其他参数,提高计算位置的精度;与传统的基于规则的地址解析技术相比,神经网络具有明显的优势,依赖于模式而不是数据,在运行时独立于数据,具有容错性,用于基准测试的数据集具有较高的精度,针对大数据场景具有高吞吐量。

【技术实现步骤摘要】
一种基于大数据的地址匹配方法及其系统
本申请涉及大数据领域,尤其涉及一种基于大数据的地址匹配方法及其系统。
技术介绍
地址匹配是将文字性的描述地址与其空间的地址位置坐标建立起对应关系的过程。地址匹配服务按照特定的步骤为地址查找匹配对象:首先要将地址标准化;然后服务器搜索地址匹配参考数据,查找潜在的位置;根据与地址的接近程度为每个候选位置指定分值,最后用分值最高的来匹配这个地址。在输入地址时中,不仅支持邮政地址,还支持不同类型的描述性数据。对于不同类型的描述性输入数据,通常采用数据库元素间简单运算进行匹配。对于数据体量不大的情况,通常可快速匹配。而随着互联网和大数据的发展,对地址匹配的用时和精确度,提出了更高的要求,现有的地址匹配方法已不能满足上述需求。另外,在将地址标准化时通常基于预定规则,然而在可能需要处理多个地址或地址输入存在错误和语义歧义时,导致无法准确识别。
技术实现思路
为解决现有技术中的上述问题,本专利技术提供一种基于大数据的地址匹配方法及其系统。本专利技术的一种基于大数据的地址匹配方法,包括以下步骤:<本文档来自技高网...

【技术保护点】
1.本专利技术的一种基于大数据的地址匹配方法,其特征在于,包括以下步骤:/nS1,构建由地址定位器和街道网络组成的大数据库;/nS2,输入非结构化的地址;/nS3,归一化和标准化非结构化的地址;/nS4,基于大数据的匹配算法进行地址匹配;/nS5,基于地址参考进行定位;/nS6,输出地址坐标以及地址对象;/n所述步骤S4中,所述基于大数据的匹配算法,包括以下步骤:/nS41,核实地址类型;/nS42,如果地址街道群,则返回街道群重心位置;/nS43,如果地址是街道,在街道段中搜索与地址的编码匹配的街道段;/nS44,验证该街道段的地址编码是否在最小值和最大值之间范围内;/nS45,如果在最小值...

【技术特征摘要】
1.本发明的一种基于大数据的地址匹配方法,其特征在于,包括以下步骤:
S1,构建由地址定位器和街道网络组成的大数据库;
S2,输入非结构化的地址;
S3,归一化和标准化非结构化的地址;
S4,基于大数据的匹配算法进行地址匹配;
S5,基于地址参考进行定位;
S6,输出地址坐标以及地址对象;
所述步骤S4中,所述基于大数据的匹配算法,包括以下步骤:
S41,核实地址类型;
S42,如果地址街道群,则返回街道群重心位置;
S43,如果地址是街道,在街道段中搜索与地址的编码匹配的街道段;
S44,验证该街道段的地址编码是否在最小值和最大值之间范围内;
S45,如果在最小值和最大值之间范围内,则得到一个街道段;
S46,如果存在多个街道段,则根据权重选择一个街道段;
S47,选择一个街道段后,判断街道段类型,
S48,若街道段为不规则,返回街道段的重心;
S49,若街道段为规则,根据地址编号的奇偶校验进行插值;
所述步骤S46中,所述根据权重选择一个街道段,包括以下步骤:
S461,选择与街道相关的地址定位器;
S462,产生街道段并计算数字范围;
S463,计算每个地址定位器到相应街道段的相对位置;
S464,对每个地址段计算地址定位器的百分比;
S465,计算在一侧具有所有奇数而在另一侧具有偶数的街道段的百分比;
S466,计算属于遵从奇偶校验条件的街道段的无地址定位器的百分比;
S467,计算仅属于一个街道段间隔的地址定位器百分比;
所述步骤S464,对每个地址段计算地址定位器的百分比,包括:
pOL:地址定位器有奇数且在左边的百分比;
pOR:地址定位器有奇数且在右边的百分比;
pEL:地址定位器有偶数且在左边的百分比;
pER:地址定位器有偶数且在右边的百分比;
对于街道段S,奇数地址在左边,偶数地址在右边的概率是:
P(OL&ER)=pOL×pER(1)
P(OR&EL)=pOR×pEL(2)
总之,遵从奇偶校验条件的街道部分具有:
P(OL&ER)=1或P(OR&EL)=1(3)
在这些地址定位器中,遵从数字范围前置条件的是属于一个且仅一个区间的地址定位器。


2.如权利要求1所述的一种基于大数据的地址匹配方法,其特征在于,步骤S3中,归一化和标准化非结构化的地址包括:规范化阶段、预机器学习阶段、机器学习阶段和后机器学习阶段;
其中,规范化阶段用于处理地址中的冗余表示,包括:
(1)变化处理:将地址标记中的较大变化映射到一个公共表示以减少问题特征空间,并通过减少冗余来加快处理速度;
(2)噪声去除:通过删除信息内容较少的部分来减少数据中的噪声;
(3)自动标签更正:在训练阶段,规范化通过应用部分规则来纠正标记数据中的错误;
其中,预机器学习阶段用于使地址结构与训练中使用的结构相似,包括:
(1)预标记:在运行时,在一个地址中可能存在某些字段,而机器学习模型没有对其进行训练;预机器学习检测这些字段并使用正则表达式处理这些字段,并将信息传递到机器学习阶段;
(2)顺序修正:地址中的字段位于不同的位置;预机器学习检测到这种偏差,并使用规则使地址结构类似于机器学习模型所训练的结构;
其中,机器学习阶段用于根据预机器学习的处理结果,将地址分类到相应的标识中;每个标识被传递到规范化、预机器学习、特征提取、特征编码、分类,最后传递至后机器学习;每个标识的预测用于下一标识的预测;机器学习阶段使用神经网络将地址标识分类到它所属的地址组件中;对于每个地址,获得每个标识的预测,并组合类似的预测...

【专利技术属性】
技术研发人员:黄瑜丹
申请(专利权)人:吉林农业科技学院
类型:发明
国别省市:吉林;22

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1