地址处理方法、装置、电子设备及计算机程序产品制造方法及图纸

技术编号:39280104 阅读:19 留言:0更新日期:2023-11-07 10:54
本申请涉及数据处理领域,提供一种地址处理方法、装置、电子设备及计算机程序产品。所述地址处理方法包括:计算已收集地址的标记值,根据所述标记值,筛选各所述已收集地址中的地址样本;计算所述地址样本的结构得分,根据所述地址样本和所述结构得分训练得到地址结构化模型;将待处理地址输入到所述地址结构化模型中,得到地址处理结果。本申请通过地址样本及其结构得分训练得到的地址结构化模型对待处理地址进行处理,完成对待处理地址的处理,实现了地址数据的清理和融合,提高了地址数据的完整性和准确性。的完整性和准确性。的完整性和准确性。

【技术实现步骤摘要】
地址处理方法、装置、电子设备及计算机程序产品


[0001]本申请涉及数据处理领域,具体涉及一种地址处理方法、装置、电子设备及计算机程序产品。

技术介绍

[0002]单源地址数据很难全面描述地理真实实体的完整特征,然而,即使存在海量地址数据资源,多源地址数据在地址层级结构、各属性描述和地址层级完整度上,也存在一定差异性和质量问题。多源异构地址数据存在对同一实体表达方式不同的问题,目前在对多源地址数据进行融合时,不同来源的地址数据在数据格式、属性结构等方面存在差异,会产生不一致性、数据缺失及数据重复等导致数据质量不高的问题。因此,如何得到信息量更为丰富和完整的地址数据,更高效地对多源异构地址数据进行清理和融合,以提高地址数据的完整性和准确性,便成为了亟待解决的技术问题。

技术实现思路

[0003]本申请实施例提供一种地址处理方法、装置、电子设备及计算机程序产品,用以解决如何实现地址数据的清理和融合,提高地址数据的完整性和准确性的技术问题。
[0004]第一方面,本申请实施例提供一种地址处理方法,包括:r/>[0005]计本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种地址处理方法,其特征在于,包括:计算已收集地址的标记值,根据所述标记值,筛选各所述已收集地址中的地址样本;计算所述地址样本的结构得分,根据所述地址样本和所述结构得分训练得到地址结构化模型;将待处理地址输入到所述地址结构化模型中,得到地址处理结果。2.根据权利要求1所述的地址处理方法,其特征在于,所述计算已收集地址的标记值的步骤之前包括:根据预设标准地址词典对待收集地址进行补全,对补全后的待收集地址进行地址元素验证;在所述补全后的待收集地址验证通过的情况下,将所述补全后的待收集地址作为已收集地址存入数据库。3.根据权利要求1所述的地址处理方法,其特征在于,所述计算已收集地址的标记值的步骤包括:确定已收集地址中各字符的出现次数,根据所述出现次数计算各所述字符对应的差异性数值、字符重要度以及综合值;确定各所述字符对应的预测不确定值;根据所述差异性数值、所述字符重要度、所述综合值以及所述预测不确定值,计算所述已收集地址的标记值。4.根据权利要求1所述的地址处理方法,其特征在于,所述计算所述地址样本的结构得分,根据所述地址样本和所述结构得分训练得到地址结构化模型的步骤包括:根据所述地址样本拓展预设类别标签,得到目标地址层级结构;根据所述目标地址层级结构计算所述地址样本的结构得分;根据所述结构得分和预设损失函数调整模型参数,得到调整后的模型参数对应的地址结构化模型。5.根据权利要求4所述的地址处理方法,其特征在于,所述将待处理地址输入到所述地址结构化模型中,得到地址处理结果的步骤之后包括:确定所述地址处理结果对应的第一地址和第二地址;根据所述目标地址层级结构对所述第一地址和所述第二地址进行解析,分别得到第一字段和第二字段;确定所述第一字段的第一词频和第一逆文档频率,以及所述第二字段的第二词频和第二逆文档频率;根据所述第一词频、所述第一...

【专利技术属性】
技术研发人员:麦健陈雅娟陈辉张晓川邓逸斌
申请(专利权)人:中国移动通信集团有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1