地址标准化方法技术

技术编号:39567864 阅读:31 留言:0更新日期:2023-12-03 19:18
本发明专利技术涉及数据处理技术领域,尤其涉及地址标准化方法

【技术实现步骤摘要】
地址标准化方法、装置、设备及存储介质


[0001]本专利技术涉及数据处理
,尤其涉及一种地址标准化方法

装置

设备及存储介质


技术介绍

[0002]快递物流业务在开展的过程中往往涉及大量地址数据,而这些数据往往没有形成标准结构规范;由于用户提交的快递寄件地址格式参差不齐,具体的,地址信息云翳表达

格式不统一,且可能包含语法错误

口语化表达和省略信息等特点,若需要准确解析用户所提交的快递寄件地址的各个语义组成部分,则需要大量人工校对和处理,存在人工成本高

分单效率低和分拣效率低的问题

[0003]可见,现有技术还有待改进和提高


技术实现思路

[0004]为了克服现有技术的不足,本专利技术的目的在于提供一种地址标准化方法

装置

设备及存储介质,可实现快递寄件地址的标准化,提高采集和处理效率

[0005]本专利技术第一方面提供了本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.
一种地址标准化方法,其特征在于,包括:获取行政区划数据

道路数据和门牌数据,构建地址字典库;获取历史寄件地址数据,根据历史寄件地址数据训练地址理解模型;获取实时反馈的快递寄件地址,并对快递寄件地址进行预处理,得到预处理数据;将预处理数据输入至地址理解模型,得到地址理解结果;根据地址字典库对地址理解结果进行校验,并根据预设的标准规则和地址字典库对地址理解结果进行补全处理,生成并输出补全地址
。2.
根据权利要求1所述的一种地址标准化方法,其特征在于,所述获取行政区划数据

道路数据和门派数据,构建地址字典库,具体包括:创建
crond
定时任务文件,所述
crond
定时任务文件包括执行时间,所述执行时间包括月

星期



小时

分钟;根据
crond
定时任务文件,基于
cron
服务获取行政区划数据

道路数据和门牌数据;根据行政区划数据构建行政区划字典,根据道路数据构建道路名称字典,并根据门牌数据构建门牌号范围字典;整合行政区划字典

道路名称字典和门牌号范围字典,得到地址字典库
。3.
根据权利要求1所述的一种地址标准化方法,其特征在于,所述获取历史寄件地址数据,具体包括:获取历史寄件地址数据,所述历史寄件地址数据包括多个历史寄件地址;对历史寄件地址数据进行数据增强处理,得到增强后数据,所述数据增强处理包括随机采样和随机变换;根据预设的拆分比例对增强后数据进行划分处理和特征提取处理,得到训练集

验证集和测试集
。4.
根据权利要求3所述的一种地址标准化方法,其特征在于,所述根据历史寄件地址数据训练地址理解模型,具体包括:构建初始模型,采用
BERT
预训练语言模型作为初始模型的底层网络结构,并增加一个全连接层,将
BERT
预训练语言模型的输出的
token
级别表示作为
CRF
模型的输入;将训练集输入至初始模型中以进行初始模型的训练,在初始模型的训练过程中调整初始模型的参数,得到预训练模型;将验证集输入至预训练模型中,根据预训练模型的性能表现调整预训练模型的超参数,得到待测试模型;将测试集输入至待测试模型中,进一步优化待测试模型,得到地址理解模型
。5.
根据权利要求1所述的一种地址标准化方法,其特征在于,所述获取实时...

【专利技术属性】
技术研发人员:毛立贤李波涛
申请(专利权)人:上海东普信息科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1