【技术实现步骤摘要】
地址标准化方法、装置、设备及存储介质
[0001]本专利技术涉及数据处理
,尤其涉及一种地址标准化方法
、
装置
、
设备及存储介质
。
技术介绍
[0002]快递物流业务在开展的过程中往往涉及大量地址数据,而这些数据往往没有形成标准结构规范;由于用户提交的快递寄件地址格式参差不齐,具体的,地址信息云翳表达
、
格式不统一,且可能包含语法错误
、
口语化表达和省略信息等特点,若需要准确解析用户所提交的快递寄件地址的各个语义组成部分,则需要大量人工校对和处理,存在人工成本高
、
分单效率低和分拣效率低的问题
。
[0003]可见,现有技术还有待改进和提高
。
技术实现思路
[0004]为了克服现有技术的不足,本专利技术的目的在于提供一种地址标准化方法
、
装置
、
设备及存储介质,可实现快递寄件地址的标准化,提高采集和处理效率
。
[0005]本专 ...
【技术保护点】
【技术特征摘要】
1.
一种地址标准化方法,其特征在于,包括:获取行政区划数据
、
道路数据和门牌数据,构建地址字典库;获取历史寄件地址数据,根据历史寄件地址数据训练地址理解模型;获取实时反馈的快递寄件地址,并对快递寄件地址进行预处理,得到预处理数据;将预处理数据输入至地址理解模型,得到地址理解结果;根据地址字典库对地址理解结果进行校验,并根据预设的标准规则和地址字典库对地址理解结果进行补全处理,生成并输出补全地址
。2.
根据权利要求1所述的一种地址标准化方法,其特征在于,所述获取行政区划数据
、
道路数据和门派数据,构建地址字典库,具体包括:创建
crond
定时任务文件,所述
crond
定时任务文件包括执行时间,所述执行时间包括月
、
星期
、
天
、
小时
、
分钟;根据
crond
定时任务文件,基于
cron
服务获取行政区划数据
、
道路数据和门牌数据;根据行政区划数据构建行政区划字典,根据道路数据构建道路名称字典,并根据门牌数据构建门牌号范围字典;整合行政区划字典
、
道路名称字典和门牌号范围字典,得到地址字典库
。3.
根据权利要求1所述的一种地址标准化方法,其特征在于,所述获取历史寄件地址数据,具体包括:获取历史寄件地址数据,所述历史寄件地址数据包括多个历史寄件地址;对历史寄件地址数据进行数据增强处理,得到增强后数据,所述数据增强处理包括随机采样和随机变换;根据预设的拆分比例对增强后数据进行划分处理和特征提取处理,得到训练集
、
验证集和测试集
。4.
根据权利要求3所述的一种地址标准化方法,其特征在于,所述根据历史寄件地址数据训练地址理解模型,具体包括:构建初始模型,采用
BERT
预训练语言模型作为初始模型的底层网络结构,并增加一个全连接层,将
BERT
预训练语言模型的输出的
token
级别表示作为
CRF
模型的输入;将训练集输入至初始模型中以进行初始模型的训练,在初始模型的训练过程中调整初始模型的参数,得到预训练模型;将验证集输入至预训练模型中,根据预训练模型的性能表现调整预训练模型的超参数,得到待测试模型;将测试集输入至待测试模型中,进一步优化待测试模型,得到地址理解模型
。5.
根据权利要求1所述的一种地址标准化方法,其特征在于,所述获取实时...
【专利技术属性】
技术研发人员:毛立贤,李波涛,
申请(专利权)人:上海东普信息科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。