一种地址数据的有效性判断方法及其装置制造方法及图纸

技术编号:24498743 阅读:54 留言:0更新日期:2020-06-13 04:07
本申请公开了一种地址数据的有效性判断方法及其装置,所述方法包括:通过对地址数据执行分词处理,获取与地址数据对应的多个分词;将所述多个分词输入到地址语言模型组件,获取所述多个分词顺序出现的概率,其中,所述地址语言模型组件是利用构成有效地址数据的分词训练得到的;生成与所述概率对应的针对地址数据的有效值。采用本申请,可自动判断地址数据的有效性。

A method and device for judging the validity of address data

【技术实现步骤摘要】
一种地址数据的有效性判断方法及其装置
本申请涉及计算机
,尤其涉及一种地址数据的有效性判断方法及其装置。
技术介绍
随着互联网的兴起,各种在线应用会产生大量的地址数据。但由于地址采集或输入的不规范等问题,这些地址数据中存在很多错误、虚假、不存在的无效地址,这类地址给这些应用带来了诸多麻烦,例如,在外卖类应用中,如果外卖地址是无效地址,则会使外卖员无法及时联系到顾客,在官方系统中,如果用户地址为无效地址,则会使政府人员无法上门采集信息。基于此,需要对产生的地址数据判断有效性。在现有技术中,通常采用人工审核的方式判断地址数据的有效性,这种方法费时费力,不宜推广。因此,现有技术需要一种对地址数据自动判断有效性的技术方案。
技术实现思路
本申请的主要目的在于提供一种地址数据的有效性判断方法及其装置,旨在解决以上提到自动判断地址数据的有效性的问题。本申请的示例性实施例提供一种地址数据的有效性判断方法,所述方法包括:通过对地址数据执行分词处理,获取与地址数据对应的多个分词;将所述多个分词输入到地址语言模型组件,获取本文档来自技高网...

【技术保护点】
1.一种地址数据的有效性判断方法,其特征在于,包括:/n通过对地址数据执行分词处理,获取与地址数据对应的多个分词;/n将所述多个分词输入到地址语言模型组件,获取所述多个分词顺序出现的概率,其中,所述地址语言模型组件是利用构成有效地址数据的分词训练得到的;/n生成与所述概率对应的针对地址数据的有效值。/n

【技术特征摘要】
1.一种地址数据的有效性判断方法,其特征在于,包括:
通过对地址数据执行分词处理,获取与地址数据对应的多个分词;
将所述多个分词输入到地址语言模型组件,获取所述多个分词顺序出现的概率,其中,所述地址语言模型组件是利用构成有效地址数据的分词训练得到的;
生成与所述概率对应的针对地址数据的有效值。


2.如权利要求1所述的方法,其特征在于,所述地址语言模型组件被设置为按照下述方式训练得到:
获取来自不同数据源的地址数据;
对所述不同数据源的地址数据执行筛选处理,获取多个有效地址数据;
对所述多个有效地址数据中的每个有效地址数据执行分词处理,获取与每个有效地址数据对应的多个有效分词;
利用所述多个有效分词按照顺序形成每个有效地址数据的对应关系对地址语言模型组件进行训练。


3.如权利要求2所述的方法,其特征在于,对所述不同数据源的地址数据执行筛选处理获取有效地址数据包括:
确定所述不同数据源的地址数据的数据源;
利用与数据源的类型对应的筛选方法对所述不同数据源的地址数据执行筛选处理,获取有效地址数据。


4.如权利要求1所述的方法,其特征在于,所述地址语言模型组件包括统计地址语言模型组件和深度学习地址语言模型组件。


5.如权利要求2所述的方法,其特征在于,所述不同数据源包括来自各种应用对应的服务器的数据、来自各种网站对应的服务器的数据以及上门采集的数据。


6.一种地址数据的有效性判断装置,其特征在于,包括:
处理器;以及
被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行以下操作:
通过对地址数据执行分词处理,获取与地址数据对应的多个分词;
将所述多个分词输入到地址语言模型组件,获取所述多个分词顺序出现的概率,其中,所述地址语言模型组件是利用构成有效地址数据...

【专利技术属性】
技术研发人员:谢朋峻刘楚郑华飞李林琳司罗
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛;KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1