一种地址数据的有效性判断方法及其装置制造方法及图纸

技术编号:24498743 阅读:50 留言:0更新日期:2020-06-13 04:07
本申请公开了一种地址数据的有效性判断方法及其装置,所述方法包括:通过对地址数据执行分词处理,获取与地址数据对应的多个分词;将所述多个分词输入到地址语言模型组件,获取所述多个分词顺序出现的概率,其中,所述地址语言模型组件是利用构成有效地址数据的分词训练得到的;生成与所述概率对应的针对地址数据的有效值。采用本申请,可自动判断地址数据的有效性。

A method and device for judging the validity of address data

【技术实现步骤摘要】
一种地址数据的有效性判断方法及其装置
本申请涉及计算机
,尤其涉及一种地址数据的有效性判断方法及其装置。
技术介绍
随着互联网的兴起,各种在线应用会产生大量的地址数据。但由于地址采集或输入的不规范等问题,这些地址数据中存在很多错误、虚假、不存在的无效地址,这类地址给这些应用带来了诸多麻烦,例如,在外卖类应用中,如果外卖地址是无效地址,则会使外卖员无法及时联系到顾客,在官方系统中,如果用户地址为无效地址,则会使政府人员无法上门采集信息。基于此,需要对产生的地址数据判断有效性。在现有技术中,通常采用人工审核的方式判断地址数据的有效性,这种方法费时费力,不宜推广。因此,现有技术需要一种对地址数据自动判断有效性的技术方案。
技术实现思路
本申请的主要目的在于提供一种地址数据的有效性判断方法及其装置,旨在解决以上提到自动判断地址数据的有效性的问题。本申请的示例性实施例提供一种地址数据的有效性判断方法,所述方法包括:通过对地址数据执行分词处理,获取与地址数据对应的多个分词;将所述多个分词输入到地址语言模型组件,获取所述多个分词顺序出现的概率,其中,所述地址语言模型组件是利用构成有效地址数据的分词训练得到的;生成与所述概率对应的针对地址数据的有效值。本申请的另一示例性实施例提供一种计算机可读存储介质,其上存储有计算机指令,其特征在于,所述指令被执行时实现上述方法。本申请的另一示例性实施例提供一种地址数据的有效性判断装置,所述装置包括处理器;以及被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行以下操作:通过对地址数据执行分词处理,获取与地址数据对应的多个分词;将所述多个分词输入到地址语言模型组件,获取所述多个分词顺序出现的概率,其中,所述地址语言模型组件是利用构成有效地址数据的分词训练得到的;生成与所述概率对应的针对地址数据的有效值。本申请的另一示例性实施例提供一种地址数据处理系统,所述系统包括地址采集模块,用于采集多数据源的地址数据;地址筛除模块,用于判断采集的地址数据中的每个地址数据是否有效;将判断为无效的地址数据从采集的地址数据中筛除;将筛除掉无效的地址数据的地址数据作为训练地址数据执行分词处理,获取与训练地址数据对应的多个训练分词;地址语言模型模块,用于将输入的地址数据执行分词处理,获取多个分词,将所述多个分词输入利用所述多个训练分词训练完成的地址语言模型,获取所述多个分词顺序出现的概率。转换模块,用于将获取的所述多个分词顺序出现的概率转换为输入的地址数据的有效值。本申请示例性实施例采用的上述至少一个技术方案能够达到以下有益效果:利用地址语言模型组件来计算地址数据中各个分词顺序出现的概率,便于在量化地址数据的有效性的基础上批量处理地址数据,节省了人力。附图说明此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:图1是示出应用于本申请的示例性实施例的地址数据处理的场景图;图2是根据本申请的示例性实施例的地址数据的有效性判断方法的流程图;图3是根据本申请的示例性实施例的地址数据的有效性判断装置的框图;图4是应用根据本申请的示例性实施例的地址数据的有效性判断方法的服务器的框图。具体实施方式为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获取的所有其他实施例,都属于本申请保护的范围。在介绍本申请的示例性实施例前,为了方便本领域技术人员更好的理解本申请,首先对本申请中涉及的术语进行解释。地址数据是指包含地址信息的数据,例如,“杭州文一西路969号阿里巴巴”。语言模型是指用于计算句子的概率的模型,可用P(W1,W2,...Wk)来表示所语言模型,其中,W1,W2,...Wk表示构成某一个句子的各个分词。利用语言模型可确定分词顺序构成句子的概率。而在本申请中,可将每个地址当做句子计算每个地址的概率,从而确定地址数据的有效性。有效值是指通过量化指标确定某一地址的有效性,若有效值高则说明某一地址更有效,若有效值低则说明该地址可能是无效地址。标准地址是指对某一地点的标准化描述,例如,若地点为“阿里巴巴西溪园区”,则该地点的标准地址可以是包含“省、市、区、街道、路、路号、POI”的地址,也就是“浙江省杭州市余杭区五常街道文一西路969号阿里巴巴西溪园区”。以下结合附图,详细说明本申请各实施例提供的技术方案。图1是示出应用于本申请的示例性实施例的地址数据处理的场景图。如图1所示,所述数据处理系统包括作为数据提供方的服务器组100和处理服务器组100提供的数据的服务器200。应注意,所述数据处理系统还可包括其它装置,例如,通信基站,但为了避免由于公知的方法、过程、组件和电路来模糊本实施例,在此将省略与本专利技术的构思无关的部件。虽然在图1中示出的服务器组100可包括服务器101、服务器102和服务器103,服务器101至103可表示存储有不同来源的地址数据的服务器,例如,服务器101可以是购物类应用(例如,京东、淘宝)的服务器,服务器102可以是导航类应用(例如,高德)的服务器,而服务器103可以是某一政府部门用于存储上门采集的地址数据的服务器。在图1中,服务器组100以及服务器200的数量仅为示例性的,在实际使用中用户可根据需求增加服务器的数量。服务器200可从服务器101至103中获取大量的地址数据,随后,可利用这些地址数据对地址语言模型组件进行训练。服务器200可利用训练完成的地址语言模型组件对用户输入的地址数据进行有效性判断。为了更清楚地描述根据本申请的示例性的地址数据的有效性判断方法,以下将参照图2详细说明根据本申请的示例性的地址数据的有效性判断方法。图2示出了根据本申请的示例性实施例的地址数据的有效性判断方法的流程图。在步骤S210中,通过对地址数据执行分词处理,获取与地址数据对应的多个分词。具体来说,所述地址数据可以是用户输入的信息中所包括的地址数据也可以是从如图1中的服务器组100接收的地址数据。因此,可先确定地址数据,随后对所述地址数据执行分词处理,例如,用户可输入信息“我特别想去阿里巴巴西溪园区”,则可先确定地址数据为“阿里巴巴西溪园区”,随后对“阿里巴巴西溪园区”执行分词处理。根据本申请的示例性实施例,可利用基于词典的方法对所述地址数据执行分词处理,从而获取与地址数据对应的多个分词。随后,在步骤S220中,将所述多个分词输入到地址语言模型组件,获取所述多个分词顺序出现的概率,其中,所述地址语言模型组件是利用构成有效地址数据的分词训练得到的。根据本申请的示例性实施例,可将地址数据当作本文档来自技高网...

【技术保护点】
1.一种地址数据的有效性判断方法,其特征在于,包括:/n通过对地址数据执行分词处理,获取与地址数据对应的多个分词;/n将所述多个分词输入到地址语言模型组件,获取所述多个分词顺序出现的概率,其中,所述地址语言模型组件是利用构成有效地址数据的分词训练得到的;/n生成与所述概率对应的针对地址数据的有效值。/n

【技术特征摘要】
1.一种地址数据的有效性判断方法,其特征在于,包括:
通过对地址数据执行分词处理,获取与地址数据对应的多个分词;
将所述多个分词输入到地址语言模型组件,获取所述多个分词顺序出现的概率,其中,所述地址语言模型组件是利用构成有效地址数据的分词训练得到的;
生成与所述概率对应的针对地址数据的有效值。


2.如权利要求1所述的方法,其特征在于,所述地址语言模型组件被设置为按照下述方式训练得到:
获取来自不同数据源的地址数据;
对所述不同数据源的地址数据执行筛选处理,获取多个有效地址数据;
对所述多个有效地址数据中的每个有效地址数据执行分词处理,获取与每个有效地址数据对应的多个有效分词;
利用所述多个有效分词按照顺序形成每个有效地址数据的对应关系对地址语言模型组件进行训练。


3.如权利要求2所述的方法,其特征在于,对所述不同数据源的地址数据执行筛选处理获取有效地址数据包括:
确定所述不同数据源的地址数据的数据源;
利用与数据源的类型对应的筛选方法对所述不同数据源的地址数据执行筛选处理,获取有效地址数据。


4.如权利要求1所述的方法,其特征在于,所述地址语言模型组件包括统计地址语言模型组件和深度学习地址语言模型组件。


5.如权利要求2所述的方法,其特征在于,所述不同数据源包括来自各种应用对应的服务器的数据、来自各种网站对应的服务器的数据以及上门采集的数据。


6.一种地址数据的有效性判断装置,其特征在于,包括:
处理器;以及
被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行以下操作:
通过对地址数据执行分词处理,获取与地址数据对应的多个分词;
将所述多个分词输入到地址语言模型组件,获取所述多个分词顺序出现的概率,其中,所述地址语言模型组件是利用构成有效地址数据...

【专利技术属性】
技术研发人员:谢朋峻刘楚郑华飞李林琳司罗
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛;KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1