【技术实现步骤摘要】
本专利技术涉及数据处理领域,特别是涉及一种地址信息识别方法及装置。
技术介绍
目前有许多领域需要用到地址信息,地址信息的准确与否直接影响到业务的成功与否;例如在网络交易平台中,如果买家地址信息填写有误,将导致货物无法送达至买家,进而直接影响收货交款业务。另外,如果买家退货给卖家,而卖家地址信息填写有误,同样导致货物无法返回给卖家,进而直接影响退款退货业务。无论是买家地址信息还是卖家地址信息,只有有效的地址信息才能保证物流通畅,保证交易成功完成。地址信息主要由国家行政区域部分和详细地址部分构成,国家行政区域部分包括国家、省、市、区、县等行政区划信息,详细地址部分一般包括具体到路、街道、小区、乡、镇、村和门牌号等位置信息。很多领域都采用下拉选项和详细地址两部分方式管理地址信息,当用户在填写地址信息时,先按照下拉选项中各级别的可选项来选择具体的区划信息,再在详细地址部分填写具体的位置信息。现阶段的地址信息识别方式主要是通过下拉选项方式引导用户填写,保证下拉选项部分的信息是有效的,但其忽略了详细地址部分的位置信息,实际应用中往往是由于详细地址部分的位置信息有误导致业务受到影响。另外,在一些应用场景下,没有下拉选项的引导,用户会直接输入地址信息,在这种场景下不会对地址信息进行识别,更加无法保证地址信息的有效,对业务影响较大。在这种市场需求的环境下,有限状态机识别方式应运而生,有限状态机识别原理可参见图1,每个有限状态机都有一个起始状态、一个终止状态以及若干中间状态,每两个状态间弧线上都带有状态转换条件。当一条地址信息从起始状态经过若干中间状态进入终点状态时,则识别 ...
【技术保护点】
一种地址信息识别方法,其特征在于,所述方法包括:根据预先构造的地址单元的数据结构表,解析待识别的地址信息的字符串得到地址链和后缀字符串;所述数据结构表是基于国家行政区划信息构造的地址单元的数据结构表;根据预先建立的行政区域的从属关系链表,判断所述地址链的区域从属关系是否正确;所述从属关系链表是基于国家行政区划信息建立的行政区域级别从属关系链表;当所述地址链的区域从属关系正确时,查看所述后缀字符串是否包含预设的后缀关键字;如果是,确定地址信息是有效的;否则,确定地址信息是无效的;当所述地址链的区域从属关系不正确时,则确定地址信息为无效的。
【技术特征摘要】
1.一种地址信息识别方法,其特征在于,所述方法包括:根据预先构造的地址单元的数据结构表,解析待识别的地址信息的字符串得到地址链和后缀字符串;所述数据结构表是基于国家行政区划信息构造的地址单元的数据结构表;根据预先建立的行政区域的从属关系链表,判断所述地址链的区域从属关系是否正确;所述从属关系链表是基于国家行政区划信息建立的行政区域级别从属关系链表;当所述地址链的区域从属关系正确时,查看所述后缀字符串是否包含预设的后缀关键字;如果是,确定地址信息是有效的;否则,确定地址信息是无效的;当所述地址链的区域从属关系不正确时,则确定地址信息为无效的。2.根据权利要求1所述的方法,其特征在于,所述根据预先建立的行政区域的从属关系链表,判断所述地址链的区域从属关系是否正确,具体包括:根据预先建立的行政区域从属关系链表,按照级别由高到低的正向匹配方式,判断所述地址链里的区域从属关系是否正确;所述从属关系链表是基于国家行政区划信息,按照行政区域级别由高到低的方式建立的正向级别从属关系链表。3.根据权利要求1所述的方法,其特征在于,所述根据预先建立的行政区域的从属关系链表,判断所述地址链的区域从属关系是否正确,具体包括:根据预先建立的行政区域从属关系链表,按照级别由低到高的逆向匹配方式,判断所述地址链里的区域从属关系是否正确;所述从属关系链表是基于国家行政区划信息,按照行政区域级别由低到高的方式建立的逆向级别从属关系链表。4.根据权利要求3所述的方法,其特征在于,所述逆向级别从属关系链表包括:相邻级别的逆向级别从属关系链表和跨级别的逆向级别从属关系链表。5.根据权利要求1至4任一项所述的方法,其特征在于,所述判断所述地址链的区域从属关系是否正确,具体包括:判断所述地址链里第一个地址单元是否为直辖市;如果是,根据预先建立的行政区域的从属关系链表以及所述地址链中的前两个地址单元,判断所述地址链的区域从属关系是否正确;否则,根据预先建立的行政区域的从属关系链表以及所述地址链中的前三个地址单元,判断所述地址链的区域从属关系是否正确。6.根据权利要求1所述的方法,其特征在于,当所述地址链的区域从属关系正确时,在执行所述查看所述后缀字符串是否包含预设的后缀关键字步骤之前,所述方法还包括:对所述后缀字符串进行去重处理,以去掉所述后缀字符串中与所述地址链中信息相同的部分;判断去重后的后缀字符串的长度是否大于预设阈值;如果是,则执行所述查看所述后缀字符串是否包含预设的后缀关键字的步骤。7.根据权利要求1或6所述的方法,其特征在于,当查看所述后缀字符串不包含预设的后缀关键字时,所述方法还包括:判断所述后缀字符串是否包含预设的垃圾关键字;如果是,则确定地址信息是无效的;否则,确定地址信息是有效的。8.根据权利要求1所述的方法,其特征在于,所述数据结构表是基于字典树的结构,将国家行政区划信息中的地址单元按照单字拆开的方式构造生成的地址单元的字...
【专利技术属性】
技术研发人员:任巨伟,
申请(专利权)人:阿里巴巴集团控股有限公司,
类型:发明
国别省市:开曼群岛;KY
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。