一种地址信息识别方法及装置制造方法及图纸

技术编号:14120823 阅读:36 留言:0更新日期:2016-12-08 13:57
本发明专利技术实施例公开了一种地址信息识别方法及装置,其中,方法包括:根据预先构造的地址单元的数据结构表,解析待识别的地址信息的字符串得到地址链和后缀字符串;根据预先建立的行政区域的从属关系链表,判断所述地址链的区域从属关系是否正确;当所述地址链的区域从属关系正确时,查看所述后缀字符串是否包含预设的后缀关键字;如果是,确定地址信息是有效的;否则,确定地址信息是无效的;当所述地址链的区域从属关系不正确时,则确定地址信息为无效的。本发明专利技术对地址信息进行了解析,进而对每个部分进行了识别,识别方式简单可靠,能够提高识别效率和识别准确度。

【技术实现步骤摘要】

本专利技术涉及数据处理领域,特别是涉及一种地址信息识别方法及装置
技术介绍
目前有许多领域需要用到地址信息,地址信息的准确与否直接影响到业务的成功与否;例如在网络交易平台中,如果买家地址信息填写有误,将导致货物无法送达至买家,进而直接影响收货交款业务。另外,如果买家退货给卖家,而卖家地址信息填写有误,同样导致货物无法返回给卖家,进而直接影响退款退货业务。无论是买家地址信息还是卖家地址信息,只有有效的地址信息才能保证物流通畅,保证交易成功完成。地址信息主要由国家行政区域部分和详细地址部分构成,国家行政区域部分包括国家、省、市、区、县等行政区划信息,详细地址部分一般包括具体到路、街道、小区、乡、镇、村和门牌号等位置信息。很多领域都采用下拉选项和详细地址两部分方式管理地址信息,当用户在填写地址信息时,先按照下拉选项中各级别的可选项来选择具体的区划信息,再在详细地址部分填写具体的位置信息。现阶段的地址信息识别方式主要是通过下拉选项方式引导用户填写,保证下拉选项部分的信息是有效的,但其忽略了详细地址部分的位置信息,实际应用中往往是由于详细地址部分的位置信息有误导致业务受到影响。另外,在一些应用场景下,没有下拉选项的引导,用户会直接输入地址信息,在这种场景下不会对地址信息进行识别,更加无法保证地址信息的有效,对业务影响较大。在这种市场需求的环境下,有限状态机识别方式应运而生,有限状态机识别原理可参见图1,每个有限状态机都有一个起始状态、一个终止状态以及若干中间状态,每两个状态间弧线上都带有状态转换条件。当一条地址信息从起始状态经过若干中间状态进入终点状态时,则识别出这条地址信息是有效的,否则识别出这条信息是无效的。但这种有限状态机识别方式有以下缺点:一方面,对于撰写不规范的地址信息,如不携带省、市、区等关键字的地址信息,再例如,携带地标建筑、医院、酒店等公共场所名称的地址信息,该方式均无法有效识别。另一方面,状态间的转换需要大量的字符串匹配操作,识别过程耗时较长。
技术实现思路
为了解决上述技术问题,本专利技术提供了一种地址信息识别方法及装置,通过对地址信息的解析得到地址链和后缀字符串,为后续的识别打好基础,先对地址链进行判断,以识别地址信息的区域从属关系是否正确;在区域从属关系正确的情况下,进而识别后缀字符串是否有效,通过对地址信息中两部分信息的识别以保证识别的准确性和时效性。一方面,本专利技术提供了一种地址信息识别方法,所述方法包括:根据预先构造的地址单元的数据结构表,解析待识别的地址信息的字符串得到地址链和后缀字符串;所述数据结构表是基于国家行政区划信息构造的地址单元的数据结构表;根据预先建立的行政区域的从属关系链表,判断所述地址链的区域从属关系是否正确;所述从属关系链表是基于国家行政区划信息建立的行政区域级别从属关系链表;当所述地址链的区域从属关系正确时,查看所述后缀字符串是否包含预设的后缀关键字;如果是,确定地址信息是有效的;否则,确定地址信息是无效的;当所述地址链的区域从属关系不正确时,则确定地址信息为无效的。可选的,所述根据预先建立的行政区域的从属关系链表,判断所述地址链的区域从属关系是否正确,具体包括:根据预先建立的行政区域从属关系链表,按照级别由高到低的正向匹配方式,判断所述地址链里的区域从属关系是否正确;所述从属关系链表是基于国家行政区划信息,按照行政区域级别由高到低的方式建立的正向级别从属关系链表。可选的,所述根据预先建立的行政区域的从属关系链表,判断所述地址链的区域从属关系是否正确,具体包括:根据预先建立的行政区域从属关系链表,按照级别由低到高的逆向匹配方式,判断所述地址链里的区域从属关系是否正确;所述从属关系链表是基于国家行政区划信息,按照行政区域级别由低到高的方式建立的逆向级别从属关系链表。可选的,所述逆向级别从属关系链表包括:相邻级别的逆向级别从属关系链表和跨级别的逆向级别从属关系链表。可选的,所述判断所述地址链的区域从属关系是否正确,具体包括:判断所述地址链里第一个地址单元是否为直辖市;如果是,根据预先建立的行政区域的从属关系链表以及所述地址链中的前两个地址单元,判断所述地址链的区域从属关系是否正确;否则,根据预先建立的行政区域的从属关系链表以及所述地址链中的前三个地址单元,判断所述地址链的区域从属关系是否正确。可选的,当所述地址链的区域从属关系正确时,在执行所述查看所述后缀字符串是否包含预设的后缀关键字步骤之前,所述方法还包括:对所述后缀字符串进行去重处理,以去掉所述后缀字符串中与所述地址链中信息相同的部分;判断去重后的后缀字符串的长度是否大于预设阈值;如果是,则执行所述查看所述后缀字符串是否包含预设的后缀关键字的步骤。可选的,当查看所述后缀字符串不包含预设的后缀关键字时,所述方法还包括:判断所述后缀字符串是否包含预设的垃圾关键字;如果是,则确定地址信息是无效的;否则,确定地址信息是有效的。可选的,所述数据结构表是基于字典树的结构,将国家行政区划信息中的地址单元按照单字拆开的方式构造生成的地址单元的字典树。另一方面,本专利技术提供了一种地址信息识别装置,其特征在于,所述装置包括:地址信息解析单元,用于根据预先构造的地址单元的数据结构表,解析待识别的地址信息的字符串得到地址链和后缀字符串;所述数据结构表是基于国家行政区划信息构造的地址单元的数据结构表;从属关系判断单元,用于根据预先建立的行政区域的从属关系链表,判断所述地址链的区域从属关系是否正确;所述从属关系链表是基于国家行政区划信息建立的行政区域级别从属关系链表;如果是,进入第一查看单元;否则,进入第二确定单元;第一查看单元,用于查看所述后缀字符串是否包含预设的后缀关键字;如果是,进入第一确定单元;否则,进入第二确定单元;所述第一确定单元,用于确定地址信息是有效的;所述第二确定单元,用于确定地址信息是无效的。可选的,所述区域从属关系判断单元具体用于:根据预先建立的行政区域从属关系链表,按照级别由高到低的正向匹配方式,判断所述地址链里的区域从属关系是否正确;所述从属关系链表是基于国家行政区划信息,按照行政区域级别由高到低的方式建立的正向级别从属关系链表。可选的,所述区域从属关系判断单元具体用于:根据预先建立的行政区域从属关系链表,按照级别由低到高的逆向匹配方式,判断所述地址链里的区域从属关系是否正确;所述从属关系链表是基于国家行政区划信息,按照行政区域级别由低到高的方式建立的逆向级别从属关系链表。可选的,所述逆向级别从属关系链表包括:相邻级别的逆向级别从属关系链表和跨级别的逆向级别从属关系链表。可选的,所述区域从属关系判断单元,包括:第一判断子单元,用于判断所述地址链里第一个地址单元是否为直辖市;如果是,进入第二判断子单元;否则,第三判断子单元;第二判断子单元,用于根据预先建立的行政区域的从属关系链表以及所述地址链中的前两个地址单元,判断所述地址链的区域从属关系是否正确;第三判断子单元,用于根据预先建立的行政区域的从属关系链表以及所述地址链中的前三个地址单元,判断所述地址链的区域从属关系是否正确。可选的,所述装置还包括:去重处理单元,用于对所述后缀字符串进行去重处理,以去掉所述后缀
字符串中与所述地址链中信息相同的部分;长本文档来自技高网
...
一种地址信息识别方法及装置

【技术保护点】
一种地址信息识别方法,其特征在于,所述方法包括:根据预先构造的地址单元的数据结构表,解析待识别的地址信息的字符串得到地址链和后缀字符串;所述数据结构表是基于国家行政区划信息构造的地址单元的数据结构表;根据预先建立的行政区域的从属关系链表,判断所述地址链的区域从属关系是否正确;所述从属关系链表是基于国家行政区划信息建立的行政区域级别从属关系链表;当所述地址链的区域从属关系正确时,查看所述后缀字符串是否包含预设的后缀关键字;如果是,确定地址信息是有效的;否则,确定地址信息是无效的;当所述地址链的区域从属关系不正确时,则确定地址信息为无效的。

【技术特征摘要】
1.一种地址信息识别方法,其特征在于,所述方法包括:根据预先构造的地址单元的数据结构表,解析待识别的地址信息的字符串得到地址链和后缀字符串;所述数据结构表是基于国家行政区划信息构造的地址单元的数据结构表;根据预先建立的行政区域的从属关系链表,判断所述地址链的区域从属关系是否正确;所述从属关系链表是基于国家行政区划信息建立的行政区域级别从属关系链表;当所述地址链的区域从属关系正确时,查看所述后缀字符串是否包含预设的后缀关键字;如果是,确定地址信息是有效的;否则,确定地址信息是无效的;当所述地址链的区域从属关系不正确时,则确定地址信息为无效的。2.根据权利要求1所述的方法,其特征在于,所述根据预先建立的行政区域的从属关系链表,判断所述地址链的区域从属关系是否正确,具体包括:根据预先建立的行政区域从属关系链表,按照级别由高到低的正向匹配方式,判断所述地址链里的区域从属关系是否正确;所述从属关系链表是基于国家行政区划信息,按照行政区域级别由高到低的方式建立的正向级别从属关系链表。3.根据权利要求1所述的方法,其特征在于,所述根据预先建立的行政区域的从属关系链表,判断所述地址链的区域从属关系是否正确,具体包括:根据预先建立的行政区域从属关系链表,按照级别由低到高的逆向匹配方式,判断所述地址链里的区域从属关系是否正确;所述从属关系链表是基于国家行政区划信息,按照行政区域级别由低到高的方式建立的逆向级别从属关系链表。4.根据权利要求3所述的方法,其特征在于,所述逆向级别从属关系链表包括:相邻级别的逆向级别从属关系链表和跨级别的逆向级别从属关系链表。5.根据权利要求1至4任一项所述的方法,其特征在于,所述判断所述地址链的区域从属关系是否正确,具体包括:判断所述地址链里第一个地址单元是否为直辖市;如果是,根据预先建立的行政区域的从属关系链表以及所述地址链中的前两个地址单元,判断所述地址链的区域从属关系是否正确;否则,根据预先建立的行政区域的从属关系链表以及所述地址链中的前三个地址单元,判断所述地址链的区域从属关系是否正确。6.根据权利要求1所述的方法,其特征在于,当所述地址链的区域从属关系正确时,在执行所述查看所述后缀字符串是否包含预设的后缀关键字步骤之前,所述方法还包括:对所述后缀字符串进行去重处理,以去掉所述后缀字符串中与所述地址链中信息相同的部分;判断去重后的后缀字符串的长度是否大于预设阈值;如果是,则执行所述查看所述后缀字符串是否包含预设的后缀关键字的步骤。7.根据权利要求1或6所述的方法,其特征在于,当查看所述后缀字符串不包含预设的后缀关键字时,所述方法还包括:判断所述后缀字符串是否包含预设的垃圾关键字;如果是,则确定地址信息是无效的;否则,确定地址信息是有效的。8.根据权利要求1所述的方法,其特征在于,所述数据结构表是基于字典树的结构,将国家行政区划信息中的地址单元按照单字拆开的方式构造生成的地址单元的字...

【专利技术属性】
技术研发人员:任巨伟
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛;KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1