【技术实现步骤摘要】
一种地址解析、匹配的方法及装置
本专利技术涉及地址匹配
,尤其涉及一种地址匹配的方法和设备。
技术介绍
随着业务量的增长,企业积累了海量的地址信息。地址信息可应用在商业活动的各个方面,如银行自动化审批中,需要将申请人的申请信息中的地址与黑名单地址库进行相似性匹配,作为判定申请信息的风险的辅助手段。但是由于人工填写地址容易出现重复、错别字及缺漏,输入的地址中地址文本的表达方式多样,导致地址录入标准不规范,直接进行相似度匹配会导致很大的误差。此外,由于地址专名较多,不规则的小区名、公司名等难以规范化,导致地址解析正确率低。地址重复的问题很大概率是由录入方式导致的。现有的地址录入系统往往采取下拉选择三级行政区,再由客户或工作人员手工录入其余地址信息的方式。这种录入方式容易导致行政区重复录入问题。如,在下拉中选择了“广东省”“惠州市”“博罗县”后,再填入“惠州博罗城市花园A栋601”,后台会将地址表示成“广东省惠州市博罗县惠州博罗城市花园A栋601”。重复录入的行为会直接影响地址相似度匹配的结果。地址信息冗余会导致地址表达的多样性问题。为了便捷,人们往往倾向于在不失 ...
【技术保护点】
1.一种地址解析的方法,其特征在于,所述方法包括:获取待匹配地址;根据行政区分层词典库,将所述待匹配地址切分为第一地址和第二地址;其中,所述第一地址为具有行政区信息的字段;所述第二地址为不具有行政区信息的字段;对所述第一地址进行规范化处理;根据地址要素关键词与组合规则,解析所述第二地址中的各地址要素,并根据地址库对各地址要素进行规范化处理;所述地址库与所述行政区分层词典库不同。
【技术特征摘要】
1.一种地址解析的方法,其特征在于,所述方法包括:获取待匹配地址;根据行政区分层词典库,将所述待匹配地址切分为第一地址和第二地址;其中,所述第一地址为具有行政区信息的字段;所述第二地址为不具有行政区信息的字段;对所述第一地址进行规范化处理;根据地址要素关键词与组合规则,解析所述第二地址中的各地址要素,并根据地址库对各地址要素进行规范化处理;所述地址库与所述行政区分层词典库不同。2.根据权利要求1所述的方法,其特征在于,所述根据行政区分层词典库,将所述待匹配地址切分为第一地址和第二地址,包括:按照行政区的层级级数依次解析所述待匹配地址,确定解析成功的字段的行政区的级数,直至所述行政区的层级级数的最后一级;将所述行政区的层级级数的第一级对应的字段至所述最后一级对应的字段之间的字段作为所述第一地址;所述待匹配地址中除所述第一地址之外的字段作为第二地址。3.根据权利要求2所述的方法,其特征在于,所述对所述第一地址进行规范化处理,包括:若确定所述第一地址中,存在与解析成功的层级地址的字段含义相同的重复字段,则删除所述重复字段;若确定所述第一地址中存在缺失的行政区的层级级数,则根据解析成功的行政区与所述行政区分层词典库对所述第一地址进行行政区信息补全;若确定所述第一地址中解析的行政区为已撤销行政区,则根据所述行政区分层词典库将所述已撤销行政区对应的字段更新为当前行政区对应的字段。4.根据权利要求1所述的方法,其特征在于,根据地址要素关键词与组合规则,解析所述第二地址中的各地址要素,包括:按照预设的地址要素的组合规则,依次对所述第二地址进行基于非贪婪规则的正向匹配;若确定有解析成功的字段,则对解析成功的字段进行地址要素的标记;将未完成解析的各字段,按照预设的地址要素的组合规则,依次进行基于非贪婪规则的正向匹配;若仍存在未解析成功的各字段,则对所述未完成解析的各字段进行基于贪婪规则的逆向匹配,将确定的楼室号之前的字段标记为小区名地址要素。5.根据权利要求1所述的方法,其特征在于,根据所述地址库对所述各地址要素进行规范化处理,包括:根据所述地址库,查找到所述地址库中存储的第二地址的地址信息;根据所述待匹配地址中的第二地址,确定所述待匹配地址中的第二地址中缺失的地址要素;根据所述地址库中存储的第二地址对所述待匹配地址中的第二地址中缺失的地址要素进行补全。6.一种地址匹配方法,其特征在于,适用于通过权利要求1至5任一项方法解析出的待匹配地址,所述方法包括:根据待匹配地址中的第一地址,将黑名单地址库中的第一地址与所述待匹配地址中的第一地址相同的黑名单地址作为筛选后的黑名单地址;将筛选后的黑名单地址中的第二地址与所述待匹配地址中的第二地址进行相似度匹配。7.一种地址解析的装置,其特征在于,所述装置包括:获取单元,用于获取待匹配地址...
【专利技术属性】
技术研发人员:卢翠兰,章磊,李翔宇,
申请(专利权)人:银联数据服务有限公司,
类型:发明
国别省市:上海,31
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。