地址规范化处理方法、装置、设备及存储介质制造方法及图纸

技术编号:25270585 阅读:20 留言:0更新日期:2020-08-14 23:03
本发明专利技术公开了一种地址规范化处理方法,包括:对待录入的文本格式客户地址进行分词操作,得到多个分词地址;以各分词地址中的单个字为查询关键字,查询文字编码库,得到各分词地址对应的单字编码并拼接为分词地址编码;依次以各分词地址编码为检索关键字,检索标准地址库,得到与分词地址编码匹配的标准分词地址编码;将各标准分词地址编码转换为文本格式地址,得到各分词地址对应的标准分词地址;将各标准分词地址拼接为规范的行政标准地址并替换待录入的客户地址。本发明专利技术还公开了一种地址规范化处理装置、设备及计算机可读存储介质。本发明专利技术利用汉字和文字编码之间的转换,实现了海量文本地址的存储,节约了存储空间。

【技术实现步骤摘要】
地址规范化处理方法、装置、设备及存储介质
本专利技术涉及大数据
,尤其涉及一种地址规范化处理方法、装置、设备及存储介质。
技术介绍
服务行业通常需要服务大量客户,而服务方的服务效率与质量将直接关系服务型企业的发展。比如向客户安排专属客服对接,或者全程提供各种售后服务等,以此来提升客户粘性与满意度。现有的客户服务通常都是由机器基于客户住址或工作地信息自动分配专属客服或自动发起各种售后服务。然而现实中,通常都会有些客户提供较规范的地址信息,而有些客户提供的地址信息则不会很规范,因而需要对客户提供的原始地址进行进行规范化处理,比如将简写或省略的地址补全、将错误的地址改正或者将建筑物、小区名称等地址改为基于道路编码的常规地址。这都需要预先设置各种地址规范化转换规则,同时还需要预先存储海量的文字地址信息以便于进行地址转换,因而现有实现方式需要占用大量的磁盘存储空间,间接增加了服务方的硬件成本开支。
技术实现思路
本专利技术的主要目的在于提供一种地址规范化处理方法、装置、设备及存储介质,旨在解决现有地址规范化处理时需要使用海量文字地址信息而占用磁盘存储空间的技术问题。为实现上述目的,本专利技术提供一种地址规范化处理方法,所述地址规范化处理方法包括以下步骤:获取待录入的文本格式客户地址;通过预置中文分词器对所述客户地址进行分词操作,得到组成所述客户地址的多个分词地址;依次以各分词地址中的单个字为查询关键字,查询预置文字编码库,得到查询结果,若所述查询结果非空,则输出所述各分词地址中所有单个字分别对应的单字编码;参照所述各分词地址,将各单个字对应的单字编码拼接为分词地址编码;依次以各分词地址编码为检索关键字,检索预置标准地址库,得到检索结果,若所述检索结果非空,则输出与所述分词地址编码匹配的标准分词地址编码;基于所述文字编码库,将与所述各分词地址编码匹配的标准分词地址编码转换为对应的文本格式地址,得到所述各分词地址对应的标准分词地址;参照所述客户地址,将所述各标准分词地址拼接为规范的行政标准地址,并以所述行政标准地址替换所述客户地址。可选地,在所述获取待录入的文本格式客户地址的步骤之前,还包括:收集样本地址,其中,所述样本地址中包含有多个行政标准地址和所述行政标准地址对应的同义地址;通过所述中文分词器对所述样本地址进行分词操作,得到组成所述样本地址的多个标准分词地址和多个同义分词地址;参照所述文字编码库,依次对所述各标准分词地址和所述各同义分词地址中的单个字进行二进制编码,输出所述各标准分词地址和所述各同义分词地址中所有单个字分别对应的单字编码;参照所述各标准分词地址,将所述各标准分词地址中各单个字对应的单字编码拼接为标准分词地址编码并存入所述标准地址库;以及参照所述各同义分词地址,将所述各同义分词地址中各单个字对应的单字编码拼接为标准同义地址编码并与对应的标准分词地址编码关联存入所述标准地址库。可选地,所述依次以各分词地址编码为检索关键字,检索预置标准地址库,得到检索结果包括:依次以各分词地址编码为检索关键字,将所述检索关键字分别与所述标准地址库中的各标准分词地址编码进行比对,得到检索结果;所述若所述检索结果非空,则输出与所述分词地址编码匹配的标准分词地址编码包括:若所述检索结果为所述标准地址库中存在与所述检索关键字完全比对一致的标准分词地址编码,则输出所述标准分词地址编码;若所述检索结果为所述标准地址库中存在与所述检索关键字部分比对一致的标准分词地址编码,则判断所述检索关键字是否满足预置的地址规范转换规则;若满足所述地址规范转换规则,则输出所述标准分词地址编码。可选地,所述地址规范转换规则包括以下任一种:A、若所述标准分词地址编码包含有所述检索关键字,则判定所述检索关键字对应的分词地址为所述标准分词地址编码对应的标准分词地址的简写并确定满足所述地址规范转换规则;B、若所述检索关键字对应的分词地址编码与所述标准分词地址编码关联,则判定所述分词地址为同义地址并确定满足所述地址规范转换规则。可选地,所述地址规范化处理方法还包括:在查询所述文字编码库时,若所述查询结果为空,则提交所述查询关键字,以供后台人工将所述查询关键字录入所述文字编码库;在检索所述标准地址库时,若所述检索结果为空,则提交所述检索关键字,以供后台人工使用行政标准地址中的字替换所述检索关键字对应的所述客户地址中的字。可选地,在所述通过预置中文分词器对所述客户地址进行分词操作,得到组成所述客户地址的多个分词地址的步骤之前,还包括:通过预置正则表达式,判断所述客户地址中是否包含有地址别名信息,所述地址别名信息包括建筑物名称、住宅小区名称、产业园区名称或机构名称;若是,则基于所述地址别名信息,查询预置地图数据库,获取所述地址别名信息对应行的详细地址信息,并将所述客户地址替换为所述详细地址信息。可选地,在所述参照所述客户地址,将所述各标准分词地址拼接为规范的行政标准地址,并以所述行政标准地址替换所述客户地址的步骤之后,还包括:获取所述客户地址对应的行政标准地址;通过预置地图数据库,对所述行政标准地址进行地理定位,得到所述客户地址对应的经纬度坐标信息;将所述经纬度坐标信息与所述行政标准地址关联。进一步地,为实现上述目的,本专利技术还提供一种地址规范化处理装置,所述地址规范化处理装置包括:获取模块,用于获取待录入的文本格式客户地址;分词模块,用于通过预置中文分词器对所述客户地址进行分词操作,得到组成所述客户地址的多个分词地址;查询模块,用于依次以各分词地址中的单个字为查询关键字,查询预置文字编码库,得到查询结果,若所述查询结果非空,则输出所述各分词地址中所有单个字分别对应的单字编码;第一拼接模块,用于参照所述各分词地址,将各单个字对应的单字编码拼接为分词地址编码;检索模块,用于依次以各分词地址编码为检索关键字,检索预置标准地址库,得到检索结果,若所述检索结果非空,则输出与所述分词地址编码匹配的标准分词地址编码;转换模块,用于基于所述文字编码库,将与所述各分词地址编码匹配的标准分词地址编码转换为对应的文本格式地址,得到所述各分词地址对应的标准分词地址;第二拼接模块,用于参照所述客户地址,将所述各标准分词地址拼接为规范的行政标准地址,并以所述行政标准地址替换所述客户地址。可选地,所述地址规范化处理装置还包括:收集模块,用于收集样本地址,其中,所述样本地址中包含有多个行政标准地址和所述行政标准地址对应的同义地址;所述分词模块还用于:通过所述中文分词器对所述样本地址进行分词操作,得到组成所述样本地址的多个标准分词地址和多个同义分词地址;编码模块,用于参照所述文字编码库,依次对所述各标准分词地址和所述各同义分词地址中的单个字进行二进制编码,输出所述各标准分词地本文档来自技高网...

【技术保护点】
1.一种地址规范化处理方法,其特征在于,所述地址规范化处理方法包括以下步骤:/n获取待录入的文本格式客户地址;/n通过预置中文分词器对所述客户地址进行分词操作,得到组成所述客户地址的多个分词地址;/n依次以各分词地址中的单个字为查询关键字,查询预置文字编码库,得到查询结果,若所述查询结果非空,则输出所述各分词地址中所有单个字分别对应的单字编码;/n参照所述各分词地址,将各单个字对应的单字编码拼接为分词地址编码;/n依次以各分词地址编码为检索关键字,检索预置标准地址库,得到检索结果,若所述检索结果非空,则输出与所述分词地址编码匹配的标准分词地址编码;/n基于所述文字编码库,将与所述各分词地址编码匹配的标准分词地址编码转换为对应的文本格式地址,得到所述各分词地址对应的标准分词地址;/n参照所述客户地址,将所述各标准分词地址拼接为规范的行政标准地址,并以所述行政标准地址替换所述客户地址。/n

【技术特征摘要】
1.一种地址规范化处理方法,其特征在于,所述地址规范化处理方法包括以下步骤:
获取待录入的文本格式客户地址;
通过预置中文分词器对所述客户地址进行分词操作,得到组成所述客户地址的多个分词地址;
依次以各分词地址中的单个字为查询关键字,查询预置文字编码库,得到查询结果,若所述查询结果非空,则输出所述各分词地址中所有单个字分别对应的单字编码;
参照所述各分词地址,将各单个字对应的单字编码拼接为分词地址编码;
依次以各分词地址编码为检索关键字,检索预置标准地址库,得到检索结果,若所述检索结果非空,则输出与所述分词地址编码匹配的标准分词地址编码;
基于所述文字编码库,将与所述各分词地址编码匹配的标准分词地址编码转换为对应的文本格式地址,得到所述各分词地址对应的标准分词地址;
参照所述客户地址,将所述各标准分词地址拼接为规范的行政标准地址,并以所述行政标准地址替换所述客户地址。


2.如权利要求1所述的地址规范化处理方法,其特征在于,在所述获取待录入的文本格式客户地址的步骤之前,还包括:
收集样本地址,其中,所述样本地址中包含有多个行政标准地址和所述行政标准地址对应的同义地址;
通过所述中文分词器对所述样本地址进行分词操作,得到组成所述样本地址的多个标准分词地址和多个同义分词地址;
参照所述文字编码库,依次对所述各标准分词地址和所述各同义分词地址中的单个字进行二进制编码,输出所述各标准分词地址和所述各同义分词地址中所有单个字分别对应的单字编码;
参照所述各标准分词地址,将所述各标准分词地址中各单个字对应的单字编码拼接为标准分词地址编码并存入所述标准地址库;以及参照所述各同义分词地址,将所述各同义分词地址中各单个字对应的单字编码拼接为标准同义地址编码并与对应的标准分词地址编码关联存入所述标准地址库。


3.如权利要求1或2所述的地址规范化处理方法,其特征在于,所述依次以各分词地址编码为检索关键字,检索预置标准地址库,得到检索结果包括:
依次以各分词地址编码为检索关键字,将所述检索关键字分别与所述标准地址库中的各标准分词地址编码进行比对,得到检索结果;
所述若所述检索结果非空,则输出与所述分词地址编码匹配的标准分词地址编码包括:
若所述检索结果为所述标准地址库中存在与所述检索关键字完全比对一致的标准分词地址编码,则输出所述标准分词地址编码;
若所述检索结果为所述标准地址库中存在与所述检索关键字部分比对一致的标准分词地址编码,则判断所述检索关键字是否满足预置的地址规范转换规则;
若满足所述地址规范转换规则,则输出所述标准分词地址编码。


4.如权利要求3所述的地址规范化处理方法,其特征在于,所述地址规范转换规则包括以下任一种:
A、若所述标准分词地址编码包含有所述检索关键字,则判定所述检索关键字对应的分词地址为所述标准分词地址编码对应的标准分词地址的简写并确定满足所述地址规范转换规则;
B、若所述检索关键字对应的分词地址编码与所述标准分词地址编码关联,则判定所述分词地址为同义地址并确定满足所...

【专利技术属性】
技术研发人员:段烽
申请(专利权)人:中国平安人寿保险股份有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1