【技术实现步骤摘要】
本申请涉及数据处理,尤其涉及一种地址要素纠正方法、装置、电子设备及存储介质。
技术介绍
1、商户地址质量不高给公司商户的经营管理带来很大挑战,譬如难以联合商业银行开展精准的营销活动,无法对商户入网信息进行有效的真实性核验,商户无法按照省市区等行政区划进行准确统计等。其中商户地址信息没有遵循统一的规范,文字表述多样化,造成商户地址数据质量参差不齐,具体体现在以下几个方面:
2、(1)地址要素冗余,存在重复信息;(2)地址要素模糊,地址要素存在缺少或错误、简写、繁体等情况造成地址要素的模糊;(3)地址要素的空间约束关系错误等。
3、现有技术为了解决商户地址数据质量参差不齐的问题,提出了基于全文索引的地址补齐方法,基于全文索引的地址补齐方法首先建立一个标准地址库,然后将待匹配地址分词后的结果作为检索条件来进行地址匹配,利用标准地址库内的地址要素来实行地址的补齐和纠偏。现有技术存在的问题是,只考虑关键词匹配,在处理简写、缩写地址要素单元时,错误匹配问题突出,导致地址要素纠正准确性较差。
技术实
...【技术保护点】
1.一种地址要素纠正方法,其特征在于,所述方法包括:
2.如权利要求1所述的方法,其特征在于,所述地址文本识别模型的训练过程包括:
3.如权利要求2所述的方法,其特征在于,根据所述各个样本地址要素各自的词频数确定所述样本地址的词频总数和词频变化数包括:
4.如权利要求2所述的方法,其特征在于,根据所述样本地址的词频总数、词频变化数和地址字符串长度,确定所述样本地址的质量评价值包括:
5.如权利要求1所述的方法,其特征在于,确定所述待纠正的地址的各个第一地址要素包括:
6.如权利要求1所述的方法,其特征在于,所
...【技术特征摘要】
1.一种地址要素纠正方法,其特征在于,所述方法包括:
2.如权利要求1所述的方法,其特征在于,所述地址文本识别模型的训练过程包括:
3.如权利要求2所述的方法,其特征在于,根据所述各个样本地址要素各自的词频数确定所述样本地址的词频总数和词频变化数包括:
4.如权利要求2所述的方法,其特征在于,根据所述样本地址的词频总数、词频变化数和地址字符串长度,确定所述样本地址的质量评价值包括:
5.如权利要求1所述的方法,其特征在于,确定所述待纠正的地址的各个第一地址要素包括:
6.如权利要求1所述的方法,其特征在于,所述将预先构建的多层级地址标准化库和所述各个第二地址要素进行匹配,根据匹配结果对所述各个第二地址要素进行纠正包括:
7.如权利要求6所述的方法,其特征在于,所述方法还包括:
8.如权利要求6或7所述的方法,其特征在于,所述方法还包括:
9.一种地址要素纠正装置,其特征在于,所述装置包括:
10.如权利要求9所述的装置,其特征在于,所述装置还包括:
11.如权利要求10所述的装置,其特征在于,所述训练模块,具体用于根据所述各个样本地址要素各自的词频数的和值,确定所述样本地址的词频总数;
12.如权利要求10所述的装置,其特征在于,所述训练模块,具体用于分别对所述词频总数、词频变化数和地址字符串长度进行归一化处理,对归一化处理后的词频总数、词频变化数和地址字符串长度进行加权求和,得到所述样本地址的质量评价值。
13.如权利要求9所述的装置,其特征在于,所述确定模块,具体用于根据预先构建的地址语料库删除所述待纠正的地址中的空白字符和特殊字符;并将所述待纠正的地址中的繁体字转换为对应的简体字,得到预处理后的地址;对所述预处理后的地址进行分词处理,得...
【专利技术属性】
技术研发人员:王宇,邱雪涛,佘萧寒,曾泽华,王阳,崔腾,董牧阳,陈荣磊,
申请(专利权)人:中国银联股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。