对地理地址进行标准化的方法和装置制造方法及图纸

技术编号:21628750 阅读:16 留言:0更新日期:2019-07-17 11:01
本发明专利技术公开了一种对地理地址进行标准化的方法和装置,涉及计算机技术领域。该方法的具体实施方式包括:接收一待处理地理地址;在预定义的标准化地址库中查找与该待处理地理地址相似度最高的标准地址作为第一标准地址,相应的相似度作为第一相似度,当所述第一相似度大于预定的第一阈值,则确定该第一标准地址是所述待处理地理地址的标准化地址。该实施方式具有较高的准确性和处理效率,且适用性广。

Methods and devices for standardizing geographic addresses

【技术实现步骤摘要】
对地理地址进行标准化的方法和装置
本专利技术涉及计算机
,尤其涉及一种对地理地址进行标准化的方法和装置。
技术介绍
对用户的地理地址进行统计、分析和挖掘,可以获得诸多具有较高的商业价值的数据信息。由于用户的地理地址信息往往是用户自己输入详细地址,而每个人对同一地址的理解可能不同,因此对于相同的地址,用户输入的内容往往不是统一的,其格式也是千差万别,并且有些人为了避免被风控规则拦截,会人为的在填写的详细地址中加入噪音,从而导致相同地址可能会存在非常多形式的地址串,为地址的识别带了诸多困难,使得后续做地址维度的分析以及设计地址维度的指标的难度增加。因此,在获取并识别用户的地理地址的过程中,需要对用户输入的地理地址进行标准化,将用户输入的地理地址转换为定义的标准形式。目前,对地理地址进行标准化是通过基于规则的方法来进行的,该方法基于地址层级规则,将地址分级划分为省、市、区、街道、城、栋、单元,然后分词获得最终的标准化结果。在实现本专利技术过程中,专利技术人发现现有技术中至少存在如下问题:现有技术的标准化方法适用性、准确性和处理效率较低,对于地理地址中存在的一些异常情况,使用现有技术的标准化方法,则需要为每一种异常情况都额外添加特殊规则才能标准化地址,这往往需要很多的人工介入操作及规则设置,造成极大的资源浪费。
技术实现思路
有鉴于此,本专利技术实施例提供一种对地理地址进行标准化的方法和装置,具有较高的准确性和处理效率,且适用性广。为实现上述目的,根据本专利技术实施例的一个方面,提供了一种对地理地址进行标准化的方法,包括:接收一待处理地理地址;在预定义的标准化地址库中查找与该待处理地理地址相似度最高的标准地址作为第一标准地址,相应的相似度作为第一相似度,当所述第一相似度大于预定的第一阈值,则确定该第一标准地址是所述待处理地理地址的标准化地址。本专利技术实施例提供的对地理地址进行标准化的方法,还包括:当所述第一相似度不大于预定的第一阈值,则生成所述待处理地理地址的地址向量;在所述标准化地址库对应的标准地址向量库中查找与所述待处理地理地址相似度最高的标准地址向量,相应的相似度作为第二相似度,当所述第二相似度大于预定的第二阈值,则确定所查找的标准地址向量对应的第二标准地址是所述地理地址的标准化地址。本专利技术实施例提供的对地理地址进行标准化的方法,还包括:当所述第二相似度不大于所述第二阈值,且所述第一相似度和所述第二相似度的加权平均值大于预定的第三阈值,则确定所述第一相似度和所述第二相似度中较大者对应的标准地址是所述待处理地理地址的标准化地址。进一步的,标准化地址库通过下述步骤获得:接收样本地理地址集;对样本地理地址集进行预处理;基于地址词典读取所述地理地址集中的地理地址的地址键码及相应层级,并基于地址键码的层级去除其中不符合层级要求的地址键码,获得该地理地址的由所述地址键码分隔的层级标准化地址,从而得到由所述层级标准化地址组成的标准化地址库。进一步的,生成所述待处理地理地址的地址向量包括:在所述标准化地址库对应的词向量库中查找获得所述待处理地理地址的地址词对应的词向量;根据所述待处理地理地址对应的词向量,基于预设的分层级地址词词典,通过词袋方式生成所述待处理地理地址的地址向量。进一步的,所述词向量库通过下述步骤获得:把所述标准化地址库中的所有地理地址的地址词转换成词向量,词向量的值是对应地址词的权重系数,所述权重系数是基于该地址词的上下文语义分配的,从而获得所述标准化地址库对应的词向量库。进一步的,所述地址向量库通过下述步骤获得:根据所述标准化地址库中的地理地址对应的词向量,基于预设的分层级地址词词典,通过词袋方式生成所述标准化地址库中的地理地址的地址向量,从而获得由地址向量组成的地址向量库。进一步的,所述预设的分层级地址词词典是按照地址层级分层的多维向量,其中每一层表示一个地址层级且具有多个维度,每一层中包含有标准化地址库中存在的该层对应的地址层级的所有地址词种类,每一个地址词种类用该层级的一个维度表示。进一步的,在所述地址向量库中,每个地址向量对应有n个记录,其中该n个记录的主键分别与该地址向量所对应的地址的n级地址表示相对应,n小于等于地址的层级数,在n级地址表示中,第1级地址表示为地址本身,其后每一级地址表示为去除其上一级地址表示中最高的层级序号对应的层级地址词所余下的地址,在所述标准化地址库对应的标准地址向量库中查找与所述待处理地理地址相似度最高的标准地址向量包括:在标准地址向量库中用所述待处理地理地址的n级地址表示逐级查找对应主键,直至找到相对应的主键并获取其所对应的记录中的地址向量,然后计算该地址向量与待处理地理地址的地址向量的相似度。进一步的,所述第一标准地址是基于所述标准化地址库对应的倒排索引查找获得的,所述倒排索引是基于所述标准化地址库中的所有地理地址的地址词组成的地址词串建立的。进一步的,接收所述待处理地理地址还包括:对所述待处理地理地址进行预处理,其中,所述预处理包括简繁转换、全角半角转换、去除标点符号以及去除特殊字符,其中,当所述待处理地理地址用汉语表示,所述预处理还包括对所述待处理地理地址进行分词获得其对应的地址词。为实现上述目的,根据本专利技术实施例的另一个方面,提供了一种对地理地址进行标准化的装置,包括:接收模块,用于接收一待处理地理地址;搜索模块,用于在预定义的标准化地址库中查找与该待处理地理地址相似度最高的标准地址作为第一标准地址,相应的相似度作为第一相似度,当所述第一相似度大于预定的第一阈值,则确定该第一标准地址是所述待处理地理地址的标准化地址。本专利技术实施例提供的对地理地址进行标准化的装置,还包括:向量匹配模块,用于当所述第一相似度不大于预定的第一阈值,则生成所述待处理地理地址的地址向量,在所述标准化地址库对应的标准地址向量库中查找与所述待处理地理地址相似度最高的标准地址向量,相应的相似度作为第二相似度,当所述第二相似度大于预定的第二阈值,则确定所查找的标准地址向量对应的第二标准地址是所述地理地址的标准化地址。本专利技术实施例提供的对地理地址进行标准化的装置,还包括:输出模块,用于当所述第二相似度不大于所述第二阈值,且所述第一相似度和所述第二相似度的加权平均值大于预定的第三阈值,则确定所述第一相似度和所述第二相似度中较大者对应的标准地址是所述待处理地理地址的标准化地址。本专利技术实施例提供的对地理地址进行标准化的装置,还包括:第一配置模块,用于通过下述步骤获得标准化地址库:接收样本地理地址集;对样本地理地址集进行预处理;基于地址词典读取所述地理地址集中的地理地址的地址键码及相应层级,并基于地址键码的层级去除其中不符合层级要求的地址键码,获得该地理地址的由所述地址键码分隔的层级标准化地址,从而得到由所述层级标准化地址组成的标准化地址库。进一步的,所述向量匹配模块进一步用于在所述标准化地址库对应的词向量库中查找获得所述待处理地理地址的地址词对应的词向量,然后根据所述待处理地理地址对应的词向量,基于预设的分层级地址词词典,通过词袋方式生成所述待处理地理地址的地址向量。本专利技术实施例提供的对地理地址进行标准化的装置,还包括:第二配置模块,用于通过下述步骤获得所述词向量库:把所述标准化地址库中的所有地理地址的地本文档来自技高网...

【技术保护点】
1.一种对地理地址进行标准化的方法,其特征在于,包括:接收一待处理地理地址;在预定义的标准化地址库中查找与该待处理地理地址相似度最高的标准地址作为第一标准地址,相应的相似度作为第一相似度,当所述第一相似度大于预定的第一阈值,则确定该第一标准地址是所述待处理地理地址的标准化地址。

【技术特征摘要】
1.一种对地理地址进行标准化的方法,其特征在于,包括:接收一待处理地理地址;在预定义的标准化地址库中查找与该待处理地理地址相似度最高的标准地址作为第一标准地址,相应的相似度作为第一相似度,当所述第一相似度大于预定的第一阈值,则确定该第一标准地址是所述待处理地理地址的标准化地址。2.根据权利要求1所述的方法,其特征在于,还包括:当所述第一相似度不大于预定的第一阈值,则生成所述待处理地理地址的地址向量;在所述标准化地址库对应的标准地址向量库中查找与所述待处理地理地址相似度最高的标准地址向量,相应的相似度作为第二相似度,当所述第二相似度大于预定的第二阈值,则确定所查找的标准地址向量对应的第二标准地址是所述地理地址的标准化地址。3.根据权利要求2所述的方法,其特征在于,还包括:当所述第二相似度不大于所述第二阈值,且所述第一相似度和所述第二相似度的加权平均值大于预定的第三阈值,则确定所述第一相似度和所述第二相似度中较大者对应的标准地址是所述待处理地理地址的标准化地址。4.根据权利要求1所述的方法,其特征在于,标准化地址库通过下述步骤获得:接收样本地理地址集;对样本地理地址集进行预处理;基于地址词典读取所述地理地址集中的地理地址的地址键码及相应层级,并基于地址键码的层级去除其中不符合层级要求的地址键码,获得该地理地址的由所述地址键码分隔的层级标准化地址,从而得到由所述层级标准化地址组成的标准化地址库。5.根据权利要求2所述的方法,其特征在于,生成所述待处理地理地址的地址向量包括:在所述标准化地址库对应的词向量库中查找获得所述待处理地理地址的地址词对应的词向量;根据所述待处理地理地址对应的词向量,基于预设的分层级地址词词典,通过词袋方式生成所述待处理地理地址的地址向量。6.根据权利要求5所述的方法,其特征在于,所述词向量库通过下述步骤获得:把所述标准化地址库中的所有地理地址的地址词转换成词向量,词向量的值是对应地址词的权重系数,所述权重系数是基于该地址词的上下文语义分配的,从而获得所述标准化地址库对应的词向量库。7.根据权利要求6所述的方法,其特征在于,所述地址向量库通过下述步骤获得:根据所述标准化地址库中的地理地址对应的词向量,基于预设的分层级地址词词典,通过词袋方式生成所述标准化地址库中的地理地址的地址向量,从而获得由地址向量组成的地址向量库。8.根据权利要求5或7所述的方法,其特征在于,所述预设的分层级地址词词典是按照地址层级分层的多维向量,其中每一层表示一个地址层级且具有多个维度,每一层中包含有标准化地址库中存在的该层对应的地址层级的所有地址词种类,每一个地址词种类用该层级的一个维度表示。9.根据权利要求2或7所述的方法,其特征在于,在所述地址向量库中,每个地址向量对应有n个记录,其中该n个记录的主键分别与该地址向量所对应的地址的n级地址表示相对应,n小于等于地址的层级数,在n级地址表示中,第1级地址表示为地址本身,其后每一级地址表示为去除其上一级地址表示中最高的层级序号对应的层级地址词所余下的地址,在所述标准化地址库对应的标准地址向量库中查找与所述待处理地理地址相似度最高的标准地址向量包括:在标准地址向量库中用所述待处理地理地址的n级地址表示逐级查找对应主键,直至找到相对应的主键并获取其所对应的记录中的地址向量,然后计算该地址向量与待处理地理地址的地址向量的相似度。10.根据权利要求1所述的方法,其特征在于,所述第一标准地址是基于所述标准化地址库对应的倒排索引查找获得的,所述倒排索引是基于所述标准化地址库中的所有地理地址的地址词组成的地址词串建立的。11.根据权利要求1所述的方法,其特征在于,接收所述待处理地理地址还包括:对所述待处理地理地址进行预处理,其中,所述预处理包括简繁转换、全角半角转换、去除标点符号以及去除特殊字符,其中,当所述待处理地理地址用汉语表示,所述预处理还包括对所述待处理地理地址进行分词获得其对应的地址词。12.一种对地理地址进行标准化的装置,其特征在于,包括:接收模块,用于接收一待处理地理地址;...

【专利技术属性】
技术研发人员:梅尚健罗尚勇游正朋
申请(专利权)人:北京京东尚科信息技术有限公司北京京东世纪贸易有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1