地址文本的相似度计算方法及装置制造方法及图纸

技术编号:19424879 阅读:18 留言:0更新日期:2018-11-14 10:32
本申请提供一种地址文本的相似度计算方法,包括:针对第一地址文本以及第二地址文本分别进行地址结构解析,以将第一地址文本以及第二地址文本拆分成若干个一一对应的地址字段;依次计算第一地址文本中的地址字段,与第二地址文本中对应的地址字段之间的文本相似度,并对第一地址文本中的各地址字段对应的所述文本相似度进行求和得到第一相似度评分;依次计算第一地址文本中的地址字段,与第二地址文本中的各地址字段之间的文本相似度的最大值,并对第一地址文本中的各地址字段对应的所述最大值进行求和得到第二相似度评分;计算第一相似度评分与第二相似度评分中的最大值,并将该最大值设置为第一地址文本与第二地址文本的文本相似度评分。

【技术实现步骤摘要】
地址文本的相似度计算方法及装置
本申请涉及计算机应用领域,尤其涉及一种地址文本的相似度计算方法及装置。
技术介绍
在相关技术中,地址的相似度计算,在很多场景都会用到。比如,在金融领域的业务申请过程中,需要把该用户输入的地址和系统中存储的历史上使用过的地址做匹配,来进行相似度计算,进而通过相似度计算的结果来验证该用户提交的地址是否曾经使用过。然而,在实际应用中,用户输入的地址通常具有多样性,不同的人在表达同一地址时可能存在各种不同的方式;因此,如何有效的屏蔽同一地址所存在的各种不同的表达方式对地址相似度计算结果的影响,来提升地址相似度计算结果的准确度,则具有十分重要的意义。
技术实现思路
本申请提出一种地址文本的相似度计算方法,所述方法包括:针对第一地址文本以及第二地址文本分别进行地址结构解析,以将所述第一地址文本以及所述第二地址文本拆分成若干个一一对应的地址字段;依次计算所述第一地址文本中的地址字段与所述第二地址文本中对应的地址字段之间的文本相似度,并对所述第一地址文本中的各地址字段对应的所述文本相似度进行求和得到第一相似度评分;依次计算所述第一地址文本中的地址字段与所述第二地址文本中的各地址字段之间的文本相似度的最大值,并对所述第一地址文本中的各地址字段对应的所述最大值进行求和得到第二相似度评分;计算所述第一相似度评分与所述第二相似度评分中的最大值,并将所述第一相似度评分与所述第二相似度评分中的最大值设置为所述第一地址文本与所述第二地址文本的文本相似度评分。本申请还提出一种地址文本的相似度计算装置,所述装置包括:解析模块,针对第一地址文本以及第二地址文本分别进行地址结构解析,以将所述第一地址文本以及所述第二地址文本拆分成若干个一一对应的地址字段;第一计算模块,依次计算所述第一地址文本中的地址字段与所述第二地址文本中对应的地址字段之间的文本相似度,并对所述第一地址文本中的各地址字段对应的所述文本相似度进行求和得到第一相似度评分;第二计算模块,依次计算所述第一地址文本中的地址字段与所述第二地址文本中的各地址字段之间的文本相似度的最大值,并对所述第一地址文本中的各地址字段对应的所述最大值进行求和得到第二相似度评分;设置模块,计算所述第一相似度评分与所述第二相似度评分中的最大值,并将所述第一相似度评分与所述第二相似度评分中的最大值设置为所述第一地址文本与所述第二地址文本的文本相似度评分。本申请中,提出了一种新的地址文本的相似度算法,通过对第一地址文本以及第二地址文本分别进行地址结构解析,将第一地址文本以及第二地址文本拆分成若干个一一对应的地址字段,并依次计算第一地址文本中的地址字段,与第二地址文本中与该地址字段对应的地址字段之间的文本相似度,对第一地址文本中的各地址字段对应的所述文本相似度进行求和得到第一相似度评分;以及,依次计算第一地址文本中的地址字段,与所述第二地址文本中的各地址字段之间的文本相似度的最大值,并对第一地址文本中的各地址字段对应的所述最大值进行求和得到第二相似度评分;然后进一步计算第一相似度评分与第二相似度评分中的最大值,并将计算出的所述第一相似度评分与所述第二相似度评分中的最大值设置为该第一地址文本与该第二地址文本的文本相似度评分;由于该算法中将第一地址文本中的地址字段与第二地址文本中相对应的地址字段,以及第二地址文本拆分出的各地址字段分别进行了文本相似度计算,既考虑到了第一地址文本与第二地址文本中一一对应的地址字段之间的相似性,又充分考虑到了第一地址文本中的地址字段与第二地址文本上下文中的其它各地址字段之间的相似性,因此在第一地址文本与第二地址文本为同一地址的不同表达的应用场景下,可以显著提升最终计算出的相似度评分的准确度。附图说明图1是本申请一实施例示出的一种地址文本的相似度计算方法的流程图;图2是本申请一实施例示出的一种地址文本的相似度计算装置的逻辑框图;图3是本申请一实施例示出的承载所述文本相似度的计算装置的终端设备所涉及的硬件结构图。具体实施方式在相关技术中,在计算地址文本的相似度时,通常采用如下的两种方法来实现:第一种,先对待匹配的第一地址文本和第二地址文本分别进行分词处理,将第一地址文本和第二地址文本拆分成若干个一一对应的文本分词,再将分词之后的这些一一对应的文本分词分别进行文本相似度计算,然后对计算结果进行求和得到第一地址文本和第二地址文本的文本相似度。第二种,先对待匹配的第一地址文本和第二地址文本分别进行分词处理,然后计算每一个分词处理得到的文本分词的tf-idf值,然后使用每一个分词处理得到的文本分词对应的tf-idf值组成的向量来代表地址,进而可以将第一地址文本和第二地址文本转换为向量,再计算这两两个向量之间的相似性(比如可以计算余弦距离,等等)。然而,由于地址文本比普通字符串蕴含了更多的信息,比如结构、语义,因此用户输入的地址通常具有多样性,不同的人在表达同一地址时可能存在各种不同的方式;例如,以下是几个关于同一地址的不同表达的例子:1:明细程度的差异:广东省-广州市-越秀区东风东路713广东省广州市越秀区东风东路713号广发大厦33楼电子银行部2:汉字和数字的差异:云南省昆明市丰宁小区45栋4单元102云南省昆明市五华区丰宁小区45幢四单元102室3:行政区划变化:胶南市变为青岛市黄岛区青岛市胶南市人民路321号泰华步行街狮龙手机青岛狮龙电讯数码有限公司山东省青岛市黄岛区珠海街道人民路321号五星电器4:子公司和母公司:携银呼叫中心是远洋数据的子公司昆山市花桥镇顺陈路1号江苏携银呼叫中心有限公司江苏省苏州市昆山市花桥镇顺陈路一号远洋数据在这种情况下,通过以上示出的现有的相似度的计算方法,由于其并不考虑地址的上下文结构和语义信息,只考虑地址文本本身的相似度,因此在同一地址存在各种不同的表达方式的场景下,会造成文本相似度的计算结果的准确率极低的问题。例如,在现有方案下,将地址文本『上海市黄浦区制造局路455弄2号1311室』改成『上海市黄浦区哈哈哈哈路455弄2号1311室』,相似度是高的(>0.65);而地址文本『昆山市花桥镇顺陈路1号江苏携银呼叫中心有限公司』和『江苏省苏州市昆山市花桥镇顺陈路一号远洋数据』,是同一地址的不同表述,相似度却是低的(<0.4)。有鉴于此,本申请提出了一种新的地址文本的相似度算法,通过对第一地址文本以及第二地址文本分别进行地址结构解析,将第一地址文本以及第二地址文本拆分成若干个一一对应的地址字段,并依次计算第一地址文本中的地址字段,与第二地址文本中与该地址字段对应的地址字段之间的文本相似度,对第一地址文本中的各地址字段对应的所述文本相似度进行求和得到第一相似度评分;以及,依次计算第一地址文本中的地址字段,与所述第二地址文本中的各地址字段之间的文本相似度的最大值,并对第一地址文本中的各地址字段对应的所述最大值进行求和得到第二相似度评分;然后进一步计算第一相似度评分与第二相似度评分中的最大值,并将计算出的所述第一相似度评分与所述第二相似度评分中的最大值设置为该第一地址文本与该第二地址文本的文本相似度评分;由于该算法中将第一地址文本中的地址字段与第二地址文本中相对应的地址字段,以及第二地址文本拆分出的各本文档来自技高网...

【技术保护点】
1.一种地址文本的相似度计算方法,其特征在于,所述方法包括:针对第一地址文本以及第二地址文本分别进行地址结构解析,以将所述第一地址文本以及所述第二地址文本拆分成若干个一一对应的地址字段;依次计算所述第一地址文本中的地址字段与所述第二地址文本中对应的地址字段之间的文本相似度,并对所述第一地址文本中的各地址字段对应的所述文本相似度进行求和得到第一相似度评分;依次计算所述第一地址文本中的地址字段与所述第二地址文本中的各地址字段之间的文本相似度的最大值,并对所述第一地址文本中的各地址字段对应的所述最大值进行求和得到第二相似度评分;计算所述第一相似度评分与所述第二相似度评分中的最大值,并将所述第一相似度评分与所述第二相似度评分中的最大值设置为所述第一地址文本与所述第二地址文本的文本相似度评分。

【技术特征摘要】
1.一种地址文本的相似度计算方法,其特征在于,所述方法包括:针对第一地址文本以及第二地址文本分别进行地址结构解析,以将所述第一地址文本以及所述第二地址文本拆分成若干个一一对应的地址字段;依次计算所述第一地址文本中的地址字段与所述第二地址文本中对应的地址字段之间的文本相似度,并对所述第一地址文本中的各地址字段对应的所述文本相似度进行求和得到第一相似度评分;依次计算所述第一地址文本中的地址字段与所述第二地址文本中的各地址字段之间的文本相似度的最大值,并对所述第一地址文本中的各地址字段对应的所述最大值进行求和得到第二相似度评分;计算所述第一相似度评分与所述第二相似度评分中的最大值,并将所述第一相似度评分与所述第二相似度评分中的最大值设置为所述第一地址文本与所述第二地址文本的文本相似度评分。2.根据权利要求1所述的方法,其特征在于,所述第一地址文本以及所述第二地址文本拆分出的地址字段分别预配置了权重值;其中,所述第一地址文本以及所述第二地址文本拆分出的一一对应的地址字段配置的权重值相同;所述权重值表征所述地址字段对所述文本相似度的重要程度;所述依次计算所述第一地址文本中的地址字段,与所述第二地址文本中对应的地址字段之间的文本相似度,并对所述第一地址文本中的各地址字段对应的所述文本相似度进行求和得到第一相似度评分,包括:依次计算所述第一地址文本中的地址字段,与所述第二地址文本中对应的地址字段之间的文本相似度,并将所述第一地址文本中的各地址字段对应的所述文本相似度乘以所述权重值后进行求和得到第一相似度评分。3.根据权利要求1所述的方法,其特征在于,所述方法还包括:将所述第一地址文本以及所述第二地址文本分别转换为经纬度坐标;基于转换得到的经纬度坐标计算与所述第一地址文本以及所述第二地址文本对应的地址之间的平面距离;基于所述第一地址文本以及所述第二地址文本的平面距离,以及所述第一地址文本以及所述第二地址文本的文本相似度评分,判定所述第一地址文本与所述第二地址文本对应的地址是否相同。4.根据权利要求3所述的方法,其特征在于,所述基于所述第一地址文本以及所述第二地址文本的平面距离,以及所述第一地址文本以及所述第二地址文本的文本相似度,判定所述第一地址文本与所述第二地址文本对应的地址是否相同,包括:判断所述第一地址文本以及所述第二地址文本的平面距离是否小于预设的第一阈值;当所述平面距离小于所述第一阈值时,判定所述第一地址文本与所述第二地址文本对应的地址相同;当所述平面距离不小于所述第一阈值,则进一步判断所述第一地址文本以及所述第二地址文本的文本相似度评分是否大于预设的第二阈值,并在所述文本相似度评分大于预设的第二阈值时,判定所述第一地址文本与所述第二地址文本对应的地址相同。5.根据权利要求3所述的方法,其特征在于,还包括:如果未成功将所述第一地址文本和/或所述第二地址文本转换成经纬度坐标,则判断所述第一地址文本以及所述第二地址文本的文本相似度评分是否大于预设的第二阈值,并在所述文本相似度评分大于所述第二阈值时,判定所述第一地址文本与所述第二地址文本对应的地址相同。6.根据权利要求5所述的方法,其特征在于,还包括:将所述第一地址文本以及第二地址文本拆分出的地址字段与预配置的恶意地址识别规则进行匹配;当所述第一地址文本以及第二地址文本拆分出的一个或者多个地址字段命中所述恶意地址识别规则时,判定所述第一地址文本与所述第二地址文本对应的地址不相同。7.根据权利要求6所述的方法,其特征在于,所述第一地址文本以及第二地址文本拆分出的地址字段包括省级行政区字段、市级行政区字段、县级行政区字段以及主路字段;所述恶意地址识别规则包括:判断所述第一地址文本以及第二地址文本拆分出的省级行政区字段、市级行政区字段、县级行政区字段对应的关键词是否相同;如果否,进一步判断所述省级行政区字段、所述市级行政区字段、所述县级行政区字段以外的其它字段对应的关键词是否相同,并在所述省级行政区字段、所述市级行政区字段、所述县级行政区字段以外的其它字段对应的关键词相同时,判定所述第一地址文本与所述第二地址文本中存在恶意地址;以及,计算所述第一地址文本以及第二地址文本拆分出的各地址字段对应的关键词之间的文本相似度,并判断计算出的所述主路字段对应的关键词之间的文本相似度是否大于预设阈值;如果否,进一步判断所述主路字段以外的其它字段对应的关键词之间的文本相似度是否大于所述预设阈值,并在所述主路字段以外的其它字段对应的关键词...

【专利技术属性】
技术研发人员:蒋贤礼
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛,KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1