【技术实现步骤摘要】
地址文本的相似度计算方法及装置
本申请涉及计算机应用领域,尤其涉及一种地址文本的相似度计算方法及装置。
技术介绍
在相关技术中,地址的相似度计算,在很多场景都会用到。比如,在金融领域的业务申请过程中,需要把该用户输入的地址和系统中存储的历史上使用过的地址做匹配,来进行相似度计算,进而通过相似度计算的结果来验证该用户提交的地址是否曾经使用过。然而,在实际应用中,用户输入的地址通常具有多样性,不同的人在表达同一地址时可能存在各种不同的方式;因此,如何有效的屏蔽同一地址所存在的各种不同的表达方式对地址相似度计算结果的影响,来提升地址相似度计算结果的准确度,则具有十分重要的意义。
技术实现思路
本申请提出一种地址文本的相似度计算方法,所述方法包括:针对第一地址文本以及第二地址文本分别进行地址结构解析,以将所述第一地址文本以及所述第二地址文本拆分成若干个一一对应的地址字段;依次计算所述第一地址文本中的地址字段与所述第二地址文本中对应的地址字段之间的文本相似度,并对所述第一地址文本中的各地址字段对应的所述文本相似度进行求和得到第一相似度评分;依次计算所述第一地址文本中的地址字段与所述第二地址文本中的各地址字段之间的文本相似度的最大值,并对所述第一地址文本中的各地址字段对应的所述最大值进行求和得到第二相似度评分;计算所述第一相似度评分与所述第二相似度评分中的最大值,并将所述第一相似度评分与所述第二相似度评分中的最大值设置为所述第一地址文本与所述第二地址文本的文本相似度评分。本申请还提出一种地址文本的相似度计算装置,所述装置包括:解析模块,针对第一地址文本以及第二地址文本分别 ...
【技术保护点】
1.一种地址文本的相似度计算方法,其特征在于,所述方法包括:针对第一地址文本以及第二地址文本分别进行地址结构解析,以将所述第一地址文本以及所述第二地址文本拆分成若干个一一对应的地址字段;依次计算所述第一地址文本中的地址字段与所述第二地址文本中对应的地址字段之间的文本相似度,并对所述第一地址文本中的各地址字段对应的所述文本相似度进行求和得到第一相似度评分;依次计算所述第一地址文本中的地址字段与所述第二地址文本中的各地址字段之间的文本相似度的最大值,并对所述第一地址文本中的各地址字段对应的所述最大值进行求和得到第二相似度评分;计算所述第一相似度评分与所述第二相似度评分中的最大值,并将所述第一相似度评分与所述第二相似度评分中的最大值设置为所述第一地址文本与所述第二地址文本的文本相似度评分。
【技术特征摘要】
1.一种地址文本的相似度计算方法,其特征在于,所述方法包括:针对第一地址文本以及第二地址文本分别进行地址结构解析,以将所述第一地址文本以及所述第二地址文本拆分成若干个一一对应的地址字段;依次计算所述第一地址文本中的地址字段与所述第二地址文本中对应的地址字段之间的文本相似度,并对所述第一地址文本中的各地址字段对应的所述文本相似度进行求和得到第一相似度评分;依次计算所述第一地址文本中的地址字段与所述第二地址文本中的各地址字段之间的文本相似度的最大值,并对所述第一地址文本中的各地址字段对应的所述最大值进行求和得到第二相似度评分;计算所述第一相似度评分与所述第二相似度评分中的最大值,并将所述第一相似度评分与所述第二相似度评分中的最大值设置为所述第一地址文本与所述第二地址文本的文本相似度评分。2.根据权利要求1所述的方法,其特征在于,所述第一地址文本以及所述第二地址文本拆分出的地址字段分别预配置了权重值;其中,所述第一地址文本以及所述第二地址文本拆分出的一一对应的地址字段配置的权重值相同;所述权重值表征所述地址字段对所述文本相似度的重要程度;所述依次计算所述第一地址文本中的地址字段,与所述第二地址文本中对应的地址字段之间的文本相似度,并对所述第一地址文本中的各地址字段对应的所述文本相似度进行求和得到第一相似度评分,包括:依次计算所述第一地址文本中的地址字段,与所述第二地址文本中对应的地址字段之间的文本相似度,并将所述第一地址文本中的各地址字段对应的所述文本相似度乘以所述权重值后进行求和得到第一相似度评分。3.根据权利要求1所述的方法,其特征在于,所述方法还包括:将所述第一地址文本以及所述第二地址文本分别转换为经纬度坐标;基于转换得到的经纬度坐标计算与所述第一地址文本以及所述第二地址文本对应的地址之间的平面距离;基于所述第一地址文本以及所述第二地址文本的平面距离,以及所述第一地址文本以及所述第二地址文本的文本相似度评分,判定所述第一地址文本与所述第二地址文本对应的地址是否相同。4.根据权利要求3所述的方法,其特征在于,所述基于所述第一地址文本以及所述第二地址文本的平面距离,以及所述第一地址文本以及所述第二地址文本的文本相似度,判定所述第一地址文本与所述第二地址文本对应的地址是否相同,包括:判断所述第一地址文本以及所述第二地址文本的平面距离是否小于预设的第一阈值;当所述平面距离小于所述第一阈值时,判定所述第一地址文本与所述第二地址文本对应的地址相同;当所述平面距离不小于所述第一阈值,则进一步判断所述第一地址文本以及所述第二地址文本的文本相似度评分是否大于预设的第二阈值,并在所述文本相似度评分大于预设的第二阈值时,判定所述第一地址文本与所述第二地址文本对应的地址相同。5.根据权利要求3所述的方法,其特征在于,还包括:如果未成功将所述第一地址文本和/或所述第二地址文本转换成经纬度坐标,则判断所述第一地址文本以及所述第二地址文本的文本相似度评分是否大于预设的第二阈值,并在所述文本相似度评分大于所述第二阈值时,判定所述第一地址文本与所述第二地址文本对应的地址相同。6.根据权利要求5所述的方法,其特征在于,还包括:将所述第一地址文本以及第二地址文本拆分出的地址字段与预配置的恶意地址识别规则进行匹配;当所述第一地址文本以及第二地址文本拆分出的一个或者多个地址字段命中所述恶意地址识别规则时,判定所述第一地址文本与所述第二地址文本对应的地址不相同。7.根据权利要求6所述的方法,其特征在于,所述第一地址文本以及第二地址文本拆分出的地址字段包括省级行政区字段、市级行政区字段、县级行政区字段以及主路字段;所述恶意地址识别规则包括:判断所述第一地址文本以及第二地址文本拆分出的省级行政区字段、市级行政区字段、县级行政区字段对应的关键词是否相同;如果否,进一步判断所述省级行政区字段、所述市级行政区字段、所述县级行政区字段以外的其它字段对应的关键词是否相同,并在所述省级行政区字段、所述市级行政区字段、所述县级行政区字段以外的其它字段对应的关键词相同时,判定所述第一地址文本与所述第二地址文本中存在恶意地址;以及,计算所述第一地址文本以及第二地址文本拆分出的各地址字段对应的关键词之间的文本相似度,并判断计算出的所述主路字段对应的关键词之间的文本相似度是否大于预设阈值;如果否,进一步判断所述主路字段以外的其它字段对应的关键词之间的文本相似度是否大于所述预设阈值,并在所述主路字段以外的其它字段对应的关键词...
【专利技术属性】
技术研发人员:蒋贤礼,
申请(专利权)人:阿里巴巴集团控股有限公司,
类型:发明
国别省市:开曼群岛,KY
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。