多路融合地址相似度计算方法、装置、存储介质和设备制造方法及图纸

技术编号:37986813 阅读:21 留言:0更新日期:2023-06-30 10:01
本发明专利技术提供一种多路融合地址相似度计算方法、装置、存储介质和设备,所述方法包括:接收待确定相似度的地址文本对,地址文本对包括多个地址元素;将地址文本对与标准地址库进行比对后切分为第一地址文本对和第二地址文本对,计算第一地址文本对的相似度,获得第一相似度得分;将第二地址文本对输入自然语言处理模型按照地址元素进行级别划分,得到标准化后的第二地址文本对;计算标准化后的第二地址文本对的相似度,获得第二相似度得分;计算第二地址文本对的字符串相似度,获得第三相似度得分;将第一相似度得分、第二相似度得分和第三相似度得分融合后,获得地址文本对的相似度得分。本发明专利技术能够提高地址文本对的相似度得分的准确率和速度。准确率和速度。准确率和速度。

【技术实现步骤摘要】
多路融合地址相似度计算方法、装置、存储介质和设备


[0001]本专利技术涉及人工智能
,尤其涉及一种多路融合地址相似度计算方法、装置、存储介质和设备。

技术介绍

[0002]当前,在金融、保险等领域中,地址相似度计算的技术被广泛使用。比如,反欺诈场景,利用相似度计算挖掘同地址关系,然后会依赖这些关系做社群划分。另外会基于个体特征和团伙特征识别欺诈客户。
[0003]目前常用的地址相似度判断的方法主要有:
[0004]利用编辑距离计算两段文本的相似程度,此种方式忽略了文本的语义内涵,例如“南京市解放大道50号”和“北京市解放大道50号”,从文本上10个字符中仅相差1个字符,二者的编辑距离相同,但是实际上完全不指代同一地址或是接近的地址。因此,如果利用编辑距离进行地址相似度的判断,则可信度和准确度都较低。

技术实现思路

[0005]有鉴于此,本专利技术提供一种多路人融合地址相似度计算方法、装置、存储介质和设备,能够快速且准确的进行地址相似度的计算。
[0006]第一方面,本专利技术实施例提供一种多路融合本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种多路融合地址相似度计算方法,其特征在于,所述方法包括:接收待确定相似度的地址文本对,所述地址文本对包括多个地址元素;将所述地址文本对与标准地址库进行比对,将所述地址文本对切分为第一地址文本对和第二地址文本对,其中,所述第一地址文本对指的是所述地址文本对中能与所述标准地址库匹配的地址元素,所述第二地址文本对指的是不能与所述标准地址库匹配的地址元素;计算所述第一地址文本对中同一级别的地址元素之间的相似度,获得第一相似度得分;将所述第二地址文本对输入自然语言处理模型按照地址元素进行级别划分,得到标准化后的第二地址文本对;计算所述标准化后的第二地址文本对中同一级别的地址元素之间的相似度,获得第二相似度得分;计算所述第二地址文本对的字符串相似度,获得第三相似度得分;将所述第一相似度得分、第二相似度得分和第三相似度得分融合后,获得所述地址文本对的相似度得分。2.根据权利要求1所述的方法,其特征在于,按照级别从高到低依次计算所述第一地址文本对中同一级别的地址元素之间的相似度。3.根据权利要求2所述的方法,其特征在于,当所述第一地址文本对中上一级别的地址元素之间的相似度得分大于阈值时,计算下一级别的地址元素之间的相似度得分。4.根据权利要求3所述的方法,其特征在于,当所述第一地址文本对中上一级别的地址元素之间的相似度得分不大于阈值时,则当前级别及往下级别的地址元素的相似度得分为0。5.根据权利要求4所述的方法,其特征在于,将第一地址文本对中不同级别的地址元素之间的相似度得分乘以各级别对应权重后进行求和,获得第一相似度得分。6.根据权利要求1所述的方法,其特征在于,将第二地址文本对中不同级别的地址元素之间的相似度得分乘以各级别对应权重后进行加...

【专利技术属性】
技术研发人员:杨娟杨再飞翟士丹王道广于政
申请(专利权)人:北京海致星图科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1