地址模糊匹配方法、地址处理方法、装置和电子设备制造方法及图纸

技术编号:33079457 阅读:54 留言:0更新日期:2022-04-15 10:28
本申请涉及一种地址模糊匹配方法和用于金融反欺诈的地址处理方法、装置和电子设备。该地址模糊匹配方法包括:对待处理的地址文本进行切词;对切词后的地址文本进行地址标准化处理;以及,通过基于规则的相似度算法确定经过标准化处理的地址文本的相似度。这样,通过基于规则来对分词模糊匹配技术进行优化,可以实现金融领域地址匹配中的较高的准确率。实现金融领域地址匹配中的较高的准确率。实现金融领域地址匹配中的较高的准确率。

【技术实现步骤摘要】
地址模糊匹配方法、地址处理方法、装置和电子设备


[0001]本申请涉及文本处理
,更为具体地说,涉及一种地址模糊匹配方法、用于金融反欺诈的地址处理方法、装置和电子设备。

技术介绍

[0002]随着科学技术的不断发展进步,各种欺诈手段和方式也层出不穷,特别是在金融领域,因各种诈骗手段损失的资金高达数十亿。为了减少损失,需要从众多申请者中识别出欺诈分子。如何识别各种欺诈分子,则需要对欺诈手段的特点进行分析。
[0003]在金融领域中,欺诈分子大多会用相同或相似的手机号码、地址、名称等进行团伙式的贷款业务申请,贷款审批人员通过人工很难在众多申请中识别出伪造或是重复使用同一信息的申请。所以,这就需要借助于一种技术,制定一些规则,收集一些数据来识别出团伙欺诈分子的申请,这种方法就是金融反欺诈领域的模糊匹配,最重要的是地址模糊匹配,将“伪装”的团伙地址遁于无形。
[0004]因此,期望提供一种能够识别非结构化地址信息,并且针对金融反欺诈场景具有较好的识别作用的地址模糊匹配方法和地址处理方法。

技术实现思路

[0005]为了解决上述技术问题,提出了本申请。本申请的实施例提供了一种地址模糊匹配方法和用于金融反欺诈的地址处理方法、装置和电子设备,其通过基于规则来对分词模糊匹配技术进行优化,实现了金融领域地址匹配中的较高的准确率。
[0006]根据本申请的一方面,提供了一种地址模糊匹配方法,包括:对待处理的地址文本进行切词;对切词后的地址文本进行地址标准化处理;以及,通过基于规则的相似度算法确定经过标准化处理的地址文本的相似度。
[0007]在上述地址模糊匹配方法中,对待处理的地址文本进行切词包括:按照标准地址结构对待处理的地址文本进行切词,所述标准地址的数据结构包括属于行政区划的省、市、区县和乡镇四个地址要素和属于详细地址的街道、小区和楼栋三个地址要素。
[0008]在上述地址模糊匹配方法中,对待处理的地址文本进行切词包括:使用双向最大匹配算法按照所述标准地址结构对待处理的地址文本进行切词。
[0009]在上述地址模糊匹配方法中,对切词后的地址文本进行地址标准化处理包括:对切词后的地址文本基于词库来标注属于行政区划的地址要素;以及,对于未能基于词库来进行标注的地址文本,使用预测算法来预测属于行政区划的地址要素的概率。
[0010]在上述地址模糊匹配方法中,对切词后的地址文本进行地址标准化处理进一步包括:通过采用树形查找算法进行遍历查找来对属于行政区划的地址要素进行补齐;和/或,对属于详细地址的小区地址要素进行细化处理。
[0011]在上述地址模糊匹配方法中,通过基于规则的相似度算法确定经过标准化处理的地址文本的相似度包括:对待比较的经过标准化处理的两个地址文本进行分段;设置每个
分段的相应权重;计算两个地址文本的每两个对应分段之间的编辑距离;以及,计算每个分段之间的编辑距离与权重的乘积之和以获得所述两个地址文本之间的相似度。
[0012]在上述地址模糊匹配方法中,所述地址文本的分段处理包括:行政区划的四个地址要素为0段,其中省地址要素为1段,市地址要素为2段,区县地址要素为3段且乡镇地址要素为4段;详细地址的街道地址要素为5段,小区地址要素为6段,且楼栋地址要素为7段。
[0013]在上述地址模糊匹配方法中,计算两个地址文本的每两个对应分段之间的编辑距离包括:步骤一:比较两个地址是否完全相同,如果完全相同,则计算结束,返回相似度为1;如果不相同,则执行步骤二,判断0段地址是否相同;步骤二:判断0段地址是否相同,如果不相同,则计算结束,返回相似度为0;如果相同,则0段的相似度为1,则执行步骤三,判断5段地址是否相同;步骤三:判断5段地址是否都非空,如果5段地址一个为空或都为空,执行步骤四,计算5

7段相似度;如果5段地址都不为空,计算5段地址相似度,执行步骤五,计算5

7段相似度;步骤四:判断6段地址是否都为空,如果6段地址都为空,则返回5

7段相似度为0;如果6段地址都不为空,计算6段地址相似度,如果6段相似度大于0.85,则5段相似度为1,7段相似度为1,如果6段相似度小于0.85,则5段相似度为0,7段相似度为0;如果6段一个为空,7段地址都不为空,计算7段地址相似度,如果7段相似度大于0.85,则5段相似度为1,6段相似度为1,如果7段相似度小于0.85,则5段相似度为0,6段相似度为0;如果7段地址一个为空或都为空,则5

7段相似度为0;步骤五:判断6段地址是否都为空,如果6段地址都为空,则返回5

7段相似度为0;如果6段地址都不为空,计算6段地址相似度,如果6段相似度大于0.85,则7段相似度为1,如果6段相似度小于0.85,则7段相似度为0;如果6段一个为空,7段地址都不为空,计算7段地址相似度,如果7段相似度大于0.85,则6段相似度为1,如果7段相似度小于0.85,则6段相似度为0;如果7段地址一个为空或都为空,则6

7段相似度为0。
[0014]在上述地址模糊匹配方法中,设置每个分段的相应权重为0段权重是0.2,5段权重是0.3,6段权重是0.3且7段权重是0.2。
[0015]根据本申请的另一方面,提供了一种用于金融反欺诈的地址处理方法,包括:使用如上所述的地址模糊匹配方法确定多个用户的地址相似度;以及,基于所述多个用户的地址相似度结果判定所述多个用户是否属于金融欺诈。
[0016]在上述用于金融反欺诈的地址处理方法中,进一步包括:在对切词后的地址文本进行地址标准化处理之后,确定所述标准化的地址文本是否存在套叠地址,所述套叠地址包括省份套叠、城市套叠和区县套叠;以及,响应于所述标准化的地址文本存在套叠地址,将位置在前面的地址信息以位置在后面的地址信息进行替换。
[0017]在上述用于金融反欺诈的地址处理方法中,基于所述多个用户的地址相似度结果判定所述多个用户是否属于金融欺诈包括:计算一组两个用户之间的地址相似度;以及,响应于所述两个地址之间的相似度大于等于第一阈值,确定为同一地址。
[0018]在上述用于金融反欺诈的地址处理方法中,基于所述多个用户的地址相似度结果判定所述多个用户是否属于金融欺诈包括:计算一组多个用户之间的每两个用户的地址相似度;以及,响应于所述两个地址之间的相似度大于等于第二阈值,确定该组用户的地址为同一地址。
[0019]根据本申请的再一方面,提供了一种地址模糊匹配装置,包括:切词单元,用于对待处理的地址文本进行切词;标准化单元,用于对切词后的地址文本进行地址标准化处理;
以及,计算单元,用于通过基于规则的相似度算法确定经过标准化处理的地址文本的相似度。
[0020]根据本申请的又一方面,提供了一种用于金融反欺诈的地址处理装置,包括:相似度确定单元,使用如上所述的地址模糊匹配装置确定多个用户的地址相似度;以及,金融欺诈确定单元,用于基于所本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种地址模糊匹配方法,其特征在于,包括:对待处理的地址文本进行切词;对切词后的地址文本进行地址标准化处理;以及通过基于规则的相似度算法确定经过标准化处理的地址文本的相似度。2.如权利要求1所述的地址模糊匹配方法,其特征在于,对待处理的地址文本进行切词包括:按照标准地址结构对待处理的地址文本进行切词,所述标准地址的数据结构包括属于行政区划的省、市、区县和乡镇四个地址要素和属于详细地址的街道、小区和楼栋三个地址要素。3.如权利要求2所述的地址模糊匹配方法,其特征在于,对待处理的地址文本进行切词包括:使用双向最大匹配算法按照所述标准地址结构对待处理的地址文本进行切词。4.如权利要求2所述的地址模糊匹配方法,其特征在于,对切词后的地址文本进行地址标准化处理包括:对切词后的地址文本基于词库来标注属于行政区划的地址要素;以及,对于未能基于词库来进行标注的地址文本,使用预测算法来预测属于行政区划的地址要素的概率。5.如权利要求2所述的地址模糊匹配方法,其特征在于,对切词后的地址文本进行地址标准化处理进一步包括:通过采用树形查找算法进行遍历查找来对属于行政区划的地址要素进行补齐;和/或对属于详细地址的小区地址要素进行细化处理。6.如权利要求1所述的地址模糊匹配方法,其特征在于,通过基于规则的相似度算法确定经过标准化处理的地址文本的相似度包括:对待比较的经过标准化处理的两个地址文本进行分段;设置每个分段的相应权重;计算两个地址文本的每两个对应分段之间的编辑距离;以及,计算每个分段之间的编辑距离与权重的乘积之和以获得所述两个地址文本之间的相似度。7.如权利要求6所述的地址模糊匹配方法,其特征在于,所述地址文本的分段处理包括:行政区划的四个地址要素为0段,其中省地址要素为1段,市地址要素为2段,区县地址要素为3段且乡镇地址要素为4段;详细地址的街道地址要素为5段,小区地址要素为6段,且楼栋地址要素为7段。8.如权利要求7所述的地址模糊匹配方法,其特征在于,计算两个地址文本的每两个对应分段之间的编辑距离包括:步骤一:比较两个地址是否完全相同,如果完全相同,则计算结束,返回相似度为1;如果不相同,则执行步骤二,判断0段地址是否相同;步骤二:判断0段地址是否相同,如果不相同,则计算结束,返回相似度为0;如果相同,则0段的相似度为1,则执行步骤三,判断5段地址是否相同;
步骤三:判断5段地址是否都非空,如果5段地址一个为空或都为空,执行步骤四,计算5

7段相似度;如果5段地址都不为空,计算5段地址相似度,执行步骤五,计算5

7段相似度;步骤四:判断6段地址是否都为空,如果6段地址都为空,则返回5

7段相似度为0;如果6段地址都不为空,计算6段地址...

【专利技术属性】
技术研发人员:武燕崔峰宋明惠
申请(专利权)人:中科聚信信息技术北京有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1