【技术实现步骤摘要】
地址模糊匹配方法、地址处理方法、装置和电子设备
[0001]本申请涉及文本处理
,更为具体地说,涉及一种地址模糊匹配方法、用于金融反欺诈的地址处理方法、装置和电子设备。
技术介绍
[0002]随着科学技术的不断发展进步,各种欺诈手段和方式也层出不穷,特别是在金融领域,因各种诈骗手段损失的资金高达数十亿。为了减少损失,需要从众多申请者中识别出欺诈分子。如何识别各种欺诈分子,则需要对欺诈手段的特点进行分析。
[0003]在金融领域中,欺诈分子大多会用相同或相似的手机号码、地址、名称等进行团伙式的贷款业务申请,贷款审批人员通过人工很难在众多申请中识别出伪造或是重复使用同一信息的申请。所以,这就需要借助于一种技术,制定一些规则,收集一些数据来识别出团伙欺诈分子的申请,这种方法就是金融反欺诈领域的模糊匹配,最重要的是地址模糊匹配,将“伪装”的团伙地址遁于无形。
[0004]因此,期望提供一种能够识别非结构化地址信息,并且针对金融反欺诈场景具有较好的识别作用的地址模糊匹配方法和地址处理方法。
技术实现思路
[0005]为了解决上述技术问题,提出了本申请。本申请的实施例提供了一种地址模糊匹配方法和用于金融反欺诈的地址处理方法、装置和电子设备,其通过基于规则来对分词模糊匹配技术进行优化,实现了金融领域地址匹配中的较高的准确率。
[0006]根据本申请的一方面,提供了一种地址模糊匹配方法,包括:对待处理的地址文本进行切词;对切词后的地址文本进行地址标准化处理;以及,通过基于规则的相似度算法 ...
【技术保护点】
【技术特征摘要】
1.一种地址模糊匹配方法,其特征在于,包括:对待处理的地址文本进行切词;对切词后的地址文本进行地址标准化处理;以及通过基于规则的相似度算法确定经过标准化处理的地址文本的相似度。2.如权利要求1所述的地址模糊匹配方法,其特征在于,对待处理的地址文本进行切词包括:按照标准地址结构对待处理的地址文本进行切词,所述标准地址的数据结构包括属于行政区划的省、市、区县和乡镇四个地址要素和属于详细地址的街道、小区和楼栋三个地址要素。3.如权利要求2所述的地址模糊匹配方法,其特征在于,对待处理的地址文本进行切词包括:使用双向最大匹配算法按照所述标准地址结构对待处理的地址文本进行切词。4.如权利要求2所述的地址模糊匹配方法,其特征在于,对切词后的地址文本进行地址标准化处理包括:对切词后的地址文本基于词库来标注属于行政区划的地址要素;以及,对于未能基于词库来进行标注的地址文本,使用预测算法来预测属于行政区划的地址要素的概率。5.如权利要求2所述的地址模糊匹配方法,其特征在于,对切词后的地址文本进行地址标准化处理进一步包括:通过采用树形查找算法进行遍历查找来对属于行政区划的地址要素进行补齐;和/或对属于详细地址的小区地址要素进行细化处理。6.如权利要求1所述的地址模糊匹配方法,其特征在于,通过基于规则的相似度算法确定经过标准化处理的地址文本的相似度包括:对待比较的经过标准化处理的两个地址文本进行分段;设置每个分段的相应权重;计算两个地址文本的每两个对应分段之间的编辑距离;以及,计算每个分段之间的编辑距离与权重的乘积之和以获得所述两个地址文本之间的相似度。7.如权利要求6所述的地址模糊匹配方法,其特征在于,所述地址文本的分段处理包括:行政区划的四个地址要素为0段,其中省地址要素为1段,市地址要素为2段,区县地址要素为3段且乡镇地址要素为4段;详细地址的街道地址要素为5段,小区地址要素为6段,且楼栋地址要素为7段。8.如权利要求7所述的地址模糊匹配方法,其特征在于,计算两个地址文本的每两个对应分段之间的编辑距离包括:步骤一:比较两个地址是否完全相同,如果完全相同,则计算结束,返回相似度为1;如果不相同,则执行步骤二,判断0段地址是否相同;步骤二:判断0段地址是否相同,如果不相同,则计算结束,返回相似度为0;如果相同,则0段的相似度为1,则执行步骤三,判断5段地址是否相同;
步骤三:判断5段地址是否都非空,如果5段地址一个为空或都为空,执行步骤四,计算5
‑
7段相似度;如果5段地址都不为空,计算5段地址相似度,执行步骤五,计算5
‑
7段相似度;步骤四:判断6段地址是否都为空,如果6段地址都为空,则返回5
‑
7段相似度为0;如果6段地址都不为空,计算6段地址...
【专利技术属性】
技术研发人员:武燕,崔峰,宋明惠,
申请(专利权)人:中科聚信信息技术北京有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。