一种信贷反欺诈侦测模糊匹配算法制造技术

技术编号:19322101 阅读:44 留言:0更新日期:2018-11-03 11:44
本发明专利技术提供了一种信贷反欺诈侦测模糊匹配算法,本算法以相似度算法为基础,通过增加偏移量参数省略编辑距离算法,相比于传统模糊匹配算法,本算法极大地减少了内存等服务器资源的占用,运算效率提高将近10倍。同时,本发明专利技术优化了上述算法,即将相似度算法和Myers diff改良算法结合来计算模糊匹配结果,引入Myers diff改良算法,并将两个结果修正加权然后相加得到最终模糊匹配结果。本优化算法适合大部分数据差异较小,而且要求模糊匹配计算精度较高的场景。这样可以最小化迭代次数同时模糊匹配结果值相对精确。

A fuzzy matching algorithm for credit fraud detection

The invention provides a fuzzy matching algorithm for credit anti-fraud detection. The algorithm is based on similarity algorithm. By adding offset parameters and omitting editing distance algorithm, compared with traditional fuzzy matching algorithm, the algorithm greatly reduces the occupation of server resources such as memory, and improves the operation efficiency by nearly 10 times. At the same time, the method optimizes the above algorithm, which combines the similarity algorithm with the Moyers diff improved algorithm to calculate the fuzzy matching results, introduces the Myers diff improved algorithm, and modifies the weights of the two results and adds them to get the final fuzzy matching results. This optimization algorithm is suitable for most scenarios where the difference of data is small and the precision of fuzzy matching calculation is high. In this way, the number of iterations can be minimized and the result of fuzzy matching is relatively accurate.

【技术实现步骤摘要】
一种信贷反欺诈侦测模糊匹配算法
本专利技术涉及一种信贷反欺诈侦测模糊匹配算法,属于互联网金融

技术介绍
随着经济和社会的不断发展,信贷业务已深入社会各阶层,影响着企业、机构、组织的运转以及个人的生活,同时信贷反欺诈技术也成为了信贷业务正常运转的基础。模糊匹配在反欺诈侦测中广泛应用,但普通模糊匹配算法达不到系统对性能的要求。目前广泛应用的模糊匹配算法包括相似度算法(SimilarityMetric)、编辑距离算法(LevenshteinDistanceAlgorithm)和Myersdiff算法等。在反欺诈侦测中,单纯应用这些算法无法满足海量数据匹配的效率要求以及匹配准确度要求。目前的反欺诈产品,理论上模糊匹配的精确度基本满足要求,但在执行模糊匹配运算前,强制要求缩小匹配范围,如增加额外过滤条件来缩小比对范围,实际每次最多允许比对几百到几千个字符串,以保证运行效率,这样就造成模糊匹配算法实际适用范围降低,以及由于强制增加的过滤条件造成模糊匹配结果的干扰。通过对流行算法的分析以及大量数据模糊匹配运算的测试实验,发现效率瓶颈主要是模糊匹配算法中的迭代运算所造成,这样在长字符串的模糊匹配运算中,效率急剧降低。比如姓名字符串“张大明”和“张达明”,迭代次数为9,不会出现效率问题,但对于全地址字符串,比如“天津市滨海新区第二大道188号A区渤海大厦塔楼,18楼1802室”和“天津市塘沽开发区第2大道渤海大楼B座,1802”需要迭代32*23=736次,如果需要和数据库中数以百万计数据进行模糊匹配计算,则无法满足反欺诈侦测系统所需要的毫秒级效率要求。专利技术内容本专利技术提供了一种信贷反欺诈侦测模糊匹配算法,以相似度算法(SimilarityMetric)为基础,通过增加偏移量参数省略编辑距离算法(LevenshteinDistanceAlgorithm),由于相似度算法不涉及迭代运算,因此其不构成效率瓶颈,通常运算为毫秒级。其具体步骤如下:首先,对两个字符串应用相似度算法,结果表示为Sim_Metric;其次,应用预先设定经验值偏移量(LevDist),建议值为0.3;最终模糊匹配结果可表示为:FuzzyMatchResult=Minmum(Sim_Metric*0.9+(1-LevDist)*0.2,1),其中FuzzyMatchResult>=0,FuzzyMatchResult<=1),函数Minmum取两个参数中最小值,以保证最终结果<=1,建议设定可接受模糊匹配相似字符结果为FuzzyMatchResult>=0.75,即FuzzyMatchResult>=0.75可视为匹配字符。通过大量数据计算实验,本算法在计算字符串模糊匹配结果值FuzzyMatchResult>0.70时,其偏差大约为+-(2-7%),相比于传统模糊匹配算法,本算法极大地减少了内存等服务器资源的占用,运算效率提高将近10倍。基于以上“一种信贷反欺诈侦测模糊匹配算法”,本专利技术对此算法进行优化,即将相似度算法(SimilarityMetric)和Myersdiff改良算法结合来计算模糊匹配结果,本优化算法引入Myersdiff改良算法,并将两个结果修正加权然后相加得到最终模糊匹配结果。其具体步骤如下:首先,设定模糊匹配结果值,如0.75;其次,对两个字符串应用相似度算法(SimilarityMetric),结果表示为Sim_Metric;最后,应用改良后的Myersdiff改良算法按步骤计算两个字符串变更一致所需次数,但是并不需要计算全部结果,一旦某一步骤结果达到预先设定阈值(LevDist)就立即停止。预先通过参数设定模糊匹配结果FuzzyMatchResult(如>0.75),那么在Myersdiff算法中某一步骤结果一旦LevDist>=Sim_Metric*2–FuzzyMatchResult*2.5+1,立即停止计算,并返回布尔值,标识这两个字符串模糊匹配结果FuzzyMatchResult小于等于预先设定值(如0.75),从而不能匹配。本优化算法适合大部分数据差异较小,而且要求模糊匹配计算精度较高的场景。这样可以最小化迭代次数同时模糊匹配结果值相对精确。实施方式一种信贷反欺诈侦测模糊匹配算法,以相似度算法(SimilarityMetric)为基础,通过增加偏移量参数省略编辑距离算法(LevenshteinDistanceAlgorithm),由于相似度算法不涉及迭代运算,因此其不构成效率瓶颈,通常运算为毫秒级。其具体步骤如下:首先,对两个字符串应用相似度算法,结果表示为Sim_Metric;其次,应用预先设定经验值偏移量(LevDist),建议值为0.3;最终模糊匹配结果可表示为:FuzzyMatchResult=Minmum(Sim_Metric*0.9+(1-LevDist)*0.2,1),其中FuzzyMatchResult>=0,FuzzyMatchResult<=1),函数Minmum取两个参数中最小值,以保证最终结果<=1,建议设定可接受模糊匹配相似字符结果为FuzzyMatchResult>=0.75,即FuzzyMatchResult>=0.75可视为匹配字符。通过大量数据计算实验,本算法在计算字符串模糊匹配结果值FuzzyMatchResult>0.70时,其偏差大约为+-(2-7%),相比于传统模糊匹配算法,本算法极大地减少了内存等服务器资源的占用,运算效率提高将近10倍。基于以上“一种信贷反欺诈侦测模糊匹配算法”,本专利技术对此算法进行优化,即将相似度算法(SimilarityMetric)和Myersdiff改良算法结合来计算模糊匹配结果,本优化算法引入Myersdiff改良算法,并将两个结果修正加权然后相加得到最终模糊匹配结果。其具体步骤如下:首先,设定模糊匹配结果值,如0.75;其次,对两个字符串应用相似度算法(SimilarityMetric),结果表示为Sim_Metric;最后,应用改良后的Myersdiff改良算法按步骤计算两个字符串变更一致所需次数,但是并不需要计算全部结果,一旦某一步骤结果达到预先设定阈值(LevDist)就立即停止。预先通过参数设定模糊匹配结果FuzzyMatchResult(如>0.75),那么在Myersdiff算法中某一步骤结果一旦LevDist>=Sim_Metric*2–FuzzyMatchResult*2.5+1,立即停止计算,并返回布尔值,标识这两个字符串模糊匹配结果FuzzyMatchResult小于等于预先设定值(如0.75),从而不能匹配。本优化算法适合大部分数据差异较小,而且要求模糊匹配计算精度较高的场景。这样可以最小化迭代次数同时模糊匹配结果值相对精确。本文档来自技高网...

【技术保护点】
1.一种信贷反欺诈侦测模糊匹配算法,其特征在于:以相似度算法(Similarity Metric)为基础,通过增加偏移量参数省略编辑距离算法(Levenshtein Distance Algorithm),由于相似度算法不涉及迭代运算,因此其不构成效率瓶颈,通常运算为毫秒级。其具体步骤如下:首先,对两个字符串应用相似度算法,结果表示为Sim_Metric;其次,应用预先设定经验值偏移量(LevDist);最终模糊匹配结果可表示为:FuzzyMatchResult=Minmum(Sim_Metric*0.9+(1‑LevDist)*0.2,1),其中FuzzyMatchResult>=0,FuzzyMatchResult

【技术特征摘要】
1.一种信贷反欺诈侦测模糊匹配算法,其特征在于:以相似度算法(SimilarityMetric)为基础,通过增加偏移量参数省略编辑距离算法(LevenshteinDistanceAlgorithm),由于相似度算法不涉及迭代运算,因此其不构成效率瓶颈,通常运算为毫秒级。其具体步骤如下:首先,对两个字符串应用相似度算法,结果表示为Sim_Metric;其次,应用预先设定经验值偏移量(LevDist);最终模糊匹配结果可表示为:FuzzyMatchResult=Minmum(Sim_Metric*0.9+(1-LevDist)*0.2,1),其中FuzzyMatchResult>=0,FuzzyMatchResult<=1),函数Minmum取两个参数中最小值,以保证最终结果<=1,建议设定可接受模糊匹配相似字符结果为FuzzyMatchResult>=0.75,即FuzzyMatchResult>=0.75可视为匹配字符。通过大量数据计算实验,本算法在计算字符串模糊匹配结果值FuzzyMatchResult>0.70时,其偏差大约为+-(2-7%),相比于传统模糊匹配算法,本算法极大地减少了内存等服务器资源的占用,运算效率提高将近10倍。2.如权利要求1所述的一种信贷反欺诈侦测...

【专利技术属性】
技术研发人员:杨维俊李翼岚
申请(专利权)人:佛山市金晶微阅信息科技有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1