【技术实现步骤摘要】
地址模糊匹配方法及装置
本申请涉及数据处理
,具体涉及地址模糊匹配方法及装置。
技术介绍
随着大数据技术的发展,对用户间社会关系的分析已成为各个企业或机构等进行用户数据分析的常用技术甚至必备手段,如:银行机构在识别信用卡欺诈团伙时:同一欺诈团伙往往申请一批信用卡来套取资金,这些信用卡往往使用相同的卡片邮寄地址、公司地址等,通过建立信用卡申请客户间在地理位置信息上的关系,对于识别信用卡团伙欺诈有着重要意义。在各个企业或机构构建其用户的社会关系的过程中,地址关系的建立至关重要,然而,对于大型银行来说,其所有用户地址的两两匹配往往面临以下耗时漫长难以满足应用性能的困难。原因如下:1、匹配次数多:假如银行每日出现100万个新地址信息(这些地址信息可来自于客户的交易地址、申请信用卡填写的公司地址\居住地址等),如果逐条匹配:即对每个客户均扫描一遍其余客户地址数据来得到其余所有客户的地址相似度,则需要匹配(1*106)!次,如果串行执行耗时过长难以满足银行数据分析的及时性要求。2、匹配算法复杂:r>上海市浦东新区X本文档来自技高网...
【技术保护点】
1.一种地址模糊匹配方法,其特征在于,包括:/n分别获取标准数据块中各个目标用户各自对应的多个虚拟记录对,其中,各个所述标准数据块分别用于存储前三层相同的标准地址表,各个所述虚拟记录对分别用于存储各自对应的用户唯一标识与对应的虚拟地址,且所述虚拟地址预先基于位于对应的所述标准地址表的第四层或大于第四层的层级中的详细地址信息获取;/n应用各个所述虚拟记录对生成目标有向图,且该目标有向图中的各个边的起始节点为所述用户唯一标识,各个边的目的节点为对应的所述虚拟地址;/n在所述目标有向图中进行两次传递方向相反的消息传递,得到存在相似性的各个所述虚拟记录对之间的地址相似度。/n
【技术特征摘要】
1.一种地址模糊匹配方法,其特征在于,包括:
分别获取标准数据块中各个目标用户各自对应的多个虚拟记录对,其中,各个所述标准数据块分别用于存储前三层相同的标准地址表,各个所述虚拟记录对分别用于存储各自对应的用户唯一标识与对应的虚拟地址,且所述虚拟地址预先基于位于对应的所述标准地址表的第四层或大于第四层的层级中的详细地址信息获取;
应用各个所述虚拟记录对生成目标有向图,且该目标有向图中的各个边的起始节点为所述用户唯一标识,各个边的目的节点为对应的所述虚拟地址;
在所述目标有向图中进行两次传递方向相反的消息传递,得到存在相似性的各个所述虚拟记录对之间的地址相似度。
2.根据权利要求1所述的地址模糊匹配方法,其特征在于,所述分别获取标准数据块中各个目标用户各自对应的多个虚拟记录对,包括:
分别获取各个标准数据块各自对应的多个记录对,其中,各个所述记录对分别用于存储各自对应的用户唯一标识与对应的词向量,且该词向量为位于所述标准地址表的第四层或大于第四层的层级中的详细地址信息;
将所在层级相同的所述词向量对应的所述记录对合并至同一数据集合,并所述数据集合内的词向量进行聚类,得到至少一个词向量类;
获取各个所述词向量类的中心点向量,并将所述记录对中的所述词向量替换为对应的中心点向量,得到各个所述记录对各自对应的虚拟记录对。
3.根据权利要求2所述的地址模糊匹配方法,其特征在于,在所述分别获取各个标准数据块各自对应的多个记录对之前,还包括:
根据当前处于可用状态的并发线程的数量,将各个所述目标用户的数据对划分至对应数据的数据块中,其中,所述数据对用于存储各自对应的用户唯一标识与对应的地址信息;
应用各个所述并发线程分别对各自对应的所述数据块中的地址信息进行分词处理;
将经该分词处理得到得各个词汇按预设规则进行分层处理,得到各个所述目标用户各自对应的各层依次关联的标准地址表;
将前三层相同的标准地址表划分至同一标准数据块中。
4.根据权利要求3所述的地址模糊匹配方法,其特征在于,在所述根据当前处于可用状态的并发线程的数量,将各个所述目标用户的数据对划分至对应数据的数据块中之前,还包括:
自预设的存储设备中顺序读取各个所述目标用户的用户唯一标识以及地址数据;
对各个所述地址数据进行预处理,得到各个所述目标用户各自对应的各个地址信息;
基于各个所述目标用户的用户唯一标识以及地址信息生成各个所述目标用户的数据对。
5.根据权利要求1所述的地址模糊匹配方法,其特征在于,所述在所述目标有向图中进行两次传递方向相反的消息传递,得到存在相似性的各个所述虚拟记录对之间的地址相似度,包括:
自各个所述起始节点沿所述目标有向图的边向对应的各个所述目的节点进行第一次消息传递,以使各个所述目的节点同时收到与自身虚拟地址相同的各个用户唯一标识;
自各个所述目的节点沿所述目标有向图的边向对应的各个所述起始节点进行与所述第一次消息传递逆向传递的第二次消息传递,以使各个所述起始节点同时收到与自身虚拟地址相同的各个用户唯一标识,并生成各个所述目标用户各自对应的相似记录对,其中,该相似记录对用于存储对应的用户唯一标识与用于所述标准地址表中各层是否相同的相似度信息。
6.根据权利要求1所述的地址模糊匹配方法,其特征在于,还包括:
基于存在相似性的各个所述虚拟记录对之间的地址相似度输出各个所述目标用户的地址模糊匹配结果。
7.一种地址模糊匹配装置,其特征在于,包括地址匹配模块,且该地址匹配模块包括:
分布式图构建子模块,用于分别获取标准数据块中各个目标用户各自对应的多个虚拟记录对,其中,各个所述标准数据块分别用于存储前三层相同的标准地址表,...
【专利技术属性】
技术研发人员:徐琳玲,张莹,厉林晨,高峰,
申请(专利权)人:中国工商银行股份有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。