一种多方记录链接方法、电子设备、存储介质及系统技术方案

技术编号:19778380 阅读:40 留言:0更新日期:2018-12-15 11:20
本发明专利技术提供一种多方记录链接方法,包括步骤:数据预处理,对若干参与方的数据源分别进行分块处理,将数据源中的记录转换为位数组;记录近似匹配,计算位数组对应位置比特1所占的比率,利率达到动态阈值时,确定利率对应位置为候选匹配位置;相似度计算,计算候选匹配位置之间的相似度,判断相似度是否达到全局阈值,是则匹配成功,否则匹配失败。本发明专利技术还涉及电子设备、存储介质、多方记录链接系统;本发明专利技术采用比率来标识记录间在某位置的相似度,提高了容错性;采用动态阈值及候选匹配位置检查确定匹配成功位置,查全率和查准率高;能够有效计算有质量问题的记录间的相似度;本发明专利技术实现了多方记录链接,能够有效保护隐私,可扩展性和容错性好。

【技术实现步骤摘要】
一种多方记录链接方法、电子设备、存储介质及系统
本专利技术涉及记录链接
,尤其涉及一种多方记录链接方法、电子设备、存储介质及系统。
技术介绍
随着科技的不断进步,数据正快速地增长和累积,大数据时代已经到来。如何组织和分析这些数据,是发挥数据价值的关键所在。但现有的记录链接方法在记录信息涉及到个人隐私或敏感信息时,未考虑记录信息的隐私保护问题。现有的记录链接方法都只适用于两个数据源,而现实中的很多应用进行记录链接的数据源往往不只两个。随着数据量的不断增长和现实世界数据质量问题的存在,如拼写错误、顺序颠倒等,现有的记录链接方法的可扩展性和容错性较差,因此,急需一种隐私保护性好、可扩展性和容错性高的多方数据源记录链接方法。
技术实现思路
为了克服现有技术的不足,本专利技术的目的之一在于提供一种多方记录链接方法,解决了现有记录链接方法无法保护隐私、不适用于多方数据源、可扩展性和容错性较差的问题。本专利技术提供一种多方记录链接方法,包括以下步骤:数据预处理,对若干参与方的数据源分别进行分块处理,将所述数据源中的记录转换为位数组;记录近似匹配,计算所述位数组对应位置比特1所占的比率,所述利率达本文档来自技高网...

【技术保护点】
1.一种多方记录链接方法,其特征在于包括以下步骤:数据预处理,对若干参与方的数据源分别进行分块处理,将所述数据源中的记录转换为位数组;记录近似匹配,计算所述位数组对应位置比特1所占的比率,所述利率达到动态阈值时,确定所述利率对应位置为候选匹配位置;相似度计算,计算所述候选匹配位置之间的相似度,判断所述相似度是否达到全局阈值,是则匹配成功,否则匹配失败。

【技术特征摘要】
1.一种多方记录链接方法,其特征在于包括以下步骤:数据预处理,对若干参与方的数据源分别进行分块处理,将所述数据源中的记录转换为位数组;记录近似匹配,计算所述位数组对应位置比特1所占的比率,所述利率达到动态阈值时,确定所述利率对应位置为候选匹配位置;相似度计算,计算所述候选匹配位置之间的相似度,判断所述相似度是否达到全局阈值,是则匹配成功,否则匹配失败。2.如权利要求1所述的一种多方记录链接方法,其特征在于:所述步骤数据预处理具体为采用布隆过滤器将所述数据源中的记录转换为位数组。3.如权利要求2所述的一种多方记录链接方法,其特征在于:所述步骤数据预处理还包括将所述位数组均分为若干片段,将所述片段分别传至对应参与方。4.如权利要求1所述的一种多方记录链接方法,其特征在于:还包括步骤检查候选匹配位置,查找所述候选匹配位置中比特0位置对应的记录,获得第一记录,判断所述第一记录数量是否达到检测阈值,是则判定记录不匹配;否则查找与比特0最近的比特1位置对应的记录,获得第二记录,计算所述第一记录与所述第二记录之间的相似度,若相似度大于所述全局阈值,则判定所述候选匹配位置为匹配成功位置。5.一种电子设备,其特征在于包括:处理器;存储器;以及程序,其中所述程序被存储在所述存储器中,并且被配置成由处理器执行,所述程序包括用于执行权利要...

【专利技术属性】
技术研发人员:尚凌辉陈鑫叶淑阳
申请(专利权)人:浙江捷尚人工智能研究发展有限公司
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1