当前位置: 首页 > 专利查询>青岛大学专利>正文

一种基于项目反应理论的数据去重方法、装置及设备制造方法及图纸

技术编号:22075145 阅读:38 留言:0更新日期:2019-09-12 13:57
本申请公开了一种基于项目反应理论的数据去重方法,在获取待上传数据之后,能够根据项目反应理论确定待上传数据的理论隐私分数,并根据理论隐私分数、云存储服务器中待上传数据的副本数据的隐私分数,确定副本数据的去重阈值,最终在副本数据的数量大于去重阈值时执行数据去重操作。可见,该方法能够依据项目反应理论确定待上传数据的理论隐私分数,并根据理论隐私分数确定去重阈值,由于项目反应理论综合考量用户主观性的隐私需求以及数据客观性的隐私性,因此该方法实现了根据不同用户、不同数据动态调整数据的去重阈值的目的。此外,本申请还提供了一种基于项目反应理论的数据去重装置、设备及计算机可读存储介质,其作用与上述方法相对应。

A Data Reduplication Method, Device and Equipment Based on Item Response Theory

【技术实现步骤摘要】
一种基于项目反应理论的数据去重方法、装置及设备
本申请涉及数据去重领域,特别涉及一种基于项目反应理论的数据去重方法、装置、设备及计算机可读存储介质。
技术介绍
随着计算机技术和网络信息技术的发展,全球的数据信息存储量呈爆炸式增长的趋势。目前分布式系统已广泛应用到信息产业中,用于应对海量数据的日益增长。然而,分布式系统虽然解决了海量数据的存储问题,但同时带来了新的挑战——数据的冗余越来越多。数据去重技术是一种通过大规模消除冗余数据,降低存储成本的重要技术。目前,一种常用数据去重方案为基于流行度的数据去重方法,该方案为云存储服务器中的数据设置阈值,在上传同一数据的用户数量达到阈值前,云存储服务器为每个用户存储其数据副本;当上传同一数据的用户数量达到阈值后,则认为该数据为流行数据,对其进行去重操作,即为后续上传数据的用户创建访问链接,不再实际存储数据副本。然而,基于流行度的数据去重方案为所有数据分配统一的固定的阈值,一方面难以确定合理的阈值大小,另一方面缺乏对不同数据、不同用户的实际需求的考量。
技术实现思路
本申请的目的是提供一种基于项目反应理论的数据去重方法、装置、设备及计算机可读存储介质,用以解决传统的数据去重方案为所有上传数据设置统一的既定阈值,缺乏对不同数据、不同用户的实际需求的考量,导致隐私数据泄露或数据去重效果不理想的问题。具体方案如下:第一方面,本申请提供了一种基于项目反应理论的数据去重方法,包括:获取待上传数据;根据项目反应理论,确定所述待上传数据的理论隐私分数;根据所述理论隐私分数、云存储服务器中所述待上传数据的副本数据的隐私分数,确定所述副本数据的去重阈值;在所述副本数据的数量大于所述去重阈值时,执行数据去重操作。可选的,所述根据项目反应理论,确定所述待上传数据的理论隐私分数,包括:根据项目反应理论,利用最大似然函数方法确定所述待上传数据的可见度和敏感度;根据所述可见度和所述敏感度,确定所述待上传数据的理论隐私分数。可选的,所述根据所述理论隐私分数、云存储服务器中所述待上传数据的副本数据的隐私分数,确定所述副本数据的去重阈值,包括:根据所述理论隐私分数、云存储服务器中所述待上传数据的副本数据的隐私分数,确定综合隐私分数;根据所述综合隐私分数,依据目标函数确定所述副本数据的去重阈值,其中,所述目标函数为Ti为副本数据i的去重阈值,PRi为副本数据i的综合隐私分数,a为预设系数。可选的,所述根据所述理论隐私分数、云存储服务器中所述待上传数据的副本数据的隐私分数,确定综合隐私分数,包括:将所述理论隐私分数反馈给当前用户;响应所述当前用户的接受请求以根据所述理论隐私分数、云存储服务器中所述待上传数据的副本数据的隐私分数,确定综合隐私分数;响应所述当前用户的自定义请求以获取所述当前用户自定义的隐私分数,并根据所述隐私分数、云存储服务器中所述待上传数据的副本数据的隐私分数,确定综合隐私分数。可选的,在所述根据所述理论隐私分数、云存储服务器中所述待上传数据的副本数据的隐私分数,确定所述副本数据的去重阈值之后,还包括:若所述副本数据的数量小于所述去重阈值,则按照第一加密方法对所述待上传数据进行加密,并将加密后的待上传数据存储到所述云存储服务器;若所述副本数据的数量等于所述去重阈值,则按照第二加密方法对所述待上传数据进行加密,并将加密后的待上传数据存储到所述云存储服务器。可选的,所述第一加密方法为对称加密方法,所述第二加密方法为收敛加密方法。第二方面,本申请提供了一种基于项目反应理论的数据去重装置,包括:数据获取模块:用于获取待上传数据;理论隐私分数确定模块:用于根据项目反应理论,确定所述待上传数据的理论隐私分数;阈值确定模块:用于根据所述理论隐私分数、云存储服务器中所述待上传数据的副本数据的隐私分数,确定所述副本数据的去重阈值;去重模块:用于在所述副本数据的数量大于所述去重阈值时,执行数据去重操作。可选的,所述理论隐私分数确定模块包括:第一单元:用于根据项目反应理论,利用最大似然函数方法确定所述待上传数据的可见度和敏感度;第二单元:用于根据所述可见度和所述敏感度,确定所述待上传数据的理论隐私分数。第三方面,本申请提供了一种基于项目反应理论的数据去重设备,包括:存储器:用于存储计算机程序;处理器:用于执行所述计算机程序以实现如上所述的一种基于项目反应理论的数据去重方法的步骤。第四方面,本申请提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时用于实现如上所述的一种基于项目反应理论的数据去重方法的步骤。本申请所提供的一种基于项目反应理论的数据去重方法,在获取待上传数据之后,能够根据项目反应理论确定待上传数据的理论隐私分数,并根据理论隐私分数、云存储服务器中待上传数据的副本数据的隐私分数,确定副本数据的去重阈值,最终在副本数据的数量大于去重阈值时执行数据去重操作。可见,在用户上传数据时,该方法能够依据项目反应理论确定待上传数据的理论隐私分数,并根据理论隐私分数确定去重阈值,由于项目反应理论能够综合考量用户主观性的隐私需求以及数据客观性的隐私性,因此该方法实现了根据不同用户、不同数据动态调整数据的去重阈值的目的,提高了数据去重的效率和场景适应性。此外,本申请还提供了一种基于项目反应理论的数据去重装置、设备及计算机可读存储介质,其作用与上述方法相对应,这里不再赘述。附图说明为了更清楚的说明本申请实施例或现有技术的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本申请所提供的一种基于项目反应理论的数据去重方法实施例一的实现流程图;图2为本申请所提供的一种基于项目反应理论的数据去重方法实施例二的实现流程图;图3为本申请所提供的一种基于项目反应理论的数据去重装置实施例的功能框图;图4为本申请所提供的一种基于项目反应理论的数据去重设备实施例的结构示意图。具体实施方式本申请的核心是提供一种基于项目反应理论的数据去重方法、装置、设备及计算机可读存储介质,实现了根据不同用户、不同数据动态调整数据的去重阈值的目的,提高了数据去重的效率和场景适应性。为了使本
的人员更好地理解本申请方案,下面结合附图和具体实施方式对本申请作进一步的详细说明。显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。下面对本申请提供的一种基于项目反应理论的数据去重方法实施例一进行介绍,参见图1,实施例一包括:步骤S101:获取待上传数据;本实施例涉及两类实体,分别为用户和云存储服务器。用户可以与云存储服务器进行数据交互,在交互过程中,用户可以扮演两个角色:数据上传者或数据观察者。数据上传者向云存储服务器上传加密的数据,数据观察者可以向云存储服务器发送请求下载加密的数据。云存储服务器为用户提供数据存储和数据共享服务,但无法获知数据的具体内容。值得一提的是,本实施例主要针对非首次上传的数据进行去重阈值本文档来自技高网
...

【技术保护点】
1.一种基于项目反应理论的数据去重方法,其特征在于,包括:获取待上传数据;根据项目反应理论,确定所述待上传数据的理论隐私分数;根据所述理论隐私分数、云存储服务器中所述待上传数据的副本数据的隐私分数,确定所述副本数据的去重阈值;在所述副本数据的数量大于所述去重阈值时,执行数据去重操作。

【技术特征摘要】
1.一种基于项目反应理论的数据去重方法,其特征在于,包括:获取待上传数据;根据项目反应理论,确定所述待上传数据的理论隐私分数;根据所述理论隐私分数、云存储服务器中所述待上传数据的副本数据的隐私分数,确定所述副本数据的去重阈值;在所述副本数据的数量大于所述去重阈值时,执行数据去重操作。2.如权利要求1所述的方法,其特征在于,所述根据项目反应理论,确定所述待上传数据的理论隐私分数,包括:根据项目反应理论,利用最大似然函数方法确定所述待上传数据的可见度和敏感度;根据所述可见度和所述敏感度,确定所述待上传数据的理论隐私分数。3.如权利要求1所述的方法,其特征在于,所述根据所述理论隐私分数、云存储服务器中所述待上传数据的副本数据的隐私分数,确定所述副本数据的去重阈值,包括:根据所述理论隐私分数、云存储服务器中所述待上传数据的副本数据的隐私分数,确定综合隐私分数;根据所述综合隐私分数,依据目标函数确定所述副本数据的去重阈值,其中,所述目标函数为Ti为副本数据i的去重阈值,PRi为副本数据i的综合隐私分数,a为预设系数。4.如权利要求3所述的方法,其特征在于,所述根据所述理论隐私分数、云存储服务器中所述待上传数据的副本数据的隐私分数,确定综合隐私分数,包括:将所述理论隐私分数反馈给当前用户;响应所述当前用户的接受请求以根据所述理论隐私分数、云存储服务器中所述待上传数据的副本数据的隐私分数,确定综合隐私分数;响应所述当前用户的自定义请求以获取所述当前用户自定义的隐私分数,并根据所述隐私分数、云存储服务器中所述待上传数据的副本数据的隐私分数,确定综合隐私分数。5.如权利要求1-4任意一项所述的方法,其特征在于,在所述根据所述理论隐...

【专利技术属性】
技术研发人员:咸鹤群高原
申请(专利权)人:青岛大学
类型:发明
国别省市:山东,37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1