【技术实现步骤摘要】
一种数据集确权方法、系统、装置及介质
[0001]本申请涉及区块链
,特别涉及一种数据集确权方法
、
系统
、
装置及介质
。
技术介绍
[0002]人工智能训练数据集具有规模大
、
类型多
、
格式一致的特点,但其共享面临着训练数据集泄露后难确权
、
难追溯的问题
。
目前的解决方法主要通过查询搜索
、
哈希比对
、
语义分析等方法实现确权功能,而这种方式在解决少量关键数据问题上有效,但对于规模大的人工智能训练数据则效率不高
。
例如,哈希比对是一种过于精确的算法,且哈希函数本身具有雪崩效应,查询搜索也是具有相对准确性的计算方法,而人工智能训练数据集的多样性使得数据集被修改或调整后,导致以精确为目标的哈希函数
、
查询检索计算难以判别数据所有权或发现数据泄露
。
例如,小幅度修改源数据不会影响训练结果但无法被哈希函数对比检测;恶意修改内容或顺序以逃避确权检验;部分使用相同的公开数据以完善数据集等
。
因此,目前的解决办法在面向人工智能训练数据集确权应用时准确性低
、
效率低
。
技术实现思路
[0003]本申请的目的是提供一种数据集确权方法
、
系统
、
装置及介质,使用基于特征提取函数计算的特征值,并与待比较数据集的特征值进行比较,可以增强 ...
【技术保护点】
【技术特征摘要】
1.
一种数据集确权方法,其特征在于,应用于区块链系统,包括:接收目标数据集对应的数据包,并对所述数据包进行上链操作,所述数据包包括与所述目标数据集对应的多个特征值和确权函数,多个所述特征值是基于与所述目标数据集对应的多个特征提取函数计算的;将所述数据包发送至可信第三方和
/
或区块链系统中的用户,触发所述可信第三方和
/
或所述区块链系统中的用户基于所述目标数据集对应的多个特征值
、
若干个待比较数据集的特征值和所述确权函数确定所述目标数据集的确权结果,将所述确权结果反馈至数据所有者并将所述确权结果上链
。2.
如权利要求1所述的数据集确权方法,其特征在于,接收目标数据集对应的数据包,包括:接收数据所有者发送的目标数据集对应的数据包,所述数据包中还包括所述数据所有者的身份信息;对所述数据包进行上链操作之前,还包括:验证所述数据所有者的身份信息的有效性和信用度;在所述数据所有者的身份信息的有效性和信用度满足预设要求时,进入对所述数据包进行上链操作的步骤
。3.
如权利要求1所述的数据集确权方法,其特征在于,基于所述目标数据集对应的多个特征值
、
若干个待比较数据集的特征值和所述确权函数确定所述目标数据集的确权结果,包括:基于所述目标数据集对应的多个特征值
、
若干个所述待比较数据集的特征值计算所述目标数据集和各个所述待比较数据集的相似度;根据各个所述相似度确定所述目标数据集的确权结果
。4.
如权利要求3所述的数据集确权方法,其特征在于,根据各个所述相似度确定所述目标数据集的确权结果,包括:判断所述目标数据集与各个所述待比较数据集的相似度是否大于相似度阈值;统计所述相似度大于所述相似度阈值的待比较数据集的个数;根据所述相似度大于所述相似度阈值的待比较数据集的个数确定所述目标数据集的确权结果
。5.
如权利要求4所述的数据集确权方法,其特征在于,所述可信第三方中包括若干个指定用户时,根据所述相似度大于所述相似度阈值的待比较数据集的个数确定所述目标数据集的确权结果,包括:各个所述指定用户根据所述相似度大于所述相似度阈值的待比较数据集的个数确定所述目标数据集的初步确权结果,并对所述初步确权结果上链;还包括:接收各个所述指定用户发送的初步确权结果;根据各个所述初步确权结果确定最终确权结果
。6.
如权利要求5所述的数据集确权方法,其特征在于,各个所述指定用户根据所述相似度大于所述相似度阈值的待比较数据集的个数确定所述目标数据集的初步确权结果,包括:
各个所述指定用户根据预设公式确定所述相似度大于所述相似度阈值的待比较数据集的个数,根据所述相似度大于所述相似度阈值的待比较数据集的个数确定所述目标数据集的初步确权结果;所述预设公式为:,其中,
n
表示与所述目标数据集对应的待比较数据集的个数,
i
表示第
i
个特征,为所述相似度阈值,为所述目标数据集,
x
为所述目标数据集的标识,为所述待比较数据集,
y
为所述待比较数据集的标识,为所述目标数据集对应的第
i
个特征的特征提取函数,为所述目标数据集和所述待比较数据集在所述第
i
个特征上的相似度与相似度阈值的比较函数,所述比较函数输出0时表示所述目标数据集和所述待比较数据集在所述第
i
个特征上的相似度小于所述相似度阈值,所述比较函数输出1时表示所述目标数据集和所述待比较数据集在所述第
i
个特征上的相似度大于所述相似度阈值,表示所述目标数据集和各所述待比较数据集的相似度大于所述相似度阈值的待比较数据集的个数
。7.
如权利要求5所述的数据集确权方法,其特征在于,根据各个所述初步确权结果确定最终确权结果,包括:根据各个所述初步确权结果中所述相似度大于所述相似度阈值的待比较数据集的个数和所有所述待比较数据集的个数确定所述最终确权结果
。8.
如权利要求7所述的数据集确权方法,其特征在于,根据各个所述初步确权结果中所述相似度大于所述相似度阈值的待比较数据集的个数和所有所述待比较数据集的个数确定所述最终确权结果,包括:判断所述相似度大于所述相似度阈值的待比较数据集的个数与所有所述待比较数据集的个数比值是否大于预设阈值,若大于所述预设阈值,则对所述目标数据集予以确权,否则,不予以确权
。9.
如权利要求1所述的数据集确权方法,其特征在于,接收目标数据集对应的数据包,并对所述数据包进行上链操作之后,还包括:通过广播向所述可信第三方和
/
或所述区块链系统中的用户发送确权请求;将所述数据包发送至可信第三方和
/
或区块链系统中的用户,触发所述可信第三方和
/
或所述区块链系统中的用户基于所述目标数据集对应的多个特征值
、
若干个待比较数据集的特征值和所述确权函数确定所述目标数据集的确权结果,包括:将所述数据包发送至所述可信第三方和
/
或所述区块链系统中的用户中接受所述确权请求的指定用户,以使所述指定用户基于所述目标数据集对应的多...
【专利技术属性】
技术研发人员:李雪雷,李茹杨,赵雅倩,李仁刚,郭文烁,邓琪,
申请(专利权)人:浪潮北京电子信息产业有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。