【技术实现步骤摘要】
一种基于数据映射的数据泄漏溯源判定方法及系统
本专利技术涉及信息安全领域,具体涉及一种基于数据映射的数据泄漏溯源判定方法及系统。
技术介绍
随着大数据时代的来临,机器学习等数据分析技术的进步和提升,数据所含有的内在价值使得人们对数据交易和自由流转的需求越发迫切。然而在实现数据交易与流转之前,亟需解决的一大顾虑与难关,是在数据泄露发生时,数据的原始所有方如何才能将责任划清界限并使正当权益得到维护。数据溯源的难题是,数据交付时将作为一个数据集交付,而流通并泄露后得到的可能仅仅是其一个子集。即数据集是可分割的,无法被捆绑打包并作为一个整体做上标记。而若是对其中的每一条目做上标记,则将遇到另一困难,就是标记的隐蔽性和抗移除性,若添加的数据易于辨别且无关紧要,则数据流通时该标记完全可能被移除。另外,数据溯源中的另一问题,是泄露的数据与最初交付的原始数据集之间可以存在一定的差异。比如,当如下一些操作并非大规模发生、或仅对重要性较低的部分发生时,可以不对数据的使用价值产生显著影响:增,向数据中添加一些的数据,这里指的是添加整条数据;删,删除数据中部分数据;改,修改数据中的某些字 ...
【技术保护点】
1.一种基于数据映射的数据泄漏溯源判定方法,其特征在于,包括:步骤1、抽取原始数据集的子集作为交付数据集;步骤2、对被抽取出的所述交付数据集中的每一条数据进行数据标记以标识交付对象;步骤3、根据所述交付数据集中所有数据的数据标记的数量,建立所述交付对象的识别标签;步骤4、将待溯源数据集中的每一条数据,与所述原始数据集进行匹配,得到由所述原始数据集中匹配成功的数据构成的匹配数据集;步骤5、统计所述匹配数据集中所有数据的数据标记的分布,结合所述识别标签,判定所述待溯源数据集所指向的交付对象。
【技术特征摘要】
1.一种基于数据映射的数据泄漏溯源判定方法,其特征在于,包括:步骤1、抽取原始数据集的子集作为交付数据集;步骤2、对被抽取出的所述交付数据集中的每一条数据进行数据标记以标识交付对象;步骤3、根据所述交付数据集中所有数据的数据标记的数量,建立所述交付对象的识别标签;步骤4、将待溯源数据集中的每一条数据,与所述原始数据集进行匹配,得到由所述原始数据集中匹配成功的数据构成的匹配数据集;步骤5、统计所述匹配数据集中所有数据的数据标记的分布,结合所述识别标签,判定所述待溯源数据集所指向的交付对象。2.根据权利要求1所述的方法,其特征在于,所述步骤1具体包括:随机抽取原始数据集的预设比例的数据作为交付数据集。3.根据权利要求1所述的方法,其特征在于,所述步骤3具体包括:步骤3.1、按照交付对象分别统计所述交付数据集中所有子集的数据标记的数量;步骤3.2、分别计算各个交付对象对应的数据标记的数量与所述交付数据集数据总量的比例;步骤3.3、将计算得到的各个比例按照预设顺序排列构成的向量作为所述交付对象的识别标签。4.根据权利要求1所述的方法,其特征在于,所述步骤4具体包括:将待溯源数据集中的每一条数据,与所述原始数据集中的各条数据进行相似度计算,将所述原始数据集中与所述待溯源数据集中数据的相似度最大且最大相似度大于预设阈值的数据加入匹配数据集。5.根据权利要求1-4任一项所述的方法,其特征在于,所述步骤5具体包括:步骤5.1、按照交付对象分别统计所述匹配数据集中所有数据的数据标记的数量;步骤5.2、分别计算各个交付对象对应的数据标记的数量与所述匹配数据集数据总量的比例;步骤5.3、将计算得到的各个比例按照预设顺序排列构成的向量作为匹配标签;步骤5.4、将所述匹配标签与所述用户标签进行匹配,根据匹配结果判定所述待溯源数据集所指向的交易对象。6.一种基于数据映射的数据泄漏溯源判定...
【专利技术属性】
技术研发人员:闫炳豪,庄子迪,党美,刘会议,
申请(专利权)人:北京三未信安科技发展有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。