【技术实现步骤摘要】
本专利技术涉及数据安全,特别是涉及一种数据指纹生成方法及装置。
技术介绍
1、在数据交易中,一个比较大的问题是数据会被盗用,即数据交易出去后,购买方可能将数据再卖给其他人。为了确认数据是否被盗用,现有技术中通常根据原始数据的md5串验证第三方所采用的数据是否为盗用数据。
2、在现有技术中,当第三方所采用的数据与原始数据的md5串一致,则表示数据被盗用。但是第三方盗用数据后,可能会对原始数据进行修改(例如对文本修改,或者引用其中一段),而即使是简单的修改,也会导致md5会有很大的差异,从而无法找到疑似盗用的数据。
技术实现思路
1、有鉴于此,本专利技术提供一种数据指纹生成方法及装置,在本专利技术提供的方法中,由于盗用方在盗取数据后为了避免数据失去原先的意义,只会对数据进行微调,因此采用统计值作为数据的特征值,并根据统计值矩阵计算余弦距离及规整,即使数据进行微调后得到的余弦值经过k-shingle和最小哈希算法计算后得到的数据指纹仍会会与原始数据的数据指纹相似,因此通过本专利技术提
...【技术保护点】
1.一种数据指纹生成方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述统计值算法至少包括平均值算法、极差算法、方差算法、中位数算法、峰度算法、差值平均算法、差值极差算法和差值方差算法中的至少三个。
3.根据权利要求2所述的方法,其特征在于,所述计算所述统计值矩阵中每一行参数对应的余弦值,获得所述统计值矩阵对应的余弦距离规整值,包括:
4.根据权利要求1或3所述的方法,其特征在于,所述应用k-Shingle对所述余弦距离规整值中的各个余弦值进行计算,获得至少一个识别序号,包括:
5.根据权利要求4所述
...【技术特征摘要】
1.一种数据指纹生成方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述统计值算法至少包括平均值算法、极差算法、方差算法、中位数算法、峰度算法、差值平均算法、差值极差算法和差值方差算法中的至少三个。
3.根据权利要求2所述的方法,其特征在于,所述计算所述统计值矩阵中每一行参数对应的余弦值,获得所述统计值矩阵对应的余弦距离规整值,包括:
4.根据权利要求1或3所述的方法,其特征在于,所述应用k-shingle对所述余弦距离规整值中的各个余弦值进行计算,获得至少一个识别序号,包括:
5.根据权利要求4所述的方法,其特征...
【专利技术属性】
技术研发人员:覃海平,孔令鲁,
申请(专利权)人:湖南亚信软件有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。