一种基于大数据的数据分析溯源方法及系统技术方案

技术编号:38219327 阅读:13 留言:0更新日期:2023-07-25 11:31
本发明专利技术公开了一种基于大数据的数据分析溯源方法及系统,属于大数据溯源技术领域,该方法包括:获取待溯源数据,建立待溯源数据表,并确定待溯源数据表的类型;建立溯源数据库,将原始大数据库中和待溯源数据表同一个类型的数据表组成溯源数据库;对溯源数据库进行筛选,在溯源数据库中筛选出和待溯源数据表相似的数据表;对溯源数据库进行匹配,利用匹配策略把待溯源数据表与筛选出的数据表进行匹配,判断出待溯源数据表的真实来源,完成待溯源数据表的数据真实性验证和版权认证,通过建立溯源数据库、筛选溯源数据库和匹配策略,并且在数据库不可控非法泄露场景下,减少了在大数据库中匹配的数据和时间,提高了数据溯源的效率和准确率。和准确率。和准确率。

【技术实现步骤摘要】
一种基于大数据的数据分析溯源方法及系统


[0001]本专利技术属于大数据溯源
,具体的说是一种基于大数据的数据分析溯源方法及系统。

技术介绍

[0002]随着移动互联网的飞速发展,各种信息呈指数级爆炸增长。庞大的数据量带来了更大的安全隐患,数据容易受到篡改和盗用攻击。数据非法泄露、数据盗用和数据丢失等安全问题频频发生,给个人、企业和国家的信息安全都造成很严重的影响。为了解决当前存在的信息安全问题,许多科研人员投身于数据溯源技术的研究。数据溯源技术是对非法泄露数据的追根溯源,找到泄露数据的真实来源,达到数据库版权保护的目的。目前存在的数据溯源技术都是应用在数据库可控非法泄露场景,对应用在数据库不可控非法泄露场景的数据溯源技术研究较少。因此需要在不可控非法泄露场景下,进行数据溯源,对数据安全研究具有重大意义。
[0003]如授权公告号为CN109657110B的中国专利公开了一种数据溯源方法以及相应的数据溯源装置,该数据溯源方法包括:对每条源数据添加唯一的标识信息,建立原始数据集;对原始数据集进行目标数据操作,得到与目标数据操作相匹配的目标结果集,每个结果记录包含与其相匹配的源数据的标识信息;整合结果记录的元组编号、结果记录所包含的标识信息以及目标数据操作,得到每个结果记录对应的溯源信息,以依据溯源信息进行数据溯源。在数据溯源过程中,依据溯源信息中的数据操作以及源数据的标识信息,追踪结果记录的来源以及演变过程,提高了结果记录来源分析的可靠性和可信度,还有效提高数据溯源的效率。
[0004]如授权公告号为CN110674360B的中国专利公开了一种用于数据的溯源方法和系统,包括响应于目标机器上发生文件操作,获取文件信息;基于对文件信息进行筛选,获得结构化数据和与结构化数据对应的非结构化数据,其中,结构化数据作为固定的关键变量组,非结构化数据包括多组可变关键变量组;响应于关联图谱中不存在固定变量组的信息,将固定变量组对应的文件信息进行唯一标识并存入关联图谱中;响应于关联图谱中存在固定变量组的信息,对与固定变量组对应的可变关键变量组和关联图谱中已有的可变关键变量组进行相关性校验,若相关联,则将其纳入关联图谱中已有的可变关键变量组对应的文件信息的唯一标识下。利用该方法进行数据溯源可以大幅提高工作效率。
[0005]以上专利均存在数据匹配量大,导致匹配效率低,匹配的正确率低的问题,并且无法解决在数据库不可控非法泄露场景下的数据溯源。

技术实现思路

[0006]针对现有技术的不足,本专利技术提出了一种基于大数据的数据分析溯源方法及系统,该系统功能全面,建立待溯源数据表,并确定待溯源数据表的类型,将原始数据库中和待溯源数据表同一个类型的数据表组成溯源数据库,对溯源数据库进行筛选,在溯源数据
库中筛选出和待溯源数据表相似的数据表,利用匹配策略把待溯源数据表与筛选出的数据表进行匹配,判断出待溯源数据表的真实来源,完成待溯源数据表的数据真实性验证和版权认证,通过建立溯源数据库、筛选溯源数据库和匹配策略,并且在数据库不可控非法泄露场景下,减少了在大数据库中匹配的数据和时间,提高了数据溯源的效率和准确率。
[0007]为实现上述目的,本专利技术提供如下技术方案:一种基于大数据的数据分析溯源方法,包括以下具体步骤:步骤S1:获取待溯源数据,建立待溯源数据表,并确定待溯源数据表的类型;步骤S2:建立溯源数据库,将原始大数据库中和待溯源数据表同一个类型的数据表组成溯源数据库;步骤S3:对溯源数据库进行筛选,在溯源数据库中筛选出和待溯源数据表相似的数据表;步骤S4:对溯源数据库进行匹配,利用匹配策略把待溯源数据表与筛选出的数据表进行匹配,判断出待溯源数据表的真实来源,完成待溯源数据表的数据真实性验证和版权认证。
[0008]具体的,所述步骤S2的具体方法包括:步骤S201:设定原始大数据库为,待溯源数据表为,利用聚类算法对原始大数据库进行聚类,根据原始大数据库中对象分布的紧密程度将原始大数据库划分为K个聚类空间,设定为,,...;步骤S202:提取待溯源数据表属性列特征,并将属性列提取的特征值组成特征向量;步骤S203:设定原始大数据库,其中为原始大数据库中第n个数据表,原始大数据库DB中包括数据表和数据表,其中表示数据库中第i个数据表的第k个属性列,表示数据库中第j个数据表的第m个属性列,利用余弦距离计算属性列特征向量之间的距离,数值型和字符串数据的余弦距离计算公式为:,其中表示第i个数据表的第k个属性列特征向量,表示第j个数据表的第m个属性列特征向量,特殊类型数据利用正则表达式判断,类型判定计算公式:;步骤S204:选择距离小的聚类空间,并将距离小的聚类空间中的所有数据表作为溯源数据库。
[0009]具体的,所述步骤S3的具体方法为:步骤S301:将溯源数据库中的数据表进行预处理,转换成格式统一的形式,提取溯源数据库中的数据表和待溯源数据表的属性列的特征向量,得到数据表属性列的特征矩阵;步骤S302:将数据表属性列的特征矩阵放入训练好的卷积神经网络模型中,输出
待溯源数据表和溯源数据库中数据表的匹配结果,筛选出溯源数据库中数据表与待溯源数据表相似的数据表。
[0010]具体的,所述步骤S4中包括匹配策略,所述匹配策略的具体步骤为:步骤S401:设定溯源数据库中数据表与待溯源数据表相似的数据表为,表示为,其中,q表示溯源数据库中数据表中与待溯源数据表相似的数据表中的数量,表示溯源数据库中数据表中与待溯源数据表相似的第p个数据表,,其中,表示第z个属性的第w个值;步骤S402:计算属性列比重,计算公式为:,其中表示第j个数据表的第i个属性列比重,表示数据表的属性列的值,计算表中属性列的熵值,计算公式为:,其中表示数据表中第i个属性列熵值;计算属性列权重,计算公式为:,其中的取值范围为[0,1],;步骤S403:比较匹配的待溯源数据表和表中的属性列权重值,选择权重值最大的属性列当做关键字并从大到小依次进行排序,判断匹配的两个数据表的属性列权重值最大属性列的属性值是否相等,如果相等就选择权重次大的属性进行排序,再比较属性列的数据数量是否相等;步骤S404:获取匹配的两个数据表的属性列的数据数量,获取公式为:,其中,L表示数据表p中第i个属性列的数据数量,表示数据表p中第i个属性列;步骤S405:重复步骤S403

S404,直至比较到最后一个属性列,判断出匹配的两个数据表是否是相似数据表;步骤S406:对相似数据表中相同属性列的数值型数据和特殊类型数据进行匹配,计算公式为:,其中,,D表示相似数据表中相同属性列的数值型数据和特殊类型数据的相似度,表示相似的数据表中相同属性列的数值对应比较函数,当相似的数据表中相同属性列的数值相等,,当相似数据表中相同属性列的数值不相等,,表示相似数据表中相同属性列的相对应的数值;步骤S407:重复步骤S406,直至比较到相似数据表的最后一个属性列,比较相似数据表的相似度的值,当时,待溯源数据库中的数据源于相似数据表中的数据。
[0011]具体的,所本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于大数据的数据分析溯源方法,其特征在于,包括以下具体步骤:步骤S1:获取待溯源数据,建立待溯源数据表,并确定待溯源数据表的类型;步骤S2:建立溯源数据库,将原始大数据库中和待溯源数据表同一个类型的数据表组成溯源数据库;步骤S3:对溯源数据库进行筛选,在溯源数据库中筛选出和待溯源数据表相似的数据表;步骤S4:对溯源数据库进行匹配,利用匹配策略把待溯源数据表与筛选出的数据表进行匹配,判断出待溯源数据表的真实来源,完成待溯源数据表的数据真实性验证和版权认证。2.如权利要求1所述的一种基于大数据的数据分析溯源方法,其特征在于,所述步骤S2的具体方法包括:步骤S201:设定原始大数据库为,待溯源数据表为,利用聚类算法对原始大数据库进行聚类,根据原始大数据库中对象分布的紧密程度将原始大数据库划分为K个聚类空间,设定为,,...;步骤S202:提取待溯源数据表属性列特征,并将属性列提取的特征值组成特征向量;步骤S203:设定原始大数据库,其中为原始大数据库中第n个数据表,原始大数据库DB中包括数据表和数据表,其中表示数据库中第i个数据表的第k个属性列,表示数据库中第j个数据表的第m个属性列,利用余弦距离计算属性列特征向量之间的距离,数值型和字符串数据的余弦距离计算公式为:,其中表示第i个数据表的第k个属性列特征向量,表示第j个数据表的第m个属性列特征向量,特殊类型数据利用正则表达式判断,类型判定计算公式:;步骤S204:选择距离小的聚类空间,并将距离小的聚类空间中的所有数据表作为溯源数据库。3.如权利要求2所述的一种基于大数据的数据分析溯源方法,其特征在于,所述步骤S3的具体方法为:步骤S301:将溯源数据库中的数据表进行预处理,转换成格式统一的形式,提取溯源数据库中的数据表和待溯源数据表的属性列的特征向量,得到数据表属性列的特征矩阵;步骤S302:将数据表属性列的特征矩阵放入训练好的卷积神经网络模型中,输出待溯源数据表和溯源数据库中数据表的匹配结果,筛选出溯源数据库中数据表与待溯源数据表相似的数据表。4.如权利要求3所述的一种基于大数据的数据分析溯源方法,其特征在于,所述步骤S4中包括匹配策略,所述匹配策略的具体步骤为:
步骤S401:设定溯源数据库中数据表与待溯源数据表相似的数据表为,表示为,其中,q表示溯源数据库中数据表中与待溯源数据表相似的数据表中的数量,表示溯源数据库中数据表中与待溯源数据表相似的第p个数据表,,其中,表示第z个属性的第w个值;步骤S402:计算属性列比重,计算公式为:,其中表示第j个数据表的第i个属性列比重,表示数据表的属性列的值,计算表中属性列的熵值,计算公式为:,其中表示数据表中第i个属性列熵值;计算属性列权重,计算公式为:,其中的取值范围为[0,1],;步骤S403:比较匹配的待溯源数据表和表中的属性列权重值,选择权重值最大的属性列...

【专利技术属性】
技术研发人员:张蓉黄礼成邢文元刘杰
申请(专利权)人:南京哈卢信息科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1