一种基于大数据的数据分析溯源方法及系统技术方案

技术编号：38219327 阅读：13 留言：0更新日期：2023-07-25 11:31

本发明专利技术公开了一种基于大数据的数据分析溯源方法及系统，属于大数据溯源技术领域，该方法包括：获取待溯源数据，建立待溯源数据表，并确定待溯源数据表的类型；建立溯源数据库，将原始大数据库中和待溯源数据表同一个类型的数据表组成溯源数据库；对溯源数据库进行筛选，在溯源数据库中筛选出和待溯源数据表相似的数据表；对溯源数据库进行匹配，利用匹配策略把待溯源数据表与筛选出的数据表进行匹配，判断出待溯源数据表的真实来源，完成待溯源数据表的数据真实性验证和版权认证，通过建立溯源数据库、筛选溯源数据库和匹配策略，并且在数据库不可控非法泄露场景下，减少了在大数据库中匹配的数据和时间，提高了数据溯源的效率和准确率。和准确率。和准确率。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于大数据的数据分析溯源方法及系统

[0001]本专利技术属于大数据溯源
，具体的说是一种基于大数据的数据分析溯源方法及系统。

技术介绍

[0002]随着移动互联网的飞速发展，各种信息呈指数级爆炸增长。庞大的数据量带来了更大的安全隐患，数据容易受到篡改和盗用攻击。数据非法泄露、数据盗用和数据丢失等安全问题频频发生，给个人、企业和国家的信息安全都造成很严重的影响。为了解决当前存在的信息安全问题，许多科研人员投身于数据溯源技术的研究。数据溯源技术是对非法泄露数据的追根溯源，找到泄露数据的真实来源，达到数据库版权保护的目的。目前存在的数据溯源技术都是应用在数据库可控非法泄露场景，对应用在数据库不可控非法泄露场景的数据溯源技术研究较少。因此需要在不可控非法泄露场景下，进行数据溯源，对数据安全研究具有重大意义。
[0003]如授权公告号为CN109657110B的中国专利公开了一种数据溯源方法以及相应的数据溯源装置，该数据溯源方法包括：对每条源数据添加唯一的标识信息，建立原始数据集；对原始数据集进行目标数据操作，得到与目标数据操作相匹配的目标结果集，每个结果记录包含与其相匹配的源数据的标识信息；整合结果记录的元组编号、结果记录所包含的标识信息以及目标数据操作，得到每个结果记录对应的溯源信息，以依据溯源信息进行数据溯源。在数据溯源过程中，依据溯源信息中的数据操作以及源数据的标识信息，追踪结果记录的来源以及演变过程，提高了结果记录来源分析的可靠性和可信度，还有效提高数据溯源的效率。
[0004]如授权公告...

【技术保护点】

【技术特征摘要】
1.一种基于大数据的数据分析溯源方法，其特征在于，包括以下具体步骤：步骤S1：获取待溯源数据，建立待溯源数据表，并确定待溯源数据表的类型；步骤S2：建立溯源数据库，将原始大数据库中和待溯源数据表同一个类型的数据表组成溯源数据库；步骤S3：对溯源数据库进行筛选，在溯源数据库中筛选出和待溯源数据表相似的数据表；步骤S4：对溯源数据库进行匹配，利用匹配策略把待溯源数据表与筛选出的数据表进行匹配，判断出待溯源数据表的真实来源，完成待溯源数据表的数据真实性验证和版权认证。2.如权利要求1所述的一种基于大数据的数据分析溯源方法，其特征在于，所述步骤S2的具体方法包括：步骤S201：设定原始大数据库为，待溯源数据表为，利用聚类算法对原始大数据库进行聚类，根据原始大数据库中对象分布的紧密程度将原始大数据库划分为K个聚类空间，设定为，，...；步骤S202：提取待溯源数据表属性列特征，并将属性列提取的特征值组成特征向量；步骤S203：设定原始大数据库，其中为原始大数据库中第n个数据表，原始大数据库DB中包括数据表和数据表，其中表示数据库中第i个数据表的第k个属性列，表示数据库中第j个数据表的第m个属性列，利用余弦距离计算属性列特征向量之间的距离，数值型和字符串数据的余弦距离计算公式为：，其中表示第i个数据表的第k个属性列特征向量，表示第j个数据表的第m个属性列特征向量，特殊类型数据利用正则表达式判断，类型判定计算公式：；步骤S204：选择距离小的聚类空间，并将距离小的聚类空间中的所有数据表作为溯源数据库。3.如权利要求2所述的一种基于大数据的数据分析溯源方法，其特征在于，所述步骤S3的具体方法为：步骤S301：将溯源数据库中的数据表进行预处理，转换成格式统一的形式，提取溯源数据库中的数据表和待溯源数据表的属性列的特征向量，得到数据表属性列的特征矩阵；步骤S302：将数据表属性列的特征矩阵放入训练好的卷积神经网络模型中，输出待溯源数据表和溯源数据库中数据表的匹配结果，筛选出溯源数据库中数据表与待溯源数据表相似的数据表。4.如权利要求3所述的一种基于大数据的数据分析溯源方法，其特征在于，所述步骤S4中包括匹配策略，所述匹配策略的具体步骤为：
步骤S401：设定溯源数据库中数据表与待溯源数据表相似的数据表为，表示为，其中，q表示溯源数据库中数据表中与待溯源数据表相似的数据表中的数量，表示溯源数据库中数据表中与待溯源数据表相似的第p个数据表，，其中，表示第z个属性的第w个值；步骤S402：计算属性列比重，计算公式为：，其中表示第j个数据表的第i个属性列比重，表示数据表的属性列的值，计算表中属性列的熵值，计算公式为：，其中表示数据表中第i个属性列熵值；计算属性列权重，计算公式为：，其中的取值范围为[0，1]，；步骤S403：比较匹配的待溯源数据表和表中的属性列权重值，选择权重值最大的属性列...

【专利技术属性】
技术研发人员：张蓉，黄礼成，邢文元，刘杰，
申请(专利权)人：南京哈卢信息科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人