一种基于张量的大数据隐私安全防护方法技术

技术编号：40435301 阅读：7 留言：0更新日期：2024-02-22 23:00

本发明专利技术属于大数据技术领域，公开了一种基于张量的大数据隐私安全防护方法，包括S1、获取数据并建立个性化隐私和信息安全评价向量；S2、张量模型的构建与分解；S3、零填充与张量链格式优化；S4、特征组合与多聚类分析；S5、提取特定隐私项目的数据。本发明专利技术通过利用张量链分解避免了对原始张量的重复分解，从而提高了数据处理的效率，尤其处理大型数据集时，可以显著加快数据处理速度，减少计算资源的消耗。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于大数据，具体涉及一种基于张量的大数据隐私安全防护方法。

技术介绍

1、在现代网络数字化的情况下，为避免个别黑客对生产数据库的恶意侵入，防止数据盗窃的发生，各企业对敏感的员工、客户和业务信息数据加以保护的需求正在不断上升；而在对这些隐私数据进行处理时，可能存在数据过于繁琐或者数据量过大等问题而导致的隐私数据处理不准确的问题，难以保障隐私数据处理的准确性和可靠性。现有技术文献“钱文君等.大数据计算环境下的隐私保护技术研究进展[j].计算机学报,2022,45(04):669-701.”提出了差分隐私、数据匿名等隐私保护技术；文献“肖雄等.联邦学习的隐私保护与安全防御研究综述[j].计算机学报,2023,46(05):1019-1044.”提出了联邦学习作为人工智能领域的新兴技术；这些在很大程度上给需要将数据融合处理的数据敏感型应用带来了希望，但其仍然存在一些潜在的隐私泄露隐患和数据安全问题。为进一步更好的解决的上述问题，文献“张荣皓. 高效的隐私保护的张量分解方法研究[d].华中科技大学,2019.”提出了隐私保护的高阶bi-lanczos算法和隐私保护的基于张量链的高效tucker分解算法，但该方法的分解效率仍然较低且在处理高阶张量上有较大的局限性。

技术实现思路

1、为解决上述问题，本专利技术提供了一种基于张量的大数据隐私安全防护方法，该方法能够实现在张量链分解的形式下完整的张量多聚类过程，并可保持或改善聚类结果的精度、降低冗余和噪声能够有效的保护隐私数据不被泄露。</p>

2、本专利技术所述的一种基于张量的大数据隐私安全防护方法，包括以下步骤：

3、s1、利用深度学习和模式识别技术从大规模用户交互数据中自动识别个人信息和行为模式的数据，并利用机器学习算法将提取的数据转换为个性化隐私向量和信息安全评价向量；

4、s2、利用所述个性化隐私向量和信息安全评价向量构建综合张量模型，采用张量链分解算法处理构建的综合张量模型，得到简化后的综合张量模型，使原始、复杂的多维数据更加简化、清晰、易于分析，同时提高数据处理的效率和质量；

5、s3、对分解后的张量模型进行零填充，基于零填充张量对张量链格式进行优化，调整张量链的维度和结构；

6、s4、将经过张量链分解的数据进行特征组合，采用多聚类分析技术将特征组合的结果数据分成多个子集；

7、s5、根据多聚类分析的结果，提取和归纳出所需的用户交互数据，对敏感数据进行加密处理。

8、进一步的，s2具体为：

9、s21、所述综合张量模型为，采用张量链分解算法将综合张量模型分解为n个低阶张量，其分解式为：

10、，

11、其中，，称为核心张量，称为张量的tt秩；表示张量的缩并操作，即张量的单模乘运算；

12、s22、对分解后的综合张量模型通过缩并操作识别需要合并的低阶张量维度，重新连接这些低阶张量进行重构，结合为新的张量。

13、进一步的，s3具体为：

14、s31、根据张量的原始维度和数据的重要性，通过自适应算法动态确定零填充的维度即k阶，在指定维度上添加零；

15、s32、采用基于深度学习的预测模型确定零填充张量的核，提取并计算每个k-1维度的张量核，以及k维度和k之后维度的核；

16、s33、对原始和新零填充张量的张量链分解结果,使用基于梯度的优化方法合并；

17、s34、在合成更新的张量链后对数据进行清洗和标准化，然后应用统计模型来识别数据的关键特征和模式，利用可视化工具展示数据的重要指标和趋势。

18、进一步的，s4具体为：

19、s41、建立与综合张量模型对应的权重张量及度量系数矩阵，对原始张量、权重张量和度量系数矩阵进行tt分解；

20、s42、在张量分解形势下，对若干个生成的对象张量进行张量多聚类，具体为：

21、s421、关联张量链的扩维，获取对象张量的关联张量，求出关联张量链所有tt核第二阶的最大维数，然后得到的最大维数进行补0操作，将每一阶都补位最大维数；

22、s422、将s41中分解的张量的元素与tt核一一对应，具体公式如下：

23、，

24、其中，代表tt核的张量，代表分解的张量，其中d为代表分解的张量数量且为常数；根据张量的纤的坐标中固定值选择对应tt核中的切片，将矩阵相乘即得到一个纤的和，通过非0纤的归一化和0纤归一化，得到辅助张量，将所有辅助张量相加，即为转移张量；

25、s423、通过基于深度学习的聚类方法实现张量多聚类的获取，分析每个聚类的特征。

26、进一步的，s5中，对数据提取具体为：设计自动化工具，使其具有高效的数据处理库和框架，支持多种数据格式和数据源；预定义标准的设定，根据隐私项目的特性，定义一系列可用于数据定位的标准和特征，在工具中实现参数配置调整；在自动化工具内设计数据查询和检索机制以及数据提取和处理；设计用户界面用于设定查询参数和查看进程；在完成张量多聚类后，使用数据分析来识别敏感信息，对识别出的敏感数据实施加密措施；采用动态多维k-匿名性方法，以去除或替换敏感数据中能够识别个人身份的信息；存储于加密的数据库系统中；定期监控数据处理和存储系统的安全状态，以及对数据访问和操作进行审计，确保符合相关的数据保护和隐私规定。

27、进一步的，所述动态多维k-匿名性方法具体为：

28、1）对数据集进行综合的多维度分析，考虑不同维度间的相关性和背景知识，提取数据集特征，评估个人识别风险；

29、2）根据所提取的数据集特征和业务隐私要求建立动态系统，使用机器学习算法预测潜在的隐私风险，根据实时数据流和持续的风险评估结果自动调整k值；

30、3）用基于机器学习的复杂泛化策略，自动微调范湖过程中的参数，使信息损失最小化；

31、4）使用自动化机器学习算法来识别数据的自然分段，根据数据分布的实时变化，自动调整数据分段的大小和边界，以保持最优的信息保留；

32、5）引入上下文感知机制，根据数据使用的场景和目的，采用上下文感知机制调整匿名化策略；

33、6）实施持续监控系统，评估匿名化数据的安全性和合规性。

34、本专利技术的有益效果为：本专利技术所述方法利用张量链分解避免了对原始张量的重复分解，特别是在处理大规模多维数据时，大大缩短了执行时间，减少计算资源的消耗，显著提高了数据处理的效率；利用多聚类技术和隐私数据的加密、匿名化处理为数据隐私提供了更强的保护，有效防止数据泄露和滥用，多维k-匿名性和增强型数据泛化策略提升了数据处理的精确度，确保在保护隐私的同时最大限度地保留数据的实用性；本专利技术通过整体的张量多聚类和高效的分布式计算，提供了一种优化的多聚类解决方案，根据数据的性质和分布的动态变化随时调整，可有效处理并表示高维数据的复杂性，使得数据分析更加精确和高效；本专利技术的方法在实际本文档来自技高网...

【技术保护点】

1.一种基于张量的大数据隐私安全防护方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于张量的大数据隐私安全防护方法，其特征在于，S2具体为：

3.根据权利要求1所述的一种基于张量的大数据隐私安全防护方法，其特征在于，S3具体为：

4.根据权利要求1所述的一种基于张量的大数据隐私安全防护方法，其特征在于，S4具体为：

5.根据权利要求4所述的一种基于张量的大数据隐私安全防护方法，其特征在于，S5中，在完成张量多聚类后，使用数据分析识别敏感信息，对识别出的敏感数据进行加密；采用动态多维k-匿名性方法，以去除或替换敏感数据中能够识别个人身份的信息，存储于加密的数据库系统中；定期监控数据处理和存储系统的安全状态，以及对数据访问和操作进行审计，确保符合相关的数据保护和隐私规定。

6.根据权利要求5所述的一种基于张量的大数据隐私安全防护方法，其特征在于，所述动态多维k-匿名性方法具体为：

【技术特征摘要】

1.一种基于张量的大数据隐私安全防护方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于张量的大数据隐私安全防护方法，其特征在于，s2具体为：

3.根据权利要求1所述的一种基于张量的大数据隐私安全防护方法，其特征在于，s3具体为：

4.根据权利要求1所述的一种基于张量的大数据隐私安全防护方法，其特征在于，s4具体为：

5.根据权利要求4所述的一种基于张量的大数据隐私安...

【专利技术属性】
技术研发人员：张宏俊，李鹏，王汝传，徐鹤，姜晓，杨书鑫，史德胜，
申请(专利权)人：南京邮电大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人