【技术实现步骤摘要】
本申请涉及数据处理领域,具体而言,涉及一种融合隐私保护的数据治理方法及系统。
技术介绍
1、随着信息技术的迅猛发展和大数据时代的来临,文本数据已成为了企业和个人在日常生活和工作中产生、处理的重要信息载体。在数据分析、自然语言处理、数据挖掘等众多应用场景中,文本数据的价值日益凸显。为了有效地从这些海量的文本数据中提取有价值的信息并进行准确、高效的处理,数据特征表示技术被广泛研究与应用。文本数据中往往包含着大量的隐私敏感信息,如个人隐私、商业秘密等,如何在充分利用数据的同时保护这些信息不被泄露,是数据治理领域面临的一个重要挑战。数据特征表示技术在这方面扮演着至关重要的角色,通过对文本进行特征表示,可以方便机器学习模型基于提取的特征判断是否包含预设的敏感信息。如何准确提取待披露文档的特征表示是关键,由于文本信息的复杂性,同一敏感信息可能具备不同的表达方式,相关技术难以准确提取准确的特征表示。
技术实现思路
1、本专利技术的目的在于提供一种融合隐私保护的数据治理方法及系统。
2、本申请
...【技术保护点】
1.一种融合隐私保护的数据治理方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述依据所述每个文本数据对应的第一文档表征向量,在所述多个调试样本子库中确定多个目标调试样本子库,包括:
3.根据权利要求2所述的方法,其特征在于,所述依据所述每个文本数据对应的第一文档表征向量,确定每个调试样本子库的聚集程度,包括:
4.根据权利要求1所述的方法,其特征在于,所述确定每个目标调试样本子库中的原始敏感内容文档对应的多个非敏感内容文档的第一调试共性顺次,包括:
5.根据权利要求4所述的方法,其特征在于,
...【技术特征摘要】
1.一种融合隐私保护的数据治理方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述依据所述每个文本数据对应的第一文档表征向量,在所述多个调试样本子库中确定多个目标调试样本子库,包括:
3.根据权利要求2所述的方法,其特征在于,所述依据所述每个文本数据对应的第一文档表征向量,确定每个调试样本子库的聚集程度,包括:
4.根据权利要求1所述的方法,其特征在于,所述确定每个目标调试样本子库中的原始敏感内容文档对应的多个非敏感内容文档的第一调试共性顺次,包括:
5.根据权利要求4所述的方法,其特征在于,所述依据所述每个非敏感内容文档与所述原始敏感内容文档之间的共性度量结果,确定所述多个非敏感内容文档的第一调试共性顺次,包括:
6.根据权利要求1所述的方法,其特征在于,所述依据所述多个目标调试样本子库和所述每个目标调试样本子库中的原始敏感内容文档对应的目标非敏感内容文档的文本数据,对所述拟调试的数据特...
【专利技术属性】
技术研发人员:蒋合领,王玉富,谢渊杰,
申请(专利权)人:贵州安融科技发展有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。