企业多源异构数据敏感信息智能化统一检测方法及系统技术方案

技术编号:40436175 阅读:24 留言:0更新日期:2024-02-22 23:00
本发明专利技术属于计算机科学中的隐私计算、人工智能、模式识别与分类技术领域,公开了一种企业多源异构数据敏感信息智能化统一检测方法及系统,可对企业在使用数据过程中涉及的多源异构数据进行判断是否存在违规行为,获取多源异构数据;对多源异构数据按其数据组成形式进行划分,分别为图像/图片、日志/文本、结构化向量数据,并进行相应的预处理;对预处理后的多源异构数据结合隐私监管规则进行特征抽取,形成三类特征子集;对抽取后的三类特征子集分别采用分类器进行分类;最后对三个分类器的分类结果,通过多源异构融合统一识别与分类模块输出最终分类结果。本发明专利技术能够充分利用了各模态中的数据信息,提升了分类准确率。

【技术实现步骤摘要】

本专利技术属于计算机科学中的隐私计算、人工智能、模式识别与分类,尤其涉及一种企业多源异构数据敏感信息智能化统一检测方法及系统


技术介绍

1、目前,数字资产已经成为核心生产要素,数据的大规模收集和合法使用、二次加工,逐渐成为一种全新的商业化运营模式。随着《数据安全法》、《个人信息保护法》的陆续实施对数据的合法使用、隐私保护提出的更高的法律要求。企业在使用数据过程中,是否使用了个人敏感数据,是否存在隐私侵犯行为,成为目前企业自监管、政府监管部门执法监管关注的首要问题。然而,企业在搜集、利用个人数据时,涉及到图像、图片、文本、日志,乃至数值类的等多源异构数据,只有建立了面向多源异构数据的智能化隐私信息识别与分类,才能实现企业级多源异构数据中隐私、敏感信息可靠识别、对隐私侵犯时间进行可靠分类,为企业自监管,为执法部门执法监管提供可靠的执法依据。

2、传统的隐私监管检测往往从纯文本,或纯图片,以及基于传统机器学习算法的角度进行分类检测。基于现实领域的隐私监管通常以多源异构的形式出现,如何有效的整合数据中的多源异构信息获取监管判断是一项挑战性工作。...

【技术保护点】

1.一种企业多源异构数据敏感信息智能化统一检测方法,其特征在于,包括以下步骤:

2.如权利要求1所述的企业多源异构数据敏感信息智能化统一检测方法,其特征在于,所述第一步中,收集和获取多源异构数据是指隐私监管条件下收集到的存在违规的数据。

3.如权利要求1所述的企业多源异构数据敏感信息智能化统一检测方法,其特征在于,所述第二步中,首先对多源异构数据按其数据组成形式进行划分,分为图像/图片、日志/文本、结构化向量数据;然后进行相应的预处理,在预处理中该专利技术利用不同形式的数据预处理模块进行预处理,包括对图像数据标准化,部分字符矢量化,筛选过滤异常数据和噪声数据;...

【技术特征摘要】

1.一种企业多源异构数据敏感信息智能化统一检测方法,其特征在于,包括以下步骤:

2.如权利要求1所述的企业多源异构数据敏感信息智能化统一检测方法,其特征在于,所述第一步中,收集和获取多源异构数据是指隐私监管条件下收集到的存在违规的数据。

3.如权利要求1所述的企业多源异构数据敏感信息智能化统一检测方法,其特征在于,所述第二步中,首先对多源异构数据按其数据组成形式进行划分,分为图像/图片、日志/文本、结构化向量数据;然后进行相应的预处理,在预处理中该发明利用不同形式的数据预处理模块进行预处理,包括对图像数据标准化,部分字符矢量化,筛选过滤异常数据和噪声数据;

4.如权利要求1所述的企业多源异构数据敏感信息智能化统一检测方法,其特征在于,所述第三步中,对预处理完成的图像/图片、日志/文本、结构化向量数据进行特征抽取,去除部分冗余的、无关的特征,在多源异构数据特征抽取阶段,该发明结合隐私监管规则抽取多源异构数据中符合分类要求的图片特征、文本特征、结构化向量特征,然后采用不同的分类器进行分类识别;

5.如权利要求1所述的企业多源异构数据敏感信息智能化统一检测方法,其特征在于,所述第四步中,对特征抽取完成的图像/图片、日志/文本、结构化向量数据的特征子集分别采用resnet、textcnn和xgboost分类器;

6.如权利要求1所述的企业多源异构数据敏感信息智能化统一检测方法,其特征在于,所述第五步中,分别得到单个样本中四种违规程度的概率,...

【专利技术属性】
技术研发人员:姜伟赵高华姜婧怡宋首友林浩田原张璨翟优
申请(专利权)人:中国网络空间研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1