【技术实现步骤摘要】
一种面向项目密评的敏感数据识别方法及系统
[0001]本专利技术属于数据安全
,具体涉及一种面向项目密评的敏感数据识别方法及系统。
技术介绍
[0002]项目评审是由专家与参与会议的技术人员通过问询、交流与探讨,辨识项目技术难点与风险点,研究技术途径可行性、拟定方案合理性、实现科学决断的一项技术活动。对于提升设计工作效率,缩短研制研发周期,提高产品经济效益与社会效益,都具有十分重要的意义。然而,在项目书中可能会涉及到各种类型的敏感数据,如:个人信息数据、企业经营数据和国家重要机密信息等,其中个人数据包括个人身份信息、个人生物识别信息、个人健康生理信息等10余个类型;国有企业、民营企业等在经营过程中的重要工业技术、设计、施工、安装文档和数据等;国家市政工程、航空航天与高端制造技术数据等。这类敏感数据在项目立项、评审与结项过程中作为评判依据必不可少,却存在巨大的敏感数据泄露问题,会给国家、企业及人民造成严重损失。
[0003]为了保障项目申请过程中敏感数据的安全,目前方法主要集中在隐私保护的数据发布(PPDP)阶段 ...
【技术保护点】
【技术特征摘要】
1.一种面向项目密评的敏感数据识别方法,其特征在于,所述方法包括:采集各类项目的主内容及其元数据并进行预处理,得到数据集D,对数据集D进行标注与格式化;对数据集D中的各个类型的项目分别构建敏感数据深度识别子模型,计算各个模型在对应类型项目数据下的初始梯度;基于联邦学习模型计算各个子模型的聚合梯度均值并共享给各个子模型,更新各个子模型的参数;根据联邦学习模型的损失函数判断是否停止训练或进入下一轮训练,直到联邦学习模型训练结束;待识别的项目数据及其元数据输入联邦学习模型,识别项目中的敏感数据。2.根据权利要求1所述的面向项目密评的敏感数据识别方法,其特征在于,所述采集各类项目的主内容及其元数据并进行预处理具体包括:采集各类项目评审过程中的项目数据及其元数据;所述项目数据包括文本、图片和/或表格,所述元数据为数据描述、数据名称、数据类型相关的文本数据;将元数据以文本形式整合排列,并与各自的项目数据对应;将项目数据和对应的元数据以元组的形式保存。3.根据权利要求1所述的面向项目密评的敏感数据识别方法,其特征在于,所述对数据集D进行标注与格式化具体包括:将数据集D按照类型抽取为常见数据类型数据集D1和非常见类型数据集D2;制定各类型敏感数据分级标准,并细化其敏感数据抽取与分离细则;抽取常见数据类型数据集D1和非常见类型数据集D2中的敏感信息,将敏感信息标记为MD,非敏感信息标记为FD,定义敏感数据级别标签L;对每个项目数据,形成<元数据,MD,FD,L>格式的四元组。4.根据权利要求1所述的面向项目密评的敏感数据识别方法,其特征在于,所述基于联邦学习模型计算各个子模型的聚合梯度均值并共享给各个子模型,更新各个子模型的参数具体包括:初始化各个子模型的参数,分别读取常见数据类型数据集D1和非常见类型数据集D2中的样本并分别输入联邦学习模型中进行训练;通过梯度剪枝算法对各个子模型m
i
剪枝;计算剪枝后子模型m
i
中第k层结点的梯度;计算联邦学习模型的聚合梯度,公式如下:其中,表示子模型m
i
中第k层结点的梯度,K为子模型m
i
的总层数;计算聚合梯度的均值并共享给各个子模型m
i
,利用反向传播算法迭代更新各个子模型的参数,使损失函...
【专利技术属性】
技术研发人员:李国强,罗隽,李琳,吴小华,刘磊,孙雪丰,
申请(专利权)人:武汉深捷科技股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。