【技术实现步骤摘要】
敏感数据识别模型的增量学习方法、识别方法和装置
[0001]本专利技术涉及电数据处理
,尤其涉及一种敏感数据识别模型的增量学习方法
、
识别方法和装置
。
技术介绍
[0002]在当今数字化的世界中,数据隐私安全保护的意义不言而喻
。
随着大数据和人工智能的广泛应用,大量的个人信息被收集
、
存储和处理,这些信息包括但不限于个人身份
、
位置
、
健康状况
、
消费习惯等
。
如果这些数据被非法使用或者泄露,可能会对个人的生活
、
工作甚至人身安全造成严重的影响
。
因此,保护数据隐私安全,不仅是维护个人权益,也是社会稳定和发展的重要保障,而保护数据隐私安全的前提是识别出隐私数据,以确定哪些数据是敏感的
、
需要特别保护的
。
如此才能对这些数据进行特殊处理,例如加密存储
、
匿名化处理等,以防止隐私数据被泄露
。
[0003]目前进行隐私数据识别时通常采用基于机器学习或深度学习技术实现的隐私数据识别模型,通过训练模型识别出包含隐私信息的数据
。
这些模型可以识别出文本
、
图像
、
声音等多种形式的隐私数据
。
然而,由于隐私数据的定义和形式多种多样,而且随着时间的推移,新的隐私数据形式也在不断出现,所以现有的模型往往需要不断地进行更 ...
【技术保护点】
【技术特征摘要】
1.
一种敏感数据识别模型的增量学习方法,其特征在于,包括:接收用户发起的模型增量学习请求,并基于所述模型增量学习请求确定增量学习模式和训练样本更新信息;其中,所述增量学习模式包括数据类别
、
样本文件以及敏感关键词的新增
、
删除和类别修改;基于所述训练样本更新信息确定更新样本并提取所述更新样本的关键词后,基于所述更新样本对训练文本集合进行更新,并基于所述增量学习模式以及所述更新样本的关键词对数据识别模型中相应类别的分类关键词列表进行更新;基于所述数据识别模型对训练文本集合中各训练样本的关键词序列进行敏感数据识别,得到各训练样本的识别结果,并基于各训练样本的类别标签和识别结果之间的差异对相应类别的分类关键词列表进行更新,得到增量学习后的数据识别模型
。2.
根据权利要求1所述的敏感数据识别模型的增量学习方法,其特征在于,所述基于所述增量学习模式以及所述更新样本的关键词对数据识别模型中相应类别的分类关键词列表进行更新,具体包括:若所述增量学习模式为样本文件或敏感关键词的新增或删除,则将所述更新样本的关键词增加到所述样本文件或敏感关键词对应类别的分类关键词列表中并设置所述更新样本的关键词对应的权重,或从所述样本文件或敏感关键词对应类别的分类关键词列表中将所述更新样本的关键词删除;若所述增量学习模式为数据类别的新增或删除,则基于所述更新样本的关键词构建所述数据类别对应的分类关键词列表并设置所述更新样本的关键词对应的权重,或删除所述数据类别对应的分类关键词列表;若所述增量学习模式为样本文件或敏感关键词的类别修改,则从所述样本文件或敏感关键词对应原始类别的分类关键词列表中将所述更新样本的关键词删除,并将所述更新样本的关键词增加到所述样本文件或敏感关键词对应更新类别的分类关键词列表中;若所述增量学习模式为数据类别的类别修改,则融合原始类别的分类关键词列表与更新类别的分类关键词列表
。3.
根据权利要求2所述的敏感数据识别模型的增量学习方法,其特征在于,所述若所述增量学习模式为样本文件或敏感关键词的新增或删除,则将所述更新样本的关键词增加到所述样本文件或敏感关键词对应类别的分类关键词列表中并设置所述更新样本的关键词对应的权重,或从所述样本文件或敏感关键词对应类别的分类关键词列表中将所述更新样本的关键词删除,具体包括:若所述增量学习模式为样本文件或敏感关键词的删除,则对所述更新样本的关键词进行聚类,得到多个关键词类簇,并确定所述更新样本的关键词在所述样本文件或敏感关键词对应类别的分类关键词列表中的权重;针对任一关键词类簇,对所述任一关键词类簇中的相似关键词按所属更新文本的类别划分,得到多个相似关键词集合后,基于每个相似关键词集合中的相似关键词数量,确定所述任一关键词类簇是否为跨类别簇;若任一关键词类簇不为跨类别簇,或者若任一关键词类簇为跨类别簇且包含超过预设数量的相似关键词在所述样本文件或敏感关键词对应类别的分类关键词列表中的权重大于第一预设值,则将所述任一关键词类簇中的相似关键词在所述样本文件或敏感关键词对
应类别的分类关键词列表中的权重降低;若任一关键词类簇为跨类别簇且在所述样本文件或敏感关键词对应类别的分类关键词列表中的权重大于第一预设值的相似关键词数量小于所述预设数量,则从所述样本文件或敏感关键词对应类别的分类关键词列表中删除所述任一关键词类簇中权重小于或等于所述第一预设值的相似关键词
。4.
根据权利要求2所述的敏感数据识别模型的增量学习方法,其特征在于,所述若所述增量学习模式为样本文件或敏感关键词的类别修改,则从所述样本文件或敏感关键词对应原始类别的分类关键词列表中将所述更新样本的关键词删除,并将所述更新样本的关键词增加到所述样本文件或敏感关键词对应更新类别的分类关键词列表中,具体包括:针对所述更新样本中已存在于所述样本文件或敏感关键词对应更...
【专利技术属性】
技术研发人员:张黎,吴洋,
申请(专利权)人:闪捷信息科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。