用于敏感信息预分类的方法、系统、装置和介质制造方法及图纸

技术编号:32858150 阅读:17 留言:0更新日期:2022-03-30 19:32
公开了一种用于训练敏感信息预分类模型的方法,包括:构建高频词词袋,所述高频词词袋中包括敏感文本集中出现频率最高的指定数量n个词;基于所述高频词词袋,构建训练集;以及使用所述训练集来训练所述敏感信息预分类模型。本申请还涉及用于执行敏感信息预分类的方法和系统,以及相关联的装置和介质。本申请的方案能够对数据中的敏感信息进行准确地预分类,从而有利于选择更适用的敏感信息识别算法或脱敏算法。脱敏算法。脱敏算法。

【技术实现步骤摘要】
用于敏感信息预分类的方法、系统、装置和介质


[0001]本申请涉及敏感信息处理,尤其涉及训练敏感信息预分类模型的方法以及用于敏感信息预分类的方法和系统及相关联的装置和介质。

技术介绍

[0002]目前,对敏感信息的保护越来越被重视。存在各种各样类型的敏感信息,包括但不限于等。
[0003]在一些传统方案中,通常不判断文本中的敏感信息的类型,而是直接使用通用的敏感信息识别和脱敏算法。然而,由于不同类型的敏感信息的格式和特征差距极大,通用的敏感信息识别和脱敏算法通常表现较差。
[0004]因此,需要能够对敏感信息进行预分类以便于选择最适用的敏感信息识别算法和 /或脱敏算法的方案。

技术实现思路

[0005]为了克服现有技术的缺陷,本说明书的一个或多个实施例通过探索敏感文本集中的高频词与敏感信息类别之间的关联,对敏感信息进行预分类,从而用于选择最适用的敏感信息识别算法和/或脱敏算法。
[0006]本说明书的一个或多个实施例通过以下技术方案来实现其上述目的。
[0007]在一个方面中,提供了一种用于训练敏本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种用于训练敏感信息预分类模型的方法,包括:构建高频词词袋W,所述高频词词袋中包括敏感文本集中经加权出现频率最高的指定数量n个词W={w1,

,w
i
,

w
n
};基于所述高频词词袋W,构建训练集,所述训练集包括多个样本,其中构建训练集包括:获取文本;确定所述文本的标签集L={l1,

,l
i
,

l
k
},其中所述标签集L中的标签l
i
指示所述文本是否涉及对应的敏感信息类型;生成所述文本的词频向量WF={wf1,

,wf
i
,

,wf
n
},所述词频向量WF中的元素wf
i
为所述高频词词袋中的词w
i
在所述文本中出现的频率;使用{WF,L}作为所述训练集中的样本;以及使用所述训练集来训练所述敏感信息预分类模型。2.如权利要求1所述的方法,其中构建高频词词袋W包括:对所述敏感文本集中的敏感文本执行分词以获得所述敏感文本集中所包括的多个词;以及统计所述敏感文本集中的词的经加权的出现次数;以及选择出现次数最多的所述指定数目n个词放入所述高频词词袋。3.如权利要求2所述的方法,其中构建高频词词袋W还包括:在统计所述敏感文本集中的词的出现次数之前,过滤掉排除词名单中包括的词。4.如权利要求2所述的方法,其中构建高频词词袋W还包括:在统计所述敏感文本集中的词的出现次数之前,基于TF

IDF算法来设置或调整所述敏感文本集中的一个或多个词的权重。5.如权利要求1所述的方法,其中生成所述文本的词频向量包括:统计所述高频词词袋中的每个词w
i
在所述文本中的出现次数;针对所述文本的长度对每个词w
i
的出现次数执行归一化;以及将每个词w
i
的经归一化的出现次数作为所述词w
i
在所述文本中出现的频率wf
i
。6.如权利要求1所述的方法,其中所述敏感信息预分类模型为多标签决策树模型。7.如权利要求1所述的方法,其中所述文本所涉及的敏感信息类型取决于所述文本中的信息片段的格式。8.一种用于执行敏感信息预分类的方法,包括:获取高频词词袋W,所述高频词词袋中包括敏感文本集中经加权出现频率最高的指定数量n个词W={w1,

,w
i
,

w
n
};获取待处理文本;基于所述高频词词袋W,生成所述待处理文本的词频向量WF={wf1,

,wf
i
,

,wf
n
},所述wf
i
为所述高频词词袋中的词w
i
在所述...

【专利技术属性】
技术研发人员:李丰廷刘焱姚兴邹钢郭飞张安蒙史艳华刘威歆刘玉华张梦梦罗赛男
申请(专利权)人:支付宝杭州信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1