文本数据脱敏方法、装置、介质及电子设备制造方法及图纸

技术编号:24169761 阅读:93 留言:0更新日期:2020-05-16 02:34
本发明专利技术提供了一种文本数据脱敏方法,包括:获取文本数据;通过预设字典树和/或预设正则表达式对所述文本数据处理,获取所述文本数据的第一敏感实体词;通过预设模型对所述文本数据处理,获取所述文本数据中每个字符的标签;根据所述文本数据中每个字符的标签确定所述文本数据的第二敏感实体词;根据所述文本数据的第一敏感实体词和所述文本数据的第二敏感实体词确定所述文本数据的敏感实体词;对所述文本数据的敏感实体词进行脱敏处理,以此方式利用第一敏感实体词和第二敏感实体词互相补充校对来确定出该文本数据的敏感实体词更加准确,因此使得在对文本数据进行脱敏处理的结果更加准确,避免对非敏感实体词进行脱敏处理,从而提高用户体验。

【技术实现步骤摘要】
文本数据脱敏方法、装置、介质及电子设备
本专利技术涉及自然语言处理的
,具体而言,涉及一种文本数据脱敏方法、装置、介质及电子设备。
技术介绍
随着互联网的快速发展,各种各样的文本数据随之产生。一般地,各种各样的文本数据中包含一个或多个实体词。在实体词中可能包含涉及用户隐私的实体词,通常将其称为敏感实体词。针对这样情况需要对文本数据中的敏感实体词进行脱敏处理。在对文本数据中的敏感实体词脱敏之前需要从文本数据中确定出具体的敏感实体词,然后对其进行脱敏处理。在相关技术中,一般通过以下几种方式来从文本数据中确定敏感实体词:确定为全部隐私信息字段和其它数据、基于词典和规则的方法、基于统计机器学习的方法。但是专利技术人在实现本专利技术的专利技术构思时发现相关技术中存在以下技术问题:“确定为全部隐私信息内容字段”是指确定文本内容的字段,例如,姓名、电话、身份证号等,这类数据因为属于确定全部为隐私数据,处理方式是直接用字符替换掉原始文本内容。这类脱敏方法的缺点是必须确定字段的明确含义,而且还必须是全部为隐私内容。但是由于目前的文本数据中字本文档来自技高网...

【技术保护点】
1.一种文本数据脱敏方法,其特征在于,包括:/n获取文本数据;/n通过预设字典树和/或预设正则表达式对所述文本数据处理,获取所述文本数据的第一敏感实体词;/n通过预设模型对所述文本数据处理,获取所述文本数据中每个字符的标签;/n根据所述文本数据中每个字符的标签确定所述文本数据的第二敏感实体词;/n根据所述文本数据的第一敏感实体词和所述文本数据的第二敏感实体词确定所述文本数据的敏感实体词;/n对所述文本数据的敏感实体词进行脱敏处理。/n

【技术特征摘要】
1.一种文本数据脱敏方法,其特征在于,包括:
获取文本数据;
通过预设字典树和/或预设正则表达式对所述文本数据处理,获取所述文本数据的第一敏感实体词;
通过预设模型对所述文本数据处理,获取所述文本数据中每个字符的标签;
根据所述文本数据中每个字符的标签确定所述文本数据的第二敏感实体词;
根据所述文本数据的第一敏感实体词和所述文本数据的第二敏感实体词确定所述文本数据的敏感实体词;
对所述文本数据的敏感实体词进行脱敏处理。


2.根据权利要求1所述的方法,其特征在于,该方法还包括:
对通用词典中的字符进行组合,得到预设词典;
基于所述预设词典中的词汇建立字典树,所述字典树中的每个节点为所述预设词典中每个词汇的一个字符;
在所述字典树中建立自动机,得到所述预设字典树。


3.根据权利要求1所述的方法,其特征在于,该方法还包括:
基于预设实体词汇的特征构建所述正则表达式,所述预设实体词汇包括以下任意一项或多项:身份证号码、电话号码、银行卡号、护照号码、社保卡号码、门牌号码、邮箱账号、机构名称。


4.根据权利要求1所述的方法,其特征在于,在通过所述预设模型对所述文本数据处理,获取所述文本数据中词汇的标签之前,该方法包括:
对所述文本数据中的每个字符进行处理,得到每个字符的特征向量;
对所述文本数据中每个词汇进行处理,得到每个词汇的特征向量;
基于每个字符的特征向量和每个词汇的特征向量生成所述文本数据的特征向量序列。


5.根据权利要求4所述的方法,其特征在于,通过所述预设模型对所述文本数据处理,获取所述文本数据中每个字符的标签包括:
通过所述双向长短期记忆网络层对所述文本数据的特征向量序列处理,获取所述文本数据中每个位置的字符对应的标签的概率;
通过所述条件随机场层对每个位置的字符对应的标签的概率处理,获取所述标签的概率的打分;
通过维特比算法对所述标签的概...

【专利技术属性】
技术研发人员:张子锐
申请(专利权)人:医渡云北京技术有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1