数据处理方法、装置、电子设备和计算机可读存储介质制造方法及图纸

技术编号:36224337 阅读:20 留言:0更新日期:2023-01-04 12:23
本公开提供一种数据处理方法、装置以及电子设备和计算机可读存储介质,涉及计算机与互联网技术领域。数据处理方法包括:对待检测文本进行分词得到待检测词;对待检测词进行特征提取处理,以确定待检测词的敏感特性和信息熵,敏感特性用于描述待检测词的敏感特性;通过训练完成的敏感数据检测模型对待检测词的敏感特性和信息熵进行处理,敏感数据检测模型包括敏感词的状态转移矩阵、输出概率分布和初始概率分布;根据敏感数据检测模型的状态转移矩阵、输出概率分布和初始概率分布,确定待检测词是敏感词的打分值;在待检测词是敏感词的打分值在目标阈值范围内的情况下,确定待检测文本中的待检测词是敏感词。文本中的待检测词是敏感词。文本中的待检测词是敏感词。

【技术实现步骤摘要】
数据处理方法、装置、电子设备和计算机可读存储介质


[0001]本公开涉及计算机与互联网
,尤其涉及一种数据处理方法及装置、电子设备和计算机可读存储介质。

技术介绍

[0002]在互联网
中,通常会对文本中是否存在敏感数据(如用户名、密码等)进行检测。
[0003]但是,在敏感数据识别的工作中,现有技术一般采用基于规则的方法,该方法的识别效果不理想,过于依赖人工,代价较大。
[0004]该基于规则的敏感数据检测方法主要依赖特征模板,该模板是专家根据上下文人工分析归纳总结的。此类方法一般采用正向匹配算法在词典中查找类似敏感数据。该方法缺点显而易见:
[0005]1.过于依赖人工,效果不明显,且需要人工参与反复测试调整,整个过程代价较大。
[0006]2.文本中的敏感词样式变化复杂,对于特殊符号等构成的敏感词无法准确识别。
[0007]需要说明的是,在上述
技术介绍
部分公开的信息仅用于加强对本公开的背景的理解。

技术实现思路

[0008]本公开的目的在于提供一种数据处理方法、装置、电子本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种数据处理方法,其特征在于,包括:对待检测文本进行分词得到待检测词;对所述待检测词进行特征提取处理,以确定所述待检测词的敏感特性和信息熵,所述敏感特性用于描述所述待检测词的敏感特性;通过训练完成的敏感数据检测模型对所述待检测词的敏感特性和信息熵进行处理,所述敏感数据检测模型包括敏感词的状态转移矩阵、输出概率分布和初始概率分布;根据所述敏感数据检测模型的状态转移矩阵、输出概率分布和初始概率分布,确定所述待检测词是敏感词的打分值;在所述待检测词是敏感词的打分值在目标阈值范围内的情况下,确定所述待检测文本中的所述待检测词是敏感词。2.根据权利要求1所述方法,其特征在于,所述待检测词的敏感特性包括:大写字符特征、小写字符特征、数字字符特征、特殊字符特征或中文字符特征中的一个或者多个。3.根据权利要求2所述方法,其特征在于,确定所述待检测词的大写字符特征或者小写字符特征或者数字字符特征或者特殊字符特征或者中文字符特征,包括:确定所述待检测词中大写字符的出现次数;根据所述待检测词的词语长度和所述大写字符的出现次数确定所述待检测词的大写字符频率,并将所述待检测词的大写字符频率作为所述待检测词的大写字符特征;或者,确定所述待检测词中小写字符的出现次数;根据所述待检测词的词语长度和所述小写字符的出现次数确定所述待检测词的小写字符频率,并将所述待检测词的小写字符频率作为所述待检测词的小写字符特征;或者,确定所述待检测词中数字字符的出现次数;根据所述待检测词的词语长度和所述数字字符的出现次数确定所述待检测词的数字字符频率,并将所述待检测词的数字字符频率作为所述待检测词的数字字符特征;或者,确定所述待检测词中特殊字符的出现次数;根据所述待检测词的词语长度和所述特殊字符的出现次数确定所述待检测词的特殊字符频率,并将所述待检测词的特殊字符频率作为所述待检测词的特殊字符特征;或者,确定所述待检测词中中文字符的出现次数;根据所述待检测词的词语长度和所述中文字符的出现次数确定所述待检测词的中文字符频率,并将所述待检测词的中文字符频率作为所述待检测词的中文字符特征。4.根据权利要求2所述方法,其特征在于,确定所述待检测词的大写字符特征或者小写字符特征或者数字字符特征或者特殊字符特征或者中文字符特征中,包括:确定所述待检测词中大写字符的出现次数;确定所述待检测文本中大写字符的出现次数;根据所述待检测词中大写字符的出现次数和所述待检测文本中大写字符的出现次数,确定所述待检测词的大写字符正字符频率,以便根据所述待检测词的大写字符正字符频率确定所述待检测词的大写字符特征;或者,确定所述待检测词中小写字符的出现次数;确定所述待检测文本中小写字符的出现次数;根据所述待检测词中小写字符的出现次数和所述待检测文本中小写字符的出现次数,
确定所述待检测词的小写字符正字符频率,以便根据所述待检测词的小写字符正字符频率确定所述待检测词的小写字符特征;或者,确定所述待检测词中数字字符的出现次数;确定所述待检测文本中数字字符的出现次数;根据所述待检测词中数字字符的出现次数和所述待检测文本中数字字符的出现次数,确定所述待检测词的数字字符正字符频率,以便根据所述待检测词的数字字符正字符频率确定所述待检测词的数字字符特征;或者,确定所述待检测词中特殊字符的出现次数;确定所述待检测文本中特殊字符的出现次数;根据所述待检测词中特殊字符的出现次数和所述待检测文本中特殊字符的出现次数,确定所述待检测词的特殊字符正字符频率,以便根据所述待检测词的特殊字符正字符频率确定所述待检测词的特殊字符特征;或者,确定所述待检测词中中文字符的出现次数;确定所述待检测文本中中文字符的出现次数;根据所述待检测词中中文字符的出现次数和所述待检测文本中中文字符的出现次数,确定所述待检测词的中文字符正字符频率,以便根据所述待检测词的中文字符正字符频率确定所述待检测词的中文字符特征。5.根据权利要求4所述方法,其特性在于,根据所述待检测词的大写字符正字符频率确定所述待检测词的大写字符特征,包括:确定所述待检测文本中待检测词的数量;确...

【专利技术属性】
技术研发人员:赵平
申请(专利权)人:京东科技信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1