System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种脱敏数据的复敏方法、电子设备及存储介质技术_技高网

一种脱敏数据的复敏方法、电子设备及存储介质技术

技术编号:41128185 阅读:2 留言:0更新日期:2024-04-30 17:56
本发明专利技术提供了一种脱敏数据的复敏方法、电子设备及存储介质,涉及数据处理领域,所述方法包括如下步骤:获取预设拼音列表和预设敏感词列表集,所述预设敏感词的拼音为预设拼音,获取目标文本和目标文本对应的目标拼音序列,遍历预设拼音列表,若目标拼音序列中存在预设拼音,将该预设拼音标记为关键拼音,并获取该关键拼音在目标文本中对应的关键词,遍历目标文本,获取关键词在目标文本中出现的位置列表,遍历位置列表,获取位于A<subgt;i</subgt;的关键词的纠正结果,从而获取纠正结果列表,基于纠正结果列表,获取最终文本;本发明专利技术通过拼音实现了同音词语的识别,将原本脱敏的词语纠正回正确词语,实现对脱敏词语的复敏。

【技术实现步骤摘要】

本专利技术涉及数据处理领域,特别是涉及一种脱敏数据的复敏方法、电子设备及存储介质


技术介绍

1、随着互联网的快速发展,使用网络的人数逐年变多,网民的覆盖面越来越广,不同年龄层的网民更加全面。对于安全和谐绿色上网,提出了更高的要求。为了更加和谐上网,很多应用和网站都设置有敏感词库,当网民使用到敏感词库中的敏感词进行发言等操作时,应用和网站可以采用屏蔽等操作;但随着时间发展,越来越多的网民选择使用同音词等来代替掉敏感词,以避免掉网络检查,造成了对上网环境的负面影响。


技术实现思路

1、针对上述技术问题,本专利技术采用的技术方案为:一种脱敏数据的复敏方法,所述方法包括如下步骤:

2、s100,获取预设拼音列表b={b1,b2,…,bj,…,bn}和预设拼音列表b对应的预设敏感词列表集d={d1,d2,…,dj,…,dn},bj是第j个预设拼音,第j个敏感词列表dj中的敏感词的拼音为bj,j的取值范围是1到n,n是预设拼音的数量。

3、s200,获取目标文本和目标文本对应的目标拼音序列。

4、s300,遍历预设拼音列表b,若目标拼音序列中存在预设拼音bj,将该预设拼音bj标记关键拼音,并获取该关键拼音在目标文本中对应的关键词。

5、s400,遍历目标文本,获取关键词在目标文本中出现的位置列表a={a1,a2,…,ai,…,am},ai是关键词在目标文本中出现的第i个位置,i的取值范围是1到m,m是目标文本中关键词出现的次数。

6、s500,遍历a,基于预设敏感词列表d,获取目标文本中位于ai处的关键词对应的纠正结果li,从而获取纠正结果列表l={l1,l2,…,li,…,lm}。

7、s600,基于纠正结果列表l,获取最终文本。

8、一种非瞬时性计算机可读存储介质,所述存储介质中存储有至少一条指令或至少一段程序,所述至少一条指令或所述至少一段程序由处理器加载并执行以实现如上述的脱敏数据的复敏方法。

9、一种电子设备,包括处理器和上述的非瞬时性计算机可读存储介质。

10、本专利技术至少具有以下有益效果:综上,本专利技术通过获取预设敏感词列表和预设拼音列表,获取目标文本和目标文本对应的目标拼音序列,遍历预设拼音列表,若目标拼音序列中存在预设拼音,将该预设拼音标记为关键拼音,并获取该关键拼音在目标文本中对应的关键词,遍历目标文本,获取关键词在目标文本中出现的位置列表,遍历位置列表,基于预设敏感词列表,获取位于ai的关键词的纠正结果,从而获取纠正结果列表,基于纠正结果列表,获取最终文本;本专利技术通过拼音实现了同音词语的识别,将原本脱敏的词语纠正回正确词语,实现对脱敏词语的复敏。

本文档来自技高网...

【技术保护点】

1.一种脱敏数据的复敏方法,其特征在于,所述方法包括如下步骤:

2.根据权利要求1所述的脱敏数据的复敏方法,其特征在于,S500具体包括:

3.根据权利要求2所述的脱敏数据的复敏方法,其特征在于,S510具体包括:

4.根据权利要求3所述的脱敏数据的复敏方法,其特征在于,S520中还包括如下步骤:

5.根据权利要求4所述的脱敏数据的复敏方法,其特征在于,S522中还包括如下步骤获取替换文本的语义匹配度:

6.根据权利要求5所述的脱敏数据的复敏方法,其特征在于,在S5224后,还包括获取替换文本的困惑度=1/J。

7.一种非瞬时性计算机可读存储介质,所述存储介质中存储有至少一条指令或至少一段程序,其特征在于,所述至少一条指令或所述至少一段程序由处理器加载并执行以实现如权利要求1-6中任意一项所述的脱敏数据的复敏方法。

8.一种电子设备,其特征在于,包括处理器和权利要求7中所述的非瞬时性计算机可读存储介质。

【技术特征摘要】

1.一种脱敏数据的复敏方法,其特征在于,所述方法包括如下步骤:

2.根据权利要求1所述的脱敏数据的复敏方法,其特征在于,s500具体包括:

3.根据权利要求2所述的脱敏数据的复敏方法,其特征在于,s510具体包括:

4.根据权利要求3所述的脱敏数据的复敏方法,其特征在于,s520中还包括如下步骤:

5.根据权利要求4所述的脱敏数据的复敏方法,其特征在于,s522中还包括如下步骤获取替换文本的语义匹配...

【专利技术属性】
技术研发人员:董霖尹雅露陈志勇
申请(专利权)人:每日互动股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1