System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于网关的数据脱敏方法技术_技高网

一种基于网关的数据脱敏方法技术

技术编号:40316266 阅读:4 留言:0更新日期:2024-02-07 20:58
本发明专利技术涉及数据脱敏的领域,尤其涉及一种基于网关的数据脱敏方法,本发明专利技术通过将网关所接收的语音数据转换为文本数据,并分割为若干文本句,将文本句中的词汇与样本数据库中存储的若干违禁词汇进行对比,以确定文本句中是否存在特征词汇,提取样本数据库中包含样本关联词汇的若干样本句,解析存在特征词汇的文本句的句子结构,并与所提取的若干样本句的句子结构进行对比,以计算结构拟合参数判定文本句与样本句的关联关系,基于文本句与样本句的关联关系,执行对应脱敏策略,通过上述过程考虑实际发音与违禁词的音调不同时脱敏效果差的问题,自适应调整脱敏的方法,提高网关对数据的脱敏效果。

【技术实现步骤摘要】

本专利技术涉及数据脱敏的领域,尤其涉及一种基于网关的数据脱敏方法


技术介绍

1、随着信息技术的不断发展和智能设备的广泛应用,敏感信息越来越容易被获取和滥用,通过网关对数据脱敏的技术应运而生,实现对隐私数据的保护,避免数据泄露。

2、中国专利公开号:cn116760588a,公开了如下内容,该专利技术涉及数据脱敏的领域,公开了一种数据脱敏系统及脱敏方法,数据脱敏系统包括:网关、至少一个业务微服务以及鉴权中心微服务,所述业务微服务与所述网关通信连接,所述鉴权中心微服务与所述网关通信连接;所述网关被配置为能够接收用户的脱敏处理请求并根据所述脱敏处理请求向鉴权中心微服务查询脱敏规则,然后判断有无脱敏规则;若有,则执行脱敏规则并响应客户;若无,则直接相应客户;通过在网关统一处理脱敏,避免了各业务微服务繁重的脱敏逻辑开发,也无需为微服务之间的调用与用户调用分别开发两套逻辑,达到了减少工作量、降低成本,易于维护性的效果。

3、但是,现有技术中,还存在以下问题:

4、在现有技术中,在对语音进行脱敏时,若实际发音与违禁词的音调不同,将语音转换成文本语句进行脱敏时容易发生误判,脱敏效果差,现有的脱敏方法未考虑上述因素,根据转换成的文本语句的特征自适应调整脱敏的方法,提高脱敏效果。


技术实现思路

1、为此,本专利技术提供一种基于网关的数据脱敏方法,用以克服现有技术中,在对语音进行脱敏时,若实际发音与违禁词的音调不同,将语音转换成文本语句进行脱敏时容易发生误判,现有的脱敏方法未考虑上述因素自适应调整脱敏的方法的问题。

2、为实现上述目的,本专利技术提供一种基于网关的数据脱敏方法,其包括:

3、步骤s1,将网关所接收的语音数据转换为文本数据,并分割为若干文本句,将文本句中的词汇与样本数据库中存储的若干违禁词汇进行对比,以确定文本句中是否存在特征词汇;

4、步骤s2,提取样本数据库中包含样本关联词汇的若干样本句,所述样本关联词汇为与特征词汇拼音特征相同的违禁词汇;

5、步骤s3,解析存在特征词汇的文本句的句子结构,并与所提取的若干样本句的句子结构进行对比,以计算结构拟合参数判定所述文本句与样本句的关联关系;

6、步骤s4,基于所述文本句与样本句的关联关系,执行对应脱敏策略,包括,

7、分析特征词汇与剩余语句的语义关联度,在语义关联度小于预定标准时对所述文本句进行脱敏;

8、或,确定所述文本句中的非特征词汇,并与所提取的各所述样本句进行对比,根据所述文本句中各所述非特征词汇与各所述样本句的关联度计算关联表征值,以判定所述特征词汇是否为违禁词汇,并在判定所述特征词汇为违禁词汇时对所述文本句进行脱敏。

9、进一步地,在所述步骤s1中,基于文本句中的词汇与样本数据库中存储的若干违禁词汇的对比结果确定所述文本句中是否存在特征词汇的过程包括,

10、若样本数据库中存在违禁词汇与所述文本句中的词汇的拼音特征相同,则确定所述文本句中存在特征词汇。

11、进一步地,在所述步骤s3中,基于存在特征词汇的文本句的句子结构与所提取的若干样本句的句子结构的对比结果计算结构拟合参数的过程包括,

12、确定所提取的若干样本句中特征样本句的数量,将所述特征样本句的数量与所提取的样本句的数量的比值确定为结构拟合参数,所述特征样本句为与存在特征词汇的文本句的句子结构相同的样本句。

13、进一步地,在所述步骤s3中,基于所述结构拟合参数判定所述文本句与样本句的关联关系的过程包括,

14、将所述结构拟合参数与预设的拟合对比阈值进行对比,

15、若所述结构拟合参数大于等于所述拟合对比阈值,则判定所述文本句与样本句的关联关系为强关联关系;

16、若所述结构拟合参数小于所述拟合对比阈值,则判定所述文本句与样本句的关联关系为弱关联关系。

17、进一步地,在所述步骤s4中,基于所述文本句与样本句的关联关系判定执行的脱敏策略的过程包括,

18、若判定所述文本句与样本句的关联关系为强关联关系,则分析特征词汇与剩余语句的语义关联度,在语义关联度小于预定标准时对所述文本句进行脱敏;

19、若判定所述文本句与样本句的关联关系为弱关联关系,则确定所述文本句中除所述特征词汇外剩余的若干词汇,并与所提取的各所述样本句进行对比,以计算所述文本句与所提取的各所述样本句对应的若干关联表征值,以基于各所述关联表征值中的最大值判定所述特征词汇是否为违禁词汇,并在判定所述特征词汇为违禁词汇时对所述文本句进行脱敏。

20、进一步地,在所述步骤s4中,对所述文本句进行脱敏的过程包括将所述文本句对应的语音数据删除。

21、进一步地,根据所述文本句中各所述非特征词汇与样本句的语义关联度计算关联表征值的过程包括,

22、计算各所述文本句中各所述非特征词汇与样本句的语义关联度,将关联度平均值确定为关联表征值。

23、进一步地,在所述步骤s4中,基于各所述关联表征值中的最大值判定所述特征词汇是否为违禁词汇的过程包括,

24、确定各所述关联表征值中的最大值,将所述最大值与预设的关联表征对比阈值进行对比,

25、若所述最大值大于等于所述关联表征对比阈值,则判定所述特征词汇为违禁词汇。

26、进一步地,在所述步骤s4中还包括,在需要进行脱敏的文本句的数量与文本数据中文本句的数量的比值超过预定比例时发出警示消息,以警示所接收的语音数据异常。

27、进一步地,在所述步骤s1中,所述网关单次所接收的语音数据的数据量不超过预定数据量阈值。

28、与现有技术相比,本专利技术通过将网关所接收的语音数据转换为文本数据,并分割为若干文本句,将文本句中的词汇与样本数据库中存储的若干违禁词汇进行对比,以确定文本句中是否存在特征词汇,提取样本数据库中包含样本关联词汇的若干样本句,解析存在特征词汇的文本句的句子结构,并与所提取的若干样本句的句子结构进行对比,以计算结构拟合参数判定文本句与样本句的关联关系,基于文本句与样本句的关联关系,执行对应脱敏策略,通过上述过程考虑实际发音与违禁词的音调不同时脱敏效果差的问题,自适应调整脱敏的方法,提高网关对数据的脱敏效果。

29、尤其,本专利技术中,将文本句中的词汇与样本数据库中存储的若干违禁词汇进行对比,以确定文本句中是否存在特征词汇,在实际情况中,在将语音数据转换为文本数据时受语音数据的音调等因素的影响,因此所转换成的文本数据是与语音数据具有相同拼音特征的文本句,因此,将文本句中的词汇与样本数据库中存储的若干违禁词汇进行对比,确定出文本句中与样本数据库中的违禁词汇的拼音特征相同的词汇,即特征词汇,便于后续对存在特征词汇的文本句进行特定的处理,以提高网关的脱敏效果。

30、尤其,本专利技术中,计算结构拟合参数判定文本句与样本句的关联关系,结构拟合参数表征了存在特征词本文档来自技高网...

【技术保护点】

1.一种基于网关的数据脱敏方法,其特征在于,包括:

2.根据权利要求1所述的基于网关的数据脱敏方法,其特征在于,在所述步骤S1中,基于文本句中的词汇与样本数据库中存储的若干违禁词汇的对比结果确定所述文本句中是否存在特征词汇的过程包括,

3.根据权利要求1所述的基于网关的数据脱敏方法,其特征在于,在所述步骤S3中,基于存在特征词汇的文本句的句子结构与所提取的若干样本句的句子结构的对比结果计算结构拟合参数的过程包括,

4.根据权利要求1所述的基于网关的数据脱敏方法,其特征在于,在所述步骤S3中,基于所述结构拟合参数判定所述文本句与样本句的关联关系的过程包括,

5.根据权利要求1所述的基于网关的数据脱敏方法,其特征在于,在所述步骤S4中,基于所述文本句与样本句的关联关系判定执行的脱敏策略的过程包括,

6.根据权利要求1所述的基于网关的数据脱敏方法,其特征在于,在所述步骤S4中,对所述文本句进行脱敏的过程包括将所述文本句对应的语音数据删除。

7.根据权利要求1所述的基于网关的数据脱敏方法,其特征在于,在所述步骤S4中,根据所述文本句中各所述非特征词汇与样本句的语义关联度计算关联表征值的过程包括,

8.根据权利要求1所述的基于网关的数据脱敏方法,其特征在于,在所述步骤S4中,基于各所述关联表征值中的最大值判定所述特征词汇是否为违禁词汇的过程包括,

9.根据权利要求1所述的基于网关的数据脱敏方法,其特征在于,在所述步骤S4中还包括,在需要进行脱敏的文本句的数量与文本数据中文本句的数量的比值超过预定比例时发出警示消息,以警示所接收的语音数据异常。

10.根据权利要求1所述的基于网关的数据脱敏方法,其特征在于,在所述步骤S1中,所述网关单次所接收的语音数据的数据量不超过预定数据量阈值。

...

【技术特征摘要】

1.一种基于网关的数据脱敏方法,其特征在于,包括:

2.根据权利要求1所述的基于网关的数据脱敏方法,其特征在于,在所述步骤s1中,基于文本句中的词汇与样本数据库中存储的若干违禁词汇的对比结果确定所述文本句中是否存在特征词汇的过程包括,

3.根据权利要求1所述的基于网关的数据脱敏方法,其特征在于,在所述步骤s3中,基于存在特征词汇的文本句的句子结构与所提取的若干样本句的句子结构的对比结果计算结构拟合参数的过程包括,

4.根据权利要求1所述的基于网关的数据脱敏方法,其特征在于,在所述步骤s3中,基于所述结构拟合参数判定所述文本句与样本句的关联关系的过程包括,

5.根据权利要求1所述的基于网关的数据脱敏方法,其特征在于,在所述步骤s4中,基于所述文本句与样本句的关联关系判定执行的脱敏策略的过程包括,

6.根据权利要求1所述的基于网关的数据...

【专利技术属性】
技术研发人员:谢雨航刘明礼庄恩贵
申请(专利权)人:北京景安云信科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1