一种敏感信息检测方法、系统、电子设备及介质技术方案

技术编号：40502515 阅读：6 留言：0更新日期：2024-02-26 19:30

本发明专利技术属于图片识别技术领域，其目的在于提供一种敏感信息检测方法、系统、电子设备及介质。本发明专利技术针对市面主流图片审核算法进行改善和优化，通过采用图像语义分割技术实现的训练后图像语义分割模型，以及基于小样本学习技术实现的训练后图像分类模型，在对所述待审核图片数据进行敏感信息识别时，可通过两种模型对待审核图片数据依次进行语义分割和敏感信息的串行预测，可精确理解图像场景与内容，获取像素级别的图片内容理解能力，从而对使其更好地识别一些抽象隐晦的敏感信息，进而满足不同业务场景的审核要求，使得本发明专利技术可作为主流图片审核方法的一种补充和完善手段，以加强完善现有的审核维度，更好地提升相应的敏感信息审核效果。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于图片识别，具体涉及一种敏感信息检测方法、系统、电子设备及介质。

技术介绍

1、随着社会数字化、信息化的不断发展，信息的制造、采集、传播速度也达到了惊人的水平，在当前信息共享与交互快速便捷的年代，任何违反国家现行法律法规、破坏社会公共安全与稳定等的信息转播，都将会产生巨大的社会影响，把握内容安全风险就显得尤为重要。针对内容敏感信息审核领域，目前市面产品主要通过加入审核机制，对内容生产全流程进行监督和管理，技术层面主要使用句法语义、文字黑库、图片黑库以及基于机器学习或者深度学习的图像音频敏感分类模型，通过视觉分析、人脸识别、ocr（optical characterrecognition,光学字符识别）、asr（automatic speech recognition，自动语音识别）或者自然语言等技术对文本内容进行抽取，从而从输入的文本、图片、视频或者音频进行内容敏感判定。

2、现有的敏感审核大多数主要基于实体、人脸、局部细节特征等或者文本黑库触发，从而对内容的敏感信息进行捕获，此类方法有一个特点是其识别的敏感信息必须被实例化，就是敏感信息被实例化、具体化才能被识别，例如图片审核，通过对图片进行遍历扫描，直到发现满足识别要求的部分局部特征，但是，在使用现有技术过程中，专利技术人发现现有技术中至少存在如下问题：

3、采用现有技术很难对一些比较抽象隐晦的敏感信息进行有效识别，而且经常对符合局部特征的图形无法进行上下文理解，导致识别有误，例如图片中的一个人衣服的图案和身后的草地衔接的部分被识别成一面旗

技术实现思路

1、本专利技术旨在至少在一定程度上解决上述技术问题，本专利技术提供了一种敏感信息检测方法、系统、电子设备及介质。

2、为了实现上述目的，本专利技术采用以下技术方案：

3、第一方面，本专利技术提供了一种敏感信息检测方法，包括：

4、获取样本图片数据；

5、构建初始图像语义分割模型，并根据所述样本图片数据对所述初始图像语义分割模型进行训练，得到训练后图像语义分割模型；

6、根据所述训练后图像语义分割模型，得到与所述样本图片数据匹配的样本图片语义分割结果；

7、构建初始图像分类模型，并根据所述样本图片语义分割结果和与所述样本图片语义分割结果匹配的敏感类型标签对所述初始图像分类模型进行训练，得到训练后图像分类模型；

8、接收待审核图片数据，并通过所述训练后图像语义分割模型和所述训练后图像分类模型对所述待审核图片数据进行敏感信息识别，得到敏感信息识别结果。

9、本专利技术可提高对于抽象隐晦的敏感信息的识别和判断能力，利于提升现有的图像审核维度，敏感信息识别效果得以提升。具体地，本实施针对市面主流图片审核算法进行改善和优化，通过采用图像语义分割技术实现的训练后图像语义分割模型，以及基于小样本学习技术实现的训练后图像分类模型，在对所述待审核图片数据进行敏感信息识别时，可通过两种模型对待审核图片数据依次进行语义分割和敏感信息的串行预测，可精确理解图像场景与内容，获取像素级别的图片内容理解能力，从而对使其更好地识别一些抽象隐晦的敏感信息，进而满足不同业务场景的审核要求，使得本专利技术可作为主流图片审核方法的一种补充和完善手段，以加强完善现有的审核维度，更好地提升相应的敏感信息审核效果。

10、在一个可能的设计中，所述样本图片数据携带有预设敏感信息的敏感类型标签及图片语义标签；对应地，获取样本图片数据，包括：

11、获取初始样本图片数据；其中，所述初始样本图片数据携带有预设敏感信息的敏感类型标签；

12、对所述初始样本图片数据进行数据增强处理，得到增强后图片数据；其中，所述增强后图片数据携带有预设敏感信息的敏感类型标签；

13、分别获取所述初始样本图片数据和所述增强后图片数据的图片语义标签，并将所述初始样本图片数据的图片语义标签与所述初始样本图片数据进行绑定，将所述增强后图片数据的图片语义标签与所述增强后图片数据进行绑定；

14、根据所述初始样本图片数据和所述增强后图片数据，得到样本图片数据；其中，所述样本图片数据携带有预设敏感信息的敏感类型标签及图片语义标签。

15、在一个可能的设计中，获取所述初始样本图片数据或所述增强后图片数据的图片语义标签时，采用语义分割处理方法、多边形标注处理方法、ocr转写处理方法和/或属性判别处理方法实现。

16、在一个可能的设计中，所述初始图像语义分割模型采用u-net模型。

17、在一个可能的设计中，所述样本图片数据携带有预设敏感信息的图片语义标签；对应地，根据所述样本图片数据对所述初始图像语义分割模型进行训练，得到训练后图像语义分割模型，包括：

18、根据所述图片语义标签，对所述样本图片数据进行图片剪裁处理，得到剪裁后样本图片数据；

19、对所述剪裁后样本图片数据依次进行图片锐化处理及图片边缘提取处理，得到预处理后样本图片数据；

20、将所述预处理后样本图片数据划分为训练集和验证集，并根据所述训练集和所述验证集对所述初始图像语义分割模型进行训练，得到训练后图像语义分割模型。

21、在一个可能的设计中，所述初始图像分类模型采用原型网络模型。

22、在一个可能的设计中，通过所述训练后图像语义分割模型和所述训练后图像分类模型对所述待审核图片数据进行敏感信息识别，得到敏感信息识别结果，包括：

23、将所述待审核图片数据输入所述训练后图像语义分割模型进行处理，得到与所述待审核图片数据对应的图片语义分割结果；

24、将所述图片语义分割结果和所述待审核图片数据输入所述训练后图像分类模型进行处理，得到与所述待审核图片数据对应的敏感类型标签；

25、将当前敏感类型标签作为所述待审核图片数据的敏感信息识别结果进行输出。

26、第二方面，本专利技术提供了一种敏感信息检测系统，用于实现如上述任一项所述的敏感信息检测方法；所述敏感信息检测系统包括：

27、样本获取模块，用于获取样本图片数据；

28、第一模型构建模块，与所述样本获取模块通信连接，用于构建初始图像语义分割模型，并根据所述样本图片数据对所述初始图像语义分割模型进行训练，得到训练后图像语义分割模型；还用于根据所述训练后图像语义分割模型，得到与所述样本图片数据匹配的样本图片语义分割结果；

29、第二模型构建模块，与所述第一模型构建模块通信连接，用于构建初始图像分类模型，并根据所述样本图片语义分割结果和与所述样本图片语义分割结果匹配的敏感类型标签对所述初始图像分类模型进行训练，得到训练后图像分类模型；

30、敏感信息识别模块，与所述第二模型构建模块通信连接，用于接收待审核图片本文档来自技高网...

【技术保护点】

1.一种敏感信息检测方法，其特征在于：包括：

2.根据权利要求1所述的一种敏感信息检测方法，其特征在于：所述样本图片数据携带有预设敏感信息的敏感类型标签及图片语义标签；对应地，获取样本图片数据，包括：

3.根据权利要求2所述的一种敏感信息检测方法，其特征在于：获取所述初始样本图片数据或所述增强后图片数据的图片语义标签时，采用语义分割处理方法、多边形标注处理方法、OCR转写处理方法和/或属性判别处理方法实现。

4.根据权利要求1所述的一种敏感信息检测方法，其特征在于：所述初始图像语义分割模型采用U-Net模型。

5.根据权利要求1所述的一种敏感信息检测方法，其特征在于：所述样本图片数据携带有预设敏感信息的图片语义标签；对应地，根据所述样本图片数据对所述初始图像语义分割模型进行训练，得到训练后图像语义分割模型，包括：

6.根据权利要求1所述的一种敏感信息检测方法，其特征在于：所述初始图像分类模型采用原型网络模型。

7.根据权利要求1所述的一种敏感信息检测方法，其特征在于：通过所述训练后图像语义分割模型和所述训练后

8.一种敏感信息检测系统，其特征在于：用于实现如权利要求1至7中任一项所述的敏感信息检测方法；所述敏感信息检测系统包括：

9.一种电子设备，其特征在于：包括：

10.一种计算机可读存储介质，用于存储计算机可读取的计算机程序指令，其特征在于：所述计算机程序指令被配置为运行时执行如权利要求1至7中任一项所述的敏感信息检测方法的操作。

...

【技术特征摘要】

1.一种敏感信息检测方法，其特征在于：包括：

3.根据权利要求2所述的一种敏感信息检测方法，其特征在于：获取所述初始样本图片数据或所述增强后图片数据的图片语义标签时，采用语义分割处理方法、多边形标注处理方法、ocr转写处理方法和/或属性判别处理方法实现。

4.根据权利要求1所述的一种敏感信息检测方法，其特征在于：所述初始图像语义分割模型采用u-net模型。

5.根据权利要求1所述的一种敏感信息检测方法，其特征在于：所述样本图片数据携带有预设敏感信息的图片语义标签；对应地，根据所述样本图片数据对所述初始图像语义分...

【专利技术属性】
技术研发人员：李少博，徐桢虎，苏忠莹，王子健，高登科，
申请(专利权)人：四川封面传媒科技有限责任公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人