基于深度学习的图像文本敏感信息检测方法技术

技术编号：42395200 阅读：22 留言：0更新日期：2024-08-16 16:18

本发明专利技术公开了一种基于深度学习的图像文本敏感信息检测方法，其包括获取待检测图像文本，并采用已微调的PP‑OCRv3模型识别待检测图像文本中的文本信息；采用基于敏感词库构建的Tire树对文本信息进行敏感性检测，确定文本信息为敏感信息或正常信息；根据文本信息为敏感信息或正常信息，采用贝叶斯公式对文本信息赋予不同的敏感概率；采用已训练的敏感信息检测模型对文本信息进行敏感性检测，得到检测结果；当检测结果为敏感信息时，则将文本信息的敏感概率增加预设概率，当检测结果为非敏感信息时，则敏感概率保持不变；判断敏感概率是否大于敏感阈值，若是，则文本信息为敏感信息，否则文本信息为正常文本。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及敏感信息检测技术，具体涉及一种基于深度学习的图像文本敏感信息检测方法。

技术介绍

1、互联网信息传播主要以文本、图片、音频作为媒介，在相关部门的监管下，以纯文本和音频作为传播方式的敏感信息得到了有效的遏制，然而有一些不法人员通过将文字嵌入图片中来传播敏感信息，由于图片中文本的复杂性，这类图片信息一般需要通过人工检查，监管成本高昂、效率低下，无法很好应对网络图片中敏感文本信息的传播。因此需要一套完整的检测方法实现对网络图片的监管，以减轻人工审核的压力，提高监管效率。针对上述检测方法的构建，目前的处理流程主要包括图像文本检测识别和敏感文本信息检测两个步骤。其中，针对图像文本的检测识别，基于深度学习的方法因其特征抽象层次高、构建流程简单而成为了该领域的主流选择。而针对敏感文本信息的检测，目前方法多基于关键字匹配或传统机器学习算法，较少有学者将基于深度学习的方法应用于敏感信息检测领域。

2、然而，在敏感文本信息检测领域，基于关键字匹配的方法存在误检率高、敏感词库实时更新困难、对文本整体情感倾向及高级语义信息把握缺失等问...

【技术保护点】

1.基于深度学习的图像文本敏感信息检测方法，其特征在于，包括步骤：

2.根据权利要求1所述的基于深度学习的图像文本敏感信息检测方法，其特征在于，所述贝叶斯公式的表达式为：

3.根据权利要求1所述的基于深度学习的图像文本敏感信息检测方法，其特征在于，步骤S2进一步包括：

4.根据权利要求1所述的基于深度学习的图像文本敏感信息检测方法，其特征在于，所述敏感词库的获取方法包括：

5.根据权利要求1所述的基于深度学习的图像文本敏感信息检测方法，其特征在于，采用敏感图像数据集对PP-OCRv3模型进行训练，敏感图像数据集的构建方法包括：

...

【技术特征摘要】

1.基于深度学习的图像文本敏感信息检测方法，其特征在于，包括步骤：

2.根据权利要求1所述的基于深度学习的图像文本敏感信息检测方法，其特征在于，所述贝叶斯公式的表达式为：

3.根据权利要求1所述的基于深度学习的图像文本敏感信息检测方法，其特征在于，步骤s2进一步包括：

4.根据权利要求1所述的基于深度学习的图像文本敏感信息检测方法，其特征在于，所述敏感词库的获取方法包括：

5.根据权利要求1所述的基于深度学习的图像文本敏感信息检测方法，其特征在于，采用敏...

【专利技术属性】
技术研发人员：汤臣薇，邢靖玉，温怀玉，吕建成，汪颖，
申请(专利权)人：四川大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人