当前位置: 首页 > 专利查询>南京大学专利>正文

一种利用掩码语言模型建模的图片敏感文字检测方法技术

技术编号:41676356 阅读:25 留言:0更新日期:2024-06-14 15:31
本发明专利技术提出了一种利用掩码语言模型建模的图片敏感文字检测方法,包括:光学字符识别模块、关键位置召回模块、掩码重建模块、重建结果选择模块和文字敏感性检测模块;待检测图片依次经过光学字符识别模块、关键位置召回模块、掩码重建模块、重建结果选择模块和文字敏感性检测模块,得到最终的图片敏感文字检测结果。本发明专利技术方法简单直接,可理解性强;不需要人工标注数据训练模型,成本低廉;可以作为现有的图片敏感文字检测系统的扩充,用途广泛;通过掩码语言模型对关键位置的文本进行重建,既能够对光学字符识别出错的文字进行纠错,也可以还原出被故意修改的地方原本的文字,有助于减少图片敏感文字检测系统错检漏检情况的发生。

【技术实现步骤摘要】

本专利技术涉及一种敏感文字检测方法,特别是一种利用掩码语言模型建模的图片敏感文字检测方法


技术介绍

1、随着网络和移动技术的飞速发展,互联网平台上承载了海量的文本和图片内容,人们可以方便地从中获取想要了解的信息。然而,网络上的信息往往良莠不齐,科技的发展也让有害信息在网络平台上的传播也变得更加容易了,平台的管理者需要对各种信息进行鉴别筛选,才能给用户营造一个清朗的网络环境。

2、近几年,网络上的敏感信息(sensitive information)的形式变得更加复杂,敏感信息的发布者为了躲避平台监管,常常把包含敏感内容的文本隐藏在图片中。对图片所包含文本的敏感检测(image sensitive text detection)最直接的解决办法是通过审核员来人工审核,这种检测方式通常也比较精确,但是对于互联网企业来讲,面对平台上指数级增长的图片,雇佣大量人员来检测这些图片是否包含敏感文本的成本非常昂贵,是不现实的。因此,利用计算机技术,实现对图片中敏感文字的自动检测,具有十分重要的现实意义。

3、目前常用的图片敏感文字检测方法主要分本文档来自技高网...

【技术保护点】

1.一种利用掩码语言模型建模的图片敏感文字检测方法,其特征在于,包括:光学字符识别模块、关键位置召回模块、掩码重建模块、重建结果选择模块以及文字敏感性检测模块;待检测图片依次经过光学字符识别模块、关键位置召回模块、掩码重建模块、重建结果选择模块和文字敏感性检测模块,实现对图片敏感文字的检测;

2.根据权利要求1所述的一种利用掩码语言模型建模的图片敏感文字检测方法,其特征在于,所述的图片敏感文字检测方法包括以下步骤:

3.根据权利要求2所述的一种利用掩码语言模型建模的图片敏感文字检测方法,其特征在于,步骤2中所述的分别进行字粒度与词粒度关键位置的召回,具体方法包括:...

【技术特征摘要】

1.一种利用掩码语言模型建模的图片敏感文字检测方法,其特征在于,包括:光学字符识别模块、关键位置召回模块、掩码重建模块、重建结果选择模块以及文字敏感性检测模块;待检测图片依次经过光学字符识别模块、关键位置召回模块、掩码重建模块、重建结果选择模块和文字敏感性检测模块,实现对图片敏感文字的检测;

2.根据权利要求1所述的一种利用掩码语言模型建模的图片敏感文字检测方法,其特征在于,所述的图片敏感文字检测方法包括以下步骤:

3.根据权利要求2所述的一种利用掩码语言模型建模的图片敏感文字检测方法,其特征在于,步骤2中所述的分别进行字粒度与词粒度关键位置的召回,具体方法包括:

4.根据权利要求3所述的一种利用掩码语言模型建模的图片敏感文字检测方法,其特征在于,步骤2-2中所述的利用语言模型进行打分的方法包括:

5.根据权利要求4所述的一种利用掩码语言模型建模的图片敏感文字检测方法,其特征在于,步骤3中所述的使用掩码语言模型对每个关键位置si处的文本进行重建的方法包括:

6.根据权利要求...

【专利技术属性】
技术研发人员:张建兵王洪科何亮黄书剑戴新宇陈家骏
申请(专利权)人:南京大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1