【技术实现步骤摘要】
本专利技术涉及一种敏感文字检测方法,特别是一种利用掩码语言模型建模的图片敏感文字检测方法。
技术介绍
1、随着网络和移动技术的飞速发展,互联网平台上承载了海量的文本和图片内容,人们可以方便地从中获取想要了解的信息。然而,网络上的信息往往良莠不齐,科技的发展也让有害信息在网络平台上的传播也变得更加容易了,平台的管理者需要对各种信息进行鉴别筛选,才能给用户营造一个清朗的网络环境。
2、近几年,网络上的敏感信息(sensitive information)的形式变得更加复杂,敏感信息的发布者为了躲避平台监管,常常把包含敏感内容的文本隐藏在图片中。对图片所包含文本的敏感检测(image sensitive text detection)最直接的解决办法是通过审核员来人工审核,这种检测方式通常也比较精确,但是对于互联网企业来讲,面对平台上指数级增长的图片,雇佣大量人员来检测这些图片是否包含敏感文本的成本非常昂贵,是不现实的。因此,利用计算机技术,实现对图片中敏感文字的自动检测,具有十分重要的现实意义。
3、目前常用的图片敏
...【技术保护点】
1.一种利用掩码语言模型建模的图片敏感文字检测方法,其特征在于,包括:光学字符识别模块、关键位置召回模块、掩码重建模块、重建结果选择模块以及文字敏感性检测模块;待检测图片依次经过光学字符识别模块、关键位置召回模块、掩码重建模块、重建结果选择模块和文字敏感性检测模块,实现对图片敏感文字的检测;
2.根据权利要求1所述的一种利用掩码语言模型建模的图片敏感文字检测方法,其特征在于,所述的图片敏感文字检测方法包括以下步骤:
3.根据权利要求2所述的一种利用掩码语言模型建模的图片敏感文字检测方法,其特征在于,步骤2中所述的分别进行字粒度与词粒度关键位置的
...【技术特征摘要】
1.一种利用掩码语言模型建模的图片敏感文字检测方法,其特征在于,包括:光学字符识别模块、关键位置召回模块、掩码重建模块、重建结果选择模块以及文字敏感性检测模块;待检测图片依次经过光学字符识别模块、关键位置召回模块、掩码重建模块、重建结果选择模块和文字敏感性检测模块,实现对图片敏感文字的检测;
2.根据权利要求1所述的一种利用掩码语言模型建模的图片敏感文字检测方法,其特征在于,所述的图片敏感文字检测方法包括以下步骤:
3.根据权利要求2所述的一种利用掩码语言模型建模的图片敏感文字检测方法,其特征在于,步骤2中所述的分别进行字粒度与词粒度关键位置的召回,具体方法包括:
4.根据权利要求3所述的一种利用掩码语言模型建模的图片敏感文字检测方法,其特征在于,步骤2-2中所述的利用语言模型进行打分的方法包括:
5.根据权利要求4所述的一种利用掩码语言模型建模的图片敏感文字检测方法,其特征在于,步骤3中所述的使用掩码语言模型对每个关键位置si处的文本进行重建的方法包括:
6.根据权利要求...
【专利技术属性】
技术研发人员:张建兵,王洪科,何亮,黄书剑,戴新宇,陈家骏,
申请(专利权)人:南京大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。