【技术实现步骤摘要】
一种基于深度学习模型的图像敏感词识别方法与系统
[0001]本专利技术属于机器视觉和自然语言处理
,尤其是涉及一种基于深度学习模型的图像敏感词识别方法与系统。
技术介绍
[0002]随着网络技术的不断发展,互联网信息数量均呈指数级增长,网络不良信息也越来越多,除了色情信息、图片和视频外,不良敏感词也是日益增多,不良敏感词识别作为一种检测网络不良信息的方法,日益受到重视。但是目前关于不良敏感词识别方法存在一定的检测漏洞,这些漏洞的形成主要是由于对于以图片形式展示的不良敏感词的检测精度要求较高,同时以图片形式展示不良敏感词的行为也越来越多,因此造成了传统不良敏感词识别方法具有不易识别以图片形式展示的不良敏感词的缺点。网站管理人员希望能够针对以图片形式展示的不良敏感词进行识别,进而拦截不良敏感词。因此,如何准确识别以图片形式展示的不良敏感词就变得尤为重要,对于以图片形式展示的不良敏感词的精准清楚可以成为清除网络不良信息的重要助力。
[0003]以图片形式展示的不良敏感词也可以称为图像敏感词。对图像敏感词识别相对一般文 ...
【技术保护点】
【技术特征摘要】
1.一种基于深度学习模型的图像敏感词识别方法,其特征在于,包括以下步骤:步骤一、数据收集;收集图像数据集和敏感词数据集;步骤二、数据标注;对图像数据集进行敏感词标注,记录包含敏感词的图像数据序号、包含的敏感词和包含的敏感词数量;步骤三、数据集划分;将图像数据集进行划分,划分为训练集和测试集;步骤四、模型训练;针对训练集中的图像数据,按照步骤S4.1
‑
S4.6进行模型训练:步骤S4.1:图像文本区域检测;步骤S4.2:图像文本区域文字识别;步骤S4.3:图像文字数据集形成;步骤S4.4:模型训练初始设置;步骤S4.5:敏感词识别;步骤S4.6:模型训练;步骤五、图像敏感词识别;针对待检测敏感词图像数据,按照步骤S5.1
‑
S5.5进行模型训练:步骤S5.1:图像文本区域检测;步骤S5.2:文本区域文字识别;步骤S5.3:文字分词;步骤S5.4:图像敏感词识别;步骤S5.5:图像敏感词处理,最终得到待检测敏感词图像数据的图像敏感词识别结果。2.根据权利要求1所述的一种基于深度学习模型的图像敏感词识别方法,其特征在于,步骤一中,所述图像数据集有两类,分别为包含敏感词和不包含敏感词的图像数据集;所述包含敏感词的图像数据集指的是图像中文字带有敏感词的图像文件集合,所述不包含敏感词的图像数据集指的是图像中文字没有敏感词的图像文件集合。3.根据权利要求1所述的一种基于深度学习模型的图像敏感词识别方法,其特征在于,步骤一中,所述敏感词数据集包括文字形式敏感词数据集和敏感词类别数据集。4.根据权利要求1所述的一种基于深度学习模型的图像敏感词识别方法,其特征在于,步骤三中,所述训练集和测试集中的图像数据量之比为7:3。5.根据权利要求1所述的一种基于深度学习模型的图像敏感词识别方法,其特征在于,步骤四的具体操作步骤如下:步骤S4.1:图像文本区域检测;针对训练集中的图像数据利用深度学习模型CTPN对图像中的文字进行检测,形成若干个图像文本区域,并按照从上到下的顺序和从左到右的顺序,标记每个图像文本区域序号;步骤S4.2:图像文本区域文字识别;利用深度学习模型CRNN对步骤S4.1中的每个图像文本区域进行文字识别,提取图像文字;
步骤S4.3:图像文字数据集形成;将文字识别后提取的图像文字按照图像文...
【专利技术属性】
技术研发人员:杨玉东,赵新峰,刘健,苏恒强,桂东昫,焦东秋,
申请(专利权)人:长春市万易科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。