网络图片敏感文字自动检测方法技术

技术编号:25042243 阅读:17 留言:0更新日期:2020-07-29 05:32
本发明专利技术公开了一种网络图片敏感文字自动检测方法,对需要检测的含图片的网站进行抓取和下载,通过在线抓取和离线加载的方式对图片进行收集加入到数据库中;从图片数据库获取图片并对图片进行目标检测(文字区域定位,图片文字识别)和敏感文字信息检测等处理。使用基于区域建议网络(RPN)Faster R‑CNN深度网络架构,在敏感文字信息检测环节,采用两级敏感文字信息分类器。其中第一级分类器通过使用基于多维拓展敏感字库的方式对输入语句进行敏感词粗筛选。第二层过滤器基于情感极性词库与SVM分类器结合方式进行深层次的敏感文字信息语义精筛选,确认该文本信息是否为敏感信息。有效地实现了图片敏感文字自动检测,检测效率高,系统反应时延快。

【技术实现步骤摘要】
网络图片敏感文字自动检测方法
本专利技术涉及数字图像处理以及深度学习的相关算法,属于机器视觉及自然语言处理领域,具体是一种网络图片敏感文字自动检测方法。
技术介绍
随着科学技术的进步,我国互联网行业进入一个飞速发展的阶段。其中包括斗鱼、虎牙在内的直播平台孕育而生,微信、微博和QQ等在线社交平台得到不断更新和完善,这些直播平台和在社交平台不但拥有巨大的用户群体,而且非常活跃,特别深受青年和青少年用户的喜爱。伴随着海量的数据信息传输,如此庞大的信息交互量使得人们可以轻易地在网络上获取多样化的数据信息,但是这些数据信息中往往充斥着大量的敏感信息。基于传统文本信息的敏感文字过滤技术相对成熟,而图像中所包含敏感信息的监控相对困难,因此敏感图像的传播也更为隐蔽。许多组织和个人为了逃避政府等监控部门对互联网信息的监管,改用图像插入文本的形式散播敏感信息,包括色情信息、反社会信息和暴力信息等,这也成为当前敏感信息传播的主要途径之一。据相关调查表明,超过10%的网站含有敏感信息相关内容。不仅如此,很多不法分子通过腾讯QQ、微信、直播平台的用户头像进行敏感信息传播,这其中所充斥的色情敏感信息图像不仅对青少年的身心健康造成不利影响,同时包含的反动和暴力等相关的信息也有可能干扰到社会的稳定。网络自身所具备的数据共享、相互连接以及资源开放性等特点,是不法分子和组织敢于大肆传播敏感信息的根本原因。图片文字敏感信息主要特征在于:(1)敏感信息的表现形式差异性大敏感信息涉及的范围非常广泛,涵盖了思想政治问题、社会问题、文化问题等很多方面,而且不同主题的敏感信息,其表现形式有很大的差异性,既使同一主题在不同场合、不同文化背景下等方面的敏感度表现程度不同。类似“血洗”,“绝杀”等词汇,在体育为主题的信息中,大都表示比赛胜利的意思,而放在其他的主题中,很大可能是敏感信息的标志词。(2)脱离原文的字符识别易造成显著的歧义不法人员考虑到敏感文字内容存在违法的可能性,会刻意使用同义词、同音字、拼音、左右结构字形的隔开输入替换等规避的方式来制作敏感文字图片。这就给文字识别增加了难度。由于网络上的图片形式各异,不同的图片在文字大小,文字颜色,文字尺寸,文字相对位置,文字字体等方面都有很大的不同,在识别其中的文字之前,需要先定位出图片中包含的文字区域部分,准确的图片文字区域定位是后续识别工作的基础。文字区域定位的传统方法有基于图像连通域特征的方法,基于图像纹理特征的方法、基于图像边缘特征的方法。随着机器学习技术的发展,近些年基于机器学习的图像特征目标检测算法效果得到了大幅度的提升。其中基于深度学习技术的方案检测效果十分显著。2014年Girshick率先提出了基于RegionProposal(候选区域)的RCNN(RegionwithCNNFeatures)方案。该方法的核心思想在于利用图像中具有代表性的部分候选区域代替公开数据集PASCALVOC将最高检测率从35%提升至了53%。在2015年,该作者在RCNN的基础上又提出了一种新的检测方法fastRCNN。该方法在保证检测正确率与RCNN相当的情况下,大幅度降低了算法训练和测试的时间复杂度。检测系统总的训练时间从84个小时降低到了9.5小时,测试时长从47秒降低到了约0.3秒。同年,该作者团队又提出了fasterRCNN。此方法的核心在于将之前RCNN的几个主要模块全部整合到了同一个深度网络框架内进行端到端处理。在文字区域定位方面,可以通过提取图像内容特征(包括图像颜色特征、纹理特征以及边缘特征等)进行有关特征学习,根据所学到的相关特征对图像区域进行分类,实现对文字区域的判定。综上所述,尽管图片敏感信息识别已取得了不少的研究成果,但仍都存在一定的局限性和不足。基于图片文字内容的敏感信息识别主要存在类似于自然场景图片文字信息的文字区域定位困难、文字识别精度低以及对短文本敏感信息判别的困难等不良影响。目前来讲,当前图片敏感信息识别着重关注和研究的领域,也是网络监管部门亟待提升技术手段进行解决的焦点问题。
技术实现思路
本专利技术的目的是为克服已有图片文字敏感信息检测技术的不足之处,本文主要研究改进后的FasterR-CNN,提高了对小目标区域检测效果的情况,改进的算法在网络图片文字检测与识别上具有更好的效果,其识别准确率会更高。针对基于短文本敏感信息多级分类器的方法研究,在原有的基础上拓展敏感字库,改进敏感文字分类器。本专利技术总体框图见附图1。传统的图片敏感文字信息检测长期依赖人工监管和取缔,并且传统人工举报的检测时长一般在小时级别,而在发表图片到举报的这段时间间隔里敏感信息可能已经得到了广泛的传播,这种以图片文字形式存在的敏感信息正游走于监管的边缘地带,深刻地影响互联网的健康环境和广大网民的身心健康。本专利技术是基于深度学习算法和机器学习算法共同来实现对网络图片敏感文字的自动检测。鉴于此,本专利技术采用的技术方案是:网络图片敏感文字自动检测方法,包括以下步骤:步骤S1,使用网络爬虫对含有图片的网站进行图片抓取;并将图片的基本信息保存到数据源数据库中,同时将图片收集到图片数据库中,供后续使用;步骤S2,从图片数据库获取图片并通过使用基于区域建议网络的FasterR-CNN深度网络,对图片进行文字目标检测,完成后将图片识别的文字信息进行提取转化为图片文本信息;步骤S3,将提取到的图片文本信息使用分类器进行敏感文字信息检测,包括第一级分类器通过基于多维拓展敏感字库的方式对输入语句进行敏感词粗筛选,将粗筛选后的文本信息使用中文分词处理,然后通过基于情感极性词库与SVM分类器方式的二级分类器进行深层次的敏感信息精筛选,完成网络图片敏感文字信息的自动检测。进一步,所述图片的基本信息包含图片的链接,图片的大小,图片的名称。步骤S2中所述对图片进行文字目标检测的过程包括对区域建议网络的共享卷积层进行最大池化采样缩小和反卷积操作放大,然后对候选区域生成网络的特征映射层输出的特征图进行平均池化,生成固定大小的目标候选区域,候选区域优化网络的区域池化层根据候选区域生成网络输出的目标候选区域,对候选区域生成网络的特征映射层输出的特征图进行区域池化,生成固定大小的区域特征;根据softmax层输出每个目标候选区域是否包含目标或背景的分类概率,只输出概率大于预设阈值的目标候选区域,即可排除大部分无效候选区域,得到优化后的目标候选区域,然后目标分类回归网络根据优化后的目标候选区域,从生成的共享特征图中提取区域特征,进行最终的目标文字类别判别以及目标边界框回归修正。步骤S3中所述敏感信息精筛选,将情感极性词加入到现有敏感信息短文本的数据集当中,结合情感倾向判断,标记文本信息,使用SVM模型对含有情感极性词敏感信息短文本的数据集进行训练。所述SVM分类器,将训练集进行中文分词处理,然后通过词向量的形式对训练集中的文本进行编码,利用多维向量的方式表征文本的词汇,并对其进行特征提取和模型训练,最后利用训练好的分类模型对粗筛选处理后的短文本进行判断,确认该本文档来自技高网
...

【技术保护点】
1.网络图片敏感文字自动检测方法,其特征在于,包括以下步骤:/n步骤S1,使用网络爬虫对含有图片的网站进行图片抓取;并将图片的基本信息保存到数据源数据库中,同时将图片收集到图片数据库中,供后续使用;/n步骤S2,从图片数据库获取图片并通过使用基于区域建议网络的Faster R-CNN深度网络,对图片进行文字目标检测,完成后将图片识别的文字信息进行提取转化为图片文本信息;/n步骤S3,将提取到的图片文本信息使用分类器进行敏感文字信息检测,包括第一级分类器通过基于多维拓展敏感字库的方式对输入语句进行敏感词粗筛选,将粗筛选后的文本信息使用中文分词处理,然后通过基于情感极性词库与SVM分类器方式的二级分类器进行深层次的敏感信息精筛选,完成网络图片敏感文字信息的自动检测。/n

【技术特征摘要】
1.网络图片敏感文字自动检测方法,其特征在于,包括以下步骤:
步骤S1,使用网络爬虫对含有图片的网站进行图片抓取;并将图片的基本信息保存到数据源数据库中,同时将图片收集到图片数据库中,供后续使用;
步骤S2,从图片数据库获取图片并通过使用基于区域建议网络的FasterR-CNN深度网络,对图片进行文字目标检测,完成后将图片识别的文字信息进行提取转化为图片文本信息;
步骤S3,将提取到的图片文本信息使用分类器进行敏感文字信息检测,包括第一级分类器通过基于多维拓展敏感字库的方式对输入语句进行敏感词粗筛选,将粗筛选后的文本信息使用中文分词处理,然后通过基于情感极性词库与SVM分类器方式的二级分类器进行深层次的敏感信息精筛选,完成网络图片敏感文字信息的自动检测。


2.根据权利要求1所述网络图片敏感文字自动检测方法,其特征在于:所述图片的基本信息包含图片的链接,图片的大小,图片的名称。


3.根据权利要求1所述网络图片敏感文字自动检测方法,其特征在于:步骤S2中所述对图片进行文字目标检测的过程包括对区域建议网络的共享卷积层进行最大池化采样缩小和反卷积操作放大,然后对候选区域生成网络的特征映射层输出的特征图进行平均池化,生成固定大小的目标候选区域,候选区域优化网络的区域池化层根据候选区域生成网络输出的目标候选区域,对候选区域生成网络的特征映射层输出的特征图进行区域池化,生成固定大小的区域特征;

【专利技术属性】
技术研发人员:蔡元奇林金朝庞宇杨鹏马坤阳张焱杰
申请(专利权)人:重庆邮电大学
类型:发明
国别省市:重庆;50

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1