网络图片敏感文字自动检测方法技术

技术编号：25042243 阅读：17 留言：0更新日期：2020-07-29 05:32

本发明专利技术公开了一种网络图片敏感文字自动检测方法，对需要检测的含图片的网站进行抓取和下载，通过在线抓取和离线加载的方式对图片进行收集加入到数据库中；从图片数据库获取图片并对图片进行目标检测(文字区域定位，图片文字识别)和敏感文字信息检测等处理。使用基于区域建议网络(RPN)Faster R‑CNN深度网络架构，在敏感文字信息检测环节，采用两级敏感文字信息分类器。其中第一级分类器通过使用基于多维拓展敏感字库的方式对输入语句进行敏感词粗筛选。第二层过滤器基于情感极性词库与SVM分类器结合方式进行深层次的敏感文字信息语义精筛选，确认该文本信息是否为敏感信息。有效地实现了图片敏感文字自动检测，检测效率高，系统反应时延快。

全部详细技术资料下载

【技术实现步骤摘要】
网络图片敏感文字自动检测方法
本专利技术涉及数字图像处理以及深度学习的相关算法，属于机器视觉及自然语言处理领域，具体是一种网络图片敏感文字自动检测方法。
技术介绍
随着科学技术的进步，我国互联网行业进入一个飞速发展的阶段。其中包括斗鱼、虎牙在内的直播平台孕育而生，微信、微博和QQ等在线社交平台得到不断更新和完善，这些直播平台和在社交平台不但拥有巨大的用户群体，而且非常活跃，特别深受青年和青少年用户的喜爱。伴随着海量的数据信息传输，如此庞大的信息交互量使得人们可以轻易地在网络上获取多样化的数据信息，但是这些数据信息中往往充斥着大量的敏感信息。基于传统文本信息的敏感文字过滤技术相对成熟，而图像中所包含敏感信息的监控相对困难，因此敏感图像的传播也更为隐蔽。许多组织和个人为了逃避政府等监控部门对互联网信息的监管，改用图像插入文本的形式散播敏感信息，包括色情信息、反社会信息和暴力信息等，这也成为当前敏感信息传播的主要途径之一。据相关调查表明，超过10％的网站含有敏感信息相关内容。不仅如此，很多不法分子通过腾讯QQ、微信、直播平台的用户头像进行敏感信息传播，这其中所充斥的色情敏感信息图像不仅对青少年的身心健康造成不利影响，同时包含的反动和暴力等相关的信息也有可能干扰到社会的稳定。网络自身所具备的数据共享、相互连接以及资源开放性等特点，是不法分子和组织敢于大肆传播敏感信息的根本原因。图片文字敏感信息主要特征在于：(1)敏感信息的表现形式差异性大敏感信息涉及的范围非常广泛，涵盖了思想政治问题、社会问题、文化问题等很多...

【技术保护点】
1.网络图片敏感文字自动检测方法，其特征在于，包括以下步骤：/n步骤S1，使用网络爬虫对含有图片的网站进行图片抓取；并将图片的基本信息保存到数据源数据库中，同时将图片收集到图片数据库中，供后续使用；/n步骤S2，从图片数据库获取图片并通过使用基于区域建议网络的Faster R-CNN深度网络，对图片进行文字目标检测，完成后将图片识别的文字信息进行提取转化为图片文本信息；/n步骤S3，将提取到的图片文本信息使用分类器进行敏感文字信息检测，包括第一级分类器通过基于多维拓展敏感字库的方式对输入语句进行敏感词粗筛选，将粗筛选后的文本信息使用中文分词处理，然后通过基于情感极性词库与SVM分类器方式的二级分类器进行深层次的敏感信息精筛选，完成网络图片敏感文字信息的自动检测。/n

【技术特征摘要】
1.网络图片敏感文字自动检测方法，其特征在于，包括以下步骤：
步骤S1，使用网络爬虫对含有图片的网站进行图片抓取；并将图片的基本信息保存到数据源数据库中，同时将图片收集到图片数据库中，供后续使用；
步骤S2，从图片数据库获取图片并通过使用基于区域建议网络的FasterR-CNN深度网络，对图片进行文字目标检测，完成后将图片识别的文字信息进行提取转化为图片文本信息；
步骤S3，将提取到的图片文本信息使用分类器进行敏感文字信息检测，包括第一级分类器通过基于多维拓展敏感字库的方式对输入语句进行敏感词粗筛选，将粗筛选后的文本信息使用中文分词处理，然后通过基于情感极性词库与SVM分类器方式的二级分类器进行深层次的敏感信息精筛选，完成网络图片敏感文字信息的自动检测。

2.根据权利要求1所述网络图片敏感文字自动检测方法，其特征在于：所述图片的基本信息包含图片的链接，图片的大小，图片的名称。

3.根据权利要求1所述网络图片敏感文字自动检测方法，其特征在于：步骤S2中所述对图片进行文字目标检测的过程包括对区域建议网络的共享卷积层进行最大池化采样缩小和反卷积操作放大，然后对候选区域生成网络的特征映射层输出的特征图进行平均池化，生成固定大小的目标候选区域，候选区域优化网络的区域池化层根据候选区域生成网络输出的目标候选区域,对候选区域生成网络的特征映射层输出的特征图进行区域池化,生成固定大小的区域特征；

【专利技术属性】
技术研发人员：蔡元奇，林金朝，庞宇，杨鹏，马坤阳，张焱杰，
申请(专利权)人：重庆邮电大学，
类型：发明
国别省市：重庆;50

全部详细技术资料下载我是这个专利的主人