【技术实现步骤摘要】
基于大数据技术的色情数据删除方法及工作系统
本专利技术涉及计算机数据挖掘领域,尤其涉及一种基于大数据技术的色情数据删除方法及工作系统。
技术介绍
淫秽色情内容及其产业易导致社会风气败坏,引起各种各样的社会犯罪,损害身心健康,所以色情一直以来都是重点打击和监控的违法行为。互联网对于色情内容如果没有相应的监管和识别,将会造成非常严重的社会问题,但是通过传统手段进行色情内容筛查以及分析,已经不能满足海量数据状态下的客观需求,传统方法筛选速度慢,删除不良网络内容的效率低下。这就亟需本领域技术人员解决相应的技术问题。
技术实现思路
本专利技术旨在至少解决现有技术中存在的技术问题,特别创新地提出了一种基于大数据技术的色情数据删除方法及工作系统。为了实现本专利技术的上述目的,本专利技术提供了一种基于大数据技术的色情数据删除方法,其特征在于,包括如下步骤:S1,通过数据提取收集方式寻找疑似色情网站;S2,根据寻找的疑似色情网站中的信息进行色情号码识别与提取;S3,将识别与提取后的色情号码接入社交网络接口;S4,接入社交网络接口后,对色情号码相关信息进行可视化处理,向终端用户进行展示。优选的,所述S1包括:利用爬虫技术爬取疑似网站的所有文字,根据相关色情文字出现的频次来判定该网站是否色情;若是,则直接判定该网页上所有的相关网址链接为色情链接。优选的,所述S2包括:S2-1,对从色情网站上爬取下来的图片进行分类,将包含色情联系人手机号的图片定义为目标图片;S2-2,对目标图片先使用CTPN算法进行文字定位监测,然后使用CNN算法进行CTC文字识别,提取出图片中的文字;S2-3,对 ...
【技术保护点】
1.一种基于大数据技术的色情数据删除方法,其特征在于,包括如下步骤:S1,通过数据提取收集方式寻找疑似色情网站;S2,根据寻找的疑似色情网站中的信息进行色情号码识别与提取;S3,将识别与提取后的色情号码接入社交网络接口;S4,接入社交网络接口后,对色情号码相关信息进行可视化处理,向终端用户进行展示。
【技术特征摘要】
1.一种基于大数据技术的色情数据删除方法,其特征在于,包括如下步骤:S1,通过数据提取收集方式寻找疑似色情网站;S2,根据寻找的疑似色情网站中的信息进行色情号码识别与提取;S3,将识别与提取后的色情号码接入社交网络接口;S4,接入社交网络接口后,对色情号码相关信息进行可视化处理,向终端用户进行展示。2.根据权利要求1所述的基于大数据技术的色情数据删除方法,其特征在于,所述S1包括:利用爬虫技术爬取疑似网站的所有文字,根据相关色情文字出现的频次来判定该网站是否色情;若是,则直接判定该网页上所有的相关网址链接为色情链接。3.根据权利要求1所述的基于大数据技术的色情数据删除方法,其特征在于,所述S2包括:S2-1,对从色情网站上爬取下来的图片进行分类,将包含色情联系人手机号的图片定义为目标图片;S2-2,对目标图片先使用CTPN算法进行文字定位检测,然后使用CNN和CTC算法进行文字识别,提取出图片中的文字;S2-3,对图片中的文字进行过滤,剔除不相关的文字,筛选出手机号码。4.根据权利要求1所述的基于大数据技术的色情数据删除方法,其特征在于,所述S3包括:该接口通过使用Nginx,Springboot,Hbase,Spark和Hdfs的大数据框架技术,基于用户手机通讯数据构建社交网络,对色情号码社交网络查询提供实时服务。5.根据权利要求4所述的基于大数据技术的色情数据删除方法,其特征在于,所述S3还包括:S3-1,通过使用Nginx和Springboot搭建了一个高可用的在线查询和数据上传服务;这里用到的是Nginx的反向代理,Nginx的代理过程,就是将请求发送给Nginx,然后将请求转发给后端服务器,后端服务器处理完毕之后将结果再发给Nginx,Nginx再把结果发送给客户端;Springboot服务主要实现数据上传和查询的具体逻辑实现,通过接收到Nginx转发过来的请求参数,使用Hbase提供的API去查询后端网络关系表和网络节点信息表,将查询结果整合后返回给客户端。6.根据权利要求4所述的基于大数据技术的色情数据删除方法,其特征在于,所述S3还包括:S3-2,进行数据生成过程,通过使用Spark这个大数据并行计算框架完成海量关系网络数据的生成;该联系网络是通过将原始数据进行分区、清洗、去重、合并几个步骤生成,为了排除一些联系紧密程度很弱的数据,将网络中每个人联系最紧密的前100个的联系数据提取出来,然后存储到分布式文件存储系统Hdfs中;S3-3,进行数据存储过程,通过使用Hbase这个高可靠性,高性能的分布式存储系统来存储海量的关系网络数据来提供实时查询;这里色情的关系网络数据存储主要采用了三张表,分别是主叫号码联系网络表,被叫号码联系网络表,网络节点信息表;网络关系表的表设计:Rowkey采用手机号码倒置+联系的手机号码,采用一个列族cf,每个列族下面多列的存储方式;网络节点信息表设计:Rowkey采用手机号码倒置,采用一个列族cf,每个列族下面多列的存储方式...
【专利技术属性】
技术研发人员:叶鹏,包卉,罗皓,
申请(专利权)人:上海诚数信息科技有限公司,
类型:发明
国别省市:上海,31
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。