基于大数据技术的色情数据删除方法及工作系统技术方案

技术编号:22238402 阅读:31 留言:0更新日期:2019-10-09 18:17
本发明专利技术提出了一种基于大数据技术的色情数据删除方法及工作系统,包括如下步骤:S1,通过数据提取收集方式寻找疑似色情网站;S2,根据寻找的疑似色情网站中的信息进行色情号码识别与提取;S3,将识别与提取后的色情号码接入社交网络接口;S4,接入社交网络接口后,对色情号码相关信息进行可视化处理,向终端用户进行展示。

Pornographic Data Deletion Method and Work System Based on Big Data Technology

【技术实现步骤摘要】
基于大数据技术的色情数据删除方法及工作系统
本专利技术涉及计算机数据挖掘领域,尤其涉及一种基于大数据技术的色情数据删除方法及工作系统。
技术介绍
淫秽色情内容及其产业易导致社会风气败坏,引起各种各样的社会犯罪,损害身心健康,所以色情一直以来都是重点打击和监控的违法行为。互联网对于色情内容如果没有相应的监管和识别,将会造成非常严重的社会问题,但是通过传统手段进行色情内容筛查以及分析,已经不能满足海量数据状态下的客观需求,传统方法筛选速度慢,删除不良网络内容的效率低下。这就亟需本领域技术人员解决相应的技术问题。
技术实现思路
本专利技术旨在至少解决现有技术中存在的技术问题,特别创新地提出了一种基于大数据技术的色情数据删除方法及工作系统。为了实现本专利技术的上述目的,本专利技术提供了一种基于大数据技术的色情数据删除方法,其特征在于,包括如下步骤:S1,通过数据提取收集方式寻找疑似色情网站;S2,根据寻找的疑似色情网站中的信息进行色情号码识别与提取;S3,将识别与提取后的色情号码接入社交网络接口;S4,接入社交网络接口后,对色情号码相关信息进行可视化处理,向终端用户进行展示。优选的,所述S1包括:利用爬虫技术爬取疑似网站的所有文字,根据相关色情文字出现的频次来判定该网站是否色情;若是,则直接判定该网页上所有的相关网址链接为色情链接。优选的,所述S2包括:S2-1,对从色情网站上爬取下来的图片进行分类,将包含色情联系人手机号的图片定义为目标图片;S2-2,对目标图片先使用CTPN算法进行文字定位监测,然后使用CNN算法进行CTC文字识别,提取出图片中的文字;S2-3,对图片中的文字进行过滤,剔除不相关的文字,筛选出手机号码。优选的,所述S3包括:该接口通过使用Nginx,Springboot,Hbase,Spark和Hdfs的大数据框架技术,基于用户手机通讯数据构建社交网络,对色情号码社交网络查询提供实时服务。优选的,所述S3还包括:S3-1,通过使用Nginx和Springboot搭建了一个高可用的在线查询和数据上传服务;这里用到的是Nginx的反向代理,Nginx的代理过程,就是将请求发送给Nginx,然后将请求转发给后端服务器,后端服务器处理完毕之后将结果再发给Nginx,Nginx再把结果发送给客户端;Springboot服务主要实现数据上传和查询的具体逻辑实现,通过接收到Nginx转发过来的请求参数,使用Hbase提供的API去查询后端网络关系表和网络节点信息表,将查询结果整合后返回给客户端。优选的,所述S3还包括:S3-2,进行数据生成过程,通过使用Spark这个大数据并行计算框架完成海量关系网络数据的生成;该联系网络是通过将原始数据进行分区、清洗、去重、合并几个步骤生成,为了排除一些联系紧密程度很弱的数据,将网络中每个人联系最紧密的前100个的联系数据提取出来,然后存储到分布式文件存储系统Hdfs中;S3-3,进行数据存储过程,通过使用Hbase这个高可靠性,高性能的分布式存储系统来存储海量的关系网络数据来提供实时查询;这里色情的关系网络数据存储主要采用了三张表,分别是主叫号码联系网络表,被叫号码联系网络表,网络节点信息表;网络关系表的表设计:Rowkey采用手机号码倒置+联系的手机号码,采用一个列族cf,每个列族下面多列的存储方式;网络节点信息表设计:Rowkey采用手机号码倒置,采用一个列族cf,每个列族下面多列的存储方式;手机号码倒置使得高位散列,可以避免数据热点问题,使得每个RegionServer上的数据分布更均匀,可以发挥出分布式存储系统的优势。优选的,所述S4包括:S4-1,包括使用jqGrid插件完成色情网站数据列表的展示以及分页效果;使用echarts关系图展示色情号码与一阶联系号码之间的关联以及一级联系号码与二阶联系号码之间的关联;S4-2,使用echarts雷达图展示色情号码通话总时长、灰分度、主叫总次数、被叫总次数与最近一次通话距今时间的分布结构;使用echarts柱状图展示色情号码近一年被呼叫以及主动呼叫的次数分布结构。优选的,所述S4-1包括:jqGrid展示基本数据;目前有两处地方设计列表展示:色情网站列表以及色情手机号码列表;色情网站列表主要是整理抓取的色情网址、色情手机号码个数以及与这些色情号码直接或间接联系的一阶联系号码个数与二阶联系号码个数,并根据前端需要展示的信息条数取出并展示;色情手机号码列表主要展示色情手机号码、色情手机号码的一阶联系号码个数、色情手机号码的二阶联系号码个数以及与色情手机联系的色情网址;同样的,数据在后台处理完成后根据前端需要展示的信息条数取出数据并展示。优选的,所述S4-2包括:首先echarts关系图展示色情手机号码关联网络图和色情手机号码关联网络图,其中色情手机号码关联网络图与色情手机号码关联网络图基本一致;关联网络图的亲密度分为4个区间:0-50、50-100、100-150、150-200;同时,为了提升分析清晰度,采用将色情号码结点的大小根据其一阶联系号码个数的改变而改变;然后是echarts雷达图展示色情号码具体信息,展示色情号码的灰分度、通话总时长、最近一次通话距今时间、被叫总次数、主叫总次数;展示的具体信息:灰分度:色情号码的灰度分,最大值为100分;通话总时长:色情号码所有的通话时长的加总,单位为分钟,最大值取数据库中所有色情号码通话时长加总最大值;最近一次通话距今时间:色情号码最近一次通话时间距今时间,单位为天,最大值取自数据库中所有色情号码距今通话时间距今时间最大值;被叫总次数:色情号码被叫次数的加总,最大值取自数据库中所有色情号码被叫总次数最大值;主叫总次数:色情号码主叫次数的加总,最大值取自数据库中所有色情号码主叫总次数最大值;最后echarts柱状图展示色情手机号码通话情况;计算当前月往前共12个月的月份;根据获取的12个月份整理该色情号码每个月的主叫次数与被叫次数并将整理完成的数据返回前端显示。本专利技术还公开一种基于大数据技术的色情数据删除工作系统,包括所述的方法所生成的色清数据删除展示图,进行图形展示的工作系统,该工作系统用于展示数据展示列表、饼状展示图、线形展示图和柱状展示图的任意组合。综上所述,由于采用了上述技术方案,本专利技术的有益效果是:本专利技术以大数据爬虫技术为基础定位到色情网站,然后使用图像识别技术和文本过滤技术提取出色情号码,再根据提取的色情号码发掘其社交网络数据,最后将相关数据进行交互的可视化展示。本专利技术可以帮助相关部门对色情进行主动、实时的监控,可以有效遏制色情内容的来源渠道,实时监控网络淫秽色情数据,并有效的进行删除操作。本专利技术的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本专利技术的实践了解到。附图说明本专利技术的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:图1是本专利技术总体工作流程图;图2是手机号码显示列表图;图3是本专利技术数据饼状图;图4是本专利技术数据线形图;图5是本专利技术数据柱状图;图6是本专利技术工作系统展示图实施例。具体实施方式下面详细描述本专利技术的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具本文档来自技高网...

【技术保护点】
1.一种基于大数据技术的色情数据删除方法,其特征在于,包括如下步骤:S1,通过数据提取收集方式寻找疑似色情网站;S2,根据寻找的疑似色情网站中的信息进行色情号码识别与提取;S3,将识别与提取后的色情号码接入社交网络接口;S4,接入社交网络接口后,对色情号码相关信息进行可视化处理,向终端用户进行展示。

【技术特征摘要】
1.一种基于大数据技术的色情数据删除方法,其特征在于,包括如下步骤:S1,通过数据提取收集方式寻找疑似色情网站;S2,根据寻找的疑似色情网站中的信息进行色情号码识别与提取;S3,将识别与提取后的色情号码接入社交网络接口;S4,接入社交网络接口后,对色情号码相关信息进行可视化处理,向终端用户进行展示。2.根据权利要求1所述的基于大数据技术的色情数据删除方法,其特征在于,所述S1包括:利用爬虫技术爬取疑似网站的所有文字,根据相关色情文字出现的频次来判定该网站是否色情;若是,则直接判定该网页上所有的相关网址链接为色情链接。3.根据权利要求1所述的基于大数据技术的色情数据删除方法,其特征在于,所述S2包括:S2-1,对从色情网站上爬取下来的图片进行分类,将包含色情联系人手机号的图片定义为目标图片;S2-2,对目标图片先使用CTPN算法进行文字定位检测,然后使用CNN和CTC算法进行文字识别,提取出图片中的文字;S2-3,对图片中的文字进行过滤,剔除不相关的文字,筛选出手机号码。4.根据权利要求1所述的基于大数据技术的色情数据删除方法,其特征在于,所述S3包括:该接口通过使用Nginx,Springboot,Hbase,Spark和Hdfs的大数据框架技术,基于用户手机通讯数据构建社交网络,对色情号码社交网络查询提供实时服务。5.根据权利要求4所述的基于大数据技术的色情数据删除方法,其特征在于,所述S3还包括:S3-1,通过使用Nginx和Springboot搭建了一个高可用的在线查询和数据上传服务;这里用到的是Nginx的反向代理,Nginx的代理过程,就是将请求发送给Nginx,然后将请求转发给后端服务器,后端服务器处理完毕之后将结果再发给Nginx,Nginx再把结果发送给客户端;Springboot服务主要实现数据上传和查询的具体逻辑实现,通过接收到Nginx转发过来的请求参数,使用Hbase提供的API去查询后端网络关系表和网络节点信息表,将查询结果整合后返回给客户端。6.根据权利要求4所述的基于大数据技术的色情数据删除方法,其特征在于,所述S3还包括:S3-2,进行数据生成过程,通过使用Spark这个大数据并行计算框架完成海量关系网络数据的生成;该联系网络是通过将原始数据进行分区、清洗、去重、合并几个步骤生成,为了排除一些联系紧密程度很弱的数据,将网络中每个人联系最紧密的前100个的联系数据提取出来,然后存储到分布式文件存储系统Hdfs中;S3-3,进行数据存储过程,通过使用Hbase这个高可靠性,高性能的分布式存储系统来存储海量的关系网络数据来提供实时查询;这里色情的关系网络数据存储主要采用了三张表,分别是主叫号码联系网络表,被叫号码联系网络表,网络节点信息表;网络关系表的表设计:Rowkey采用手机号码倒置+联系的手机号码,采用一个列族cf,每个列族下面多列的存储方式;网络节点信息表设计:Rowkey采用手机号码倒置,采用一个列族cf,每个列族下面多列的存储方式...

【专利技术属性】
技术研发人员:叶鹏包卉罗皓
申请(专利权)人:上海诚数信息科技有限公司
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1