【技术实现步骤摘要】
一种基于SparkStreaming的敏感内容识别方法及装置
本专利技术涉及数据安全领域,尤其涉及一种基于SparkStreaming的敏感内容识别方法及装置。
技术介绍
随着网络技术的发展,数据安全问题得到了前所未有的关注。数据防泄漏系统得到了广泛的使用,其中敏感内容的识别是该系统的重要组成部分,对数据防泄漏系统的使用和发展起着重要作用。此外,为了保证文明及合法,对出现的不文明、不合法的敏感内容进行识别,也是网络技术发展过程中所需要解决的。现有技术中对敏感内容通常是通过设置关键词的方式进行识别,但需要识别的对象数据量巨大,无法做到对海量数据的实时的敏感内容的识别,也无法做到既能识别文本的敏感内容,又能识别图片中的敏感内容。
技术实现思路
为解决上述技术问题,本专利技术提出了一种基于SparkStreaming的敏感内容识别方法及装置,所述方法及装置,用以解决现有技术中无法做到对海量数据的实时的敏感内容的识别,也无法做到既能识别文本的敏感内容,又能识别图片中的敏感内容的技术问题。根 ...
【技术保护点】
1.一种基于Spark Streaming的敏感内容识别的方法,其特征在于,所述方法包括:/n步骤S201:Spark Streaming处理集群从kafka集群中获取文本数据,从TCP SOCKETS服务器中获取图片流数据,从敏感内容规则定义模块接收定义好的敏感内容识别规则;/n步骤S202:由Spark Streaming处理集群的Driver节点按照调度规则调度需要使用的Executor计算节点;/n步骤S203:所述Driver节点将计算方式、敏感内容识别规则发送给所述需要使用的Executor计算节点;/n步骤S204:由所述需要使用的Executor计算节点对获 ...
【技术特征摘要】
1.一种基于SparkStreaming的敏感内容识别的方法,其特征在于,所述方法包括:
步骤S201:SparkStreaming处理集群从kafka集群中获取文本数据,从TCPSOCKETS服务器中获取图片流数据,从敏感内容规则定义模块接收定义好的敏感内容识别规则;
步骤S202:由SparkStreaming处理集群的Driver节点按照调度规则调度需要使用的Executor计算节点;
步骤S203:所述Driver节点将计算方式、敏感内容识别规则发送给所述需要使用的Executor计算节点;
步骤S204:由所述需要使用的Executor计算节点对获取到的文本数据、图片流数据进行计算,得到敏感内容及相应的敏感内容出现的次数;将计算结果反馈到所述Driver节点,由所述Driver节点进行汇总处理;
步骤S205:所述Driver节点输出敏感内容及相应的敏感内容出现的次数。
2.如权利要求1所述的基于SparkStreaming的敏感内容识别的方法,其特征在于,所述步骤S202:由SparkStreaming处理集群的Driver节点按照调度规则调度需要使用的Executor计算节点,包括:
由SparkStreaming处理集群的Driver节点按照调度规则计算需要使用哪些Executor计算节点进行数据计算,进而调度相应的Executor计算节点;所述数据计算包括spark-sql处理、关键字包含计算、分析图片数据。
3.如权利要求1所述的基于SparkStreaming的敏感内容识别的方法,其特征在于,所述调度规则包括考虑各Executor计算节点的负载均衡、运算能力。
4.如权利要求1所述的基于SparkStreaming的敏感内容识别的方法,其特征在于,以正则表达式或模板的形式表达并定义敏感内容识别规则。
5.一种基于SparkStreaming的敏感内容识别的装置,其特征在于,所述装置包括:
获取模块:用于由SparkStreaming处理集群从kafka集群中获取文本数据,从TCPSOCKETS服务器...
【专利技术属性】
技术研发人员:董晓斌,喻波,王志海,安鹏,
申请(专利权)人:北京明朝万达科技股份有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。