一种基于Spark Streaming的敏感内容识别方法及装置制造方法及图纸

技术编号：23512784 阅读：28 留言：0更新日期：2020-03-18 00:05

本发明专利技术提供基于Spark Streaming的敏感内容识别的方法及装置，包括：Spark Streaming处理集群从kafka集群中获取文本数据，从TCP SOCKETS服务器中获取图片流数据，从敏感内容规则定义模块接收定义好的敏感内容识别规则；由Spark Streaming处理集群的Driver节点按照调度规则调度需要使用的Executor计算节点；Driver节点将计算方式、敏感内容识别规则发送给所述Executor计算节点；由所述Executor计算节点对获取到的文本数据、图片流数据进行计算，得到敏感内容及相应敏感内容出现的次数；将计算结果反馈到Driver节点，由Driver节点进行汇总处理；Driver节点输出敏感内容及相应敏感内容出现的次数。

A sensitive content recognition method and device based on spark streaming

全部详细技术资料下载

【技术实现步骤摘要】
一种基于SparkStreaming的敏感内容识别方法及装置
本专利技术涉及数据安全领域，尤其涉及一种基于SparkStreaming的敏感内容识别方法及装置。
技术介绍
随着网络技术的发展，数据安全问题得到了前所未有的关注。数据防泄漏系统得到了广泛的使用，其中敏感内容的识别是该系统的重要组成部分，对数据防泄漏系统的使用和发展起着重要作用。此外，为了保证文明及合法，对出现的不文明、不合法的敏感内容进行识别，也是网络技术发展过程中所需要解决的。现有技术中对敏感内容通常是通过设置关键词的方式进行识别，但需要识别的对象数据量巨大，无法做到对海量数据的实时的敏感内容的识别，也无法做到既能识别文本的敏感内容，又能识别图片中的敏感内容。
技术实现思路
为解决上述技术问题，本专利技术提出了一种基于SparkStreaming的敏感内容识别方法及装置，所述方法及装置，用以解决现有技术中无法做到对海量数据的实时的敏感内容的识别，也无法做到既能识别文本的敏感内容，又能识别图片中的敏感内容的技术问题。根...

【技术保护点】
1.一种基于Spark Streaming的敏感内容识别的方法，其特征在于，所述方法包括：/n步骤S201：Spark Streaming处理集群从kafka集群中获取文本数据，从TCP SOCKETS服务器中获取图片流数据，从敏感内容规则定义模块接收定义好的敏感内容识别规则；/n步骤S202：由Spark Streaming处理集群的Driver节点按照调度规则调度需要使用的Executor计算节点；/n步骤S203：所述Driver节点将计算方式、敏感内容识别规则发送给所述需要使用的Executor计算节点；/n步骤S204：由所述需要使用的Executor计算节点对获取到的文本数据、图片...

【技术特征摘要】
1.一种基于SparkStreaming的敏感内容识别的方法，其特征在于，所述方法包括：
步骤S201：SparkStreaming处理集群从kafka集群中获取文本数据，从TCPSOCKETS服务器中获取图片流数据，从敏感内容规则定义模块接收定义好的敏感内容识别规则；
步骤S202：由SparkStreaming处理集群的Driver节点按照调度规则调度需要使用的Executor计算节点；
步骤S203：所述Driver节点将计算方式、敏感内容识别规则发送给所述需要使用的Executor计算节点；
步骤S204：由所述需要使用的Executor计算节点对获取到的文本数据、图片流数据进行计算，得到敏感内容及相应的敏感内容出现的次数；将计算结果反馈到所述Driver节点，由所述Driver节点进行汇总处理；
步骤S205：所述Driver节点输出敏感内容及相应的敏感内容出现的次数。

2.如权利要求1所述的基于SparkStreaming的敏感内容识别的方法，其特征在于，所述步骤S202：由SparkStreaming处理集群的Driver节点按照调度规则调度需要使用的Executor计算节点，包括：
由SparkStreaming处理集群的Driver节点按照调度规则计算需要使用哪些Executor计算节点进行数据计算，进而调度相应的Executor计算节点；所述数据计算包括spark-sql处理、关键字包含计算、分析图片数据。

3.如权利要求1所述的基于SparkStreaming的敏感内容识别的方法，其特征在于，所述调度规则包括考虑各Executor计算节点的负载均衡、运算能力。

4.如权利要求1所述的基于SparkStreaming的敏感内容识别的方法，其特征在于，以正则表达式或模板的形式表达并定义敏感内容识别规则。

5.一种基于SparkStreaming的敏感内容识别的装置，其特征在于，所述装置包括：
获取模块：用于由SparkStreaming处理集群从kafka集群中获取文本数据，从TCPSOCKETS服务器...

【专利技术属性】
技术研发人员：董晓斌，喻波，王志海，安鹏，
申请(专利权)人：北京明朝万达科技股份有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人