一种便捷式数据分级分类的处理方法技术

技术编号:32107754 阅读:57 留言:0更新日期:2022-01-29 18:50
本发明专利技术提出了一种便捷式数据分级分类的处理方法,包括启动模块的数据输出端与合法性模块的数据输入端相连,合法性模块的数据输出端与清单模块的数据输入端相连,清单模块的数据输出端与进程模块的数据输入端相连,进程模块的数据输出端与分类模块的数据输入端相连,分类模块的数据输出端与报告模块的数据输入端相连。本发明专利技术基于U盘开展终端留存数据的分类分级,与当前基于服务端-客户端模式,客户端以爬虫方式进行数据采集、再由服务器进行分类分级,可填补一些不能安装客户端的场景,比如不受控终端、离网终端等,并对从图片中提取的内容实现对图片分类,防止敏感图片数据泄露。露。露。

【技术实现步骤摘要】
一种便捷式数据分级分类的处理方法


[0001]本专利技术涉及一种数据分类
,特别是涉及一种便捷式数据分级分类的处理方法。

技术介绍

[0002]随着信息安全技术的不断发展,安全防护逐渐由被动响应向主动防御转变,由事后追溯、事中控制向事前预防方向发展。对于数据安全防护来讲,传统的发生敏感数据泄露后通过审计系统、水印系统等查找发生数据泄露原因的被动防御模式,已经逐渐演进为在敏感数据泄露事件发生前,及时发现敏感数据信息、及时定制敏感数据防护策略、及时监控敏感数据的流转和使用,从源头上降低敏感数据泄露机会的主动防御模式。

技术实现思路

[0003]本专利技术旨在至少解决现有技术中存在的技术问题,特别创新地提出了一种便捷式数据分级分类的处理方法。
[0004]为了实现本专利技术的上述目的,本专利技术提供了一种便捷式数据分级分类的处理系统,包括启动模块、合法性模块、清单模块、进程模块、分类模块和报告模块;
[0005]启动模块的数据输出端与合法性模块的数据输入端相连,合法性模块的数据输出端与清单模块的数据输入端相连,清单模块的数据输出端与进程模块的数据输入端相连,进程模块的数据输出端与分类模块的数据输入端相连,分类模块的数据输出端与报告模块的数据输入端相连;
[0006]启动模块用于主程序启动;
[0007]合法性模块用于检测程序执行,判断运行环境合法性;
[0008]清单模块用于检测程序启动多进程读取待检测文件清单;
[0009]进程模块用于检测进程读取硬件能力信息,动态确定检测进程数量;
[0010]分类模块用于对表格类文件、文本类文件、图片类文件之一或者任意组合内容读取及分类处理;
[0011]报告模块用于生成检测报告。
[0012]在本专利技术的一种优选实施方式中,在启动模块中包括:在主界面上的输入框中输入待检测文件目录路径、待检测文件类型参数信息,待检测文件类型包括表格类文件、文本类文件、图片类文件之一或者任意组合,启动检测,启动检测后将主界面中的输入框灰化,启动日志读取进程,启动日志记录线程并生成日志文件;
[0013]日志读取进程用于负责循环读取日志文件记录写入主界面,每次读取时先判断日志文件中是否有检测结束标识符,如果无结束标识符,提取日志中新写入内容插入主界面日志框,读完后进程休眠1s;如有结束标识符,则将主界面中灰化的输入框恢复正常,停止循环。
[0014]在本专利技术的一种优选实施方式中,在进程模块中包括:
[0015]读取当前终端硬件的CPU核数、内存G数,计算内存G数与CPU核数的比例,记为T;
[0016]表格类文件处理进程数或文本类处理进程数为M,如果CPU核数小于9并且T>1,则M=CPU核数
×
2,其他情况M=CPU核数;
[0017]图片文件处理进程数为N,如果CPU核数小于9并且T>1,
[0018]则
[0019]其中,INT()表示取整函数;
[0020]if表示逻辑条件如果;
[0021]Q
CPU
表示CPU核数;
[0022]T表示内存G数与CPU核数的比例;
[0023]其他情况,
[0024]其中,INT()表示取整函数;
[0025]if表示逻辑条件如果;
[0026]Q
CPU
表示CPU核数;
[0027]T表示内存G数与CPU核数的比例。
[0028]在本专利技术的一种优选实施方式中,在分类模块对表格类文件内容读取及分类处理包括:
[0029]从待检测文件清单中筛选出待检测表格类文件,过滤待检测文件清单,得到表格类文件清单;
[0030]启动M个进程,将待检测表格类文件中的文件按照索引号分成M份,分别传给进程;
[0031]依次处理每个文件,读取表格sheet名,分别读取每个sheet表格内容;
[0032]每个表格内容逐列比对,每列记录依次与预设数据信息比对,预设数据信息包括自定义关键词、地址、姓名、性别、身份证号、银行卡号、电话号码、电子邮箱、IP地址、日期、时间、qq号、微信之一或者任意组合信息,找到满足条件的内容则对该文件该列标记内容标签并计入标签列表,同时中断进入下一个列比对;如果全部遍历均没找到,则直接进入下一列比对;
[0033]单个文件处理完后,继续处理下一个文件;
[0034]或/和对文本类文件内容读取及分类处理包括:
[0035]从待检测文件清单中筛选出待检测文本类文件,过滤待检测文件清单,得到文本类文件清单;
[0036]启动M个进程,将待检测文本类文件中的文件按照索引号分成M份,分别传给进程;
[0037]依次读取每个文本内容,依次与预设数据信息比对,预设数据信息包括自定义关键词、地址、姓名、性别、身份证号、银行卡号、电话号码、电子邮箱、IP地址、日期、时间、qq号、微信之一或者任意组合信息,满足条件则对该内容增加一个标签并计入标签列表,全部
比对完结束后开始读取下一文本;
[0038]或/和对图片类文件内容读取及分类处理包括:
[0039]从待检测文件清单中筛选出待检测图片类文件,过滤待检测文件清单,得到图片类文件清单;
[0040]启动N个进程,将待检测图片类文件中的文件按照索引号分成N份,分别传给进程;
[0041]启动图片文本内容检测程序,依次读取每个图片的文字内容,形成文本内容列表;
[0042]对文本内容列表总的每个文本内容,依次与预设数据信息比对,预设数据信息包括自定义关键词、地址、姓名、性别、身份证号、银行卡号、电话号码、电子邮箱、IP地址、日期、时间、qq号、微信之一或者任意组合信息,满足条件则对该内容增加一个标签并计入标签列表,全部比对完结束后开始读取下一文本。
[0043]本专利技术还公开了一种便捷式数据分级分类的处理方法,包括以下步骤:
[0044]S1,主程序启动;
[0045]S2,检测程序执行,判断运行环境合法性;
[0046]S3,检测程序启动多进程读取待检测文件清单;
[0047]S4,检测进程读取硬件能力信息,动态确定检测进程数量;
[0048]S5,对表格类文件、文本类文件、图片类文件之一或者任意组合内容读取及分类处理;
[0049]S6,生成检测报告。
[0050]在本专利技术的一种优选实施方式中,在步骤S1中包括:在主界面上的输入框中输入待检测文件目录路径、待检测文件类型参数信息,待检测文件类型包括表格类文件、文本类文件、图片类文件之一或者任意组合,启动检测,启动检测后将主界面中的输入框灰化,启动日志读取进程,启动日志记录线程并生成日志文件;
[0051]日志读取进程用于负责循环读取日志文件记录写入主界面,每次读取时先判断日志文件中是否有检测结束标识符,如果无结束标识符,提取日志中新写入内本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种便捷式数据分级分类的处理系统,其特征在于,包括启动模块、合法性模块、清单模块、进程模块、分类模块和报告模块;启动模块的数据输出端与合法性模块的数据输入端相连,合法性模块的数据输出端与清单模块的数据输入端相连,清单模块的数据输出端与进程模块的数据输入端相连,进程模块的数据输出端与分类模块的数据输入端相连,分类模块的数据输出端与报告模块的数据输入端相连;启动模块用于主程序启动;合法性模块用于检测程序执行,判断运行环境合法性;清单模块用于检测程序启动多进程读取待检测文件清单;进程模块用于检测进程读取硬件能力信息,动态确定检测进程数量;分类模块用于对表格类文件、文本类文件、图片类文件之一或者任意组合内容读取及分类处理;报告模块用于生成检测报告。2.根据权利要求1所述的便捷式数据分级分类的处理系统,其特征在于,在启动模块中包括:在主界面上的输入框中输入待检测文件目录路径、待检测文件类型参数信息,待检测文件类型包括表格类文件、文本类文件、图片类文件之一或者任意组合,启动检测,启动检测后将主界面中的输入框灰化,启动日志读取进程,启动日志记录线程并生成日志文件;日志读取进程用于负责循环读取日志文件记录写入主界面,每次读取时先判断日志文件中是否有检测结束标识符,如果无结束标识符,提取日志中新写入内容插入主界面日志框,读完后进程休眠1s;如有结束标识符,则将主界面中灰化的输入框恢复正常,停止循环。3.根据权利要求1所述的便捷式数据分级分类的处理系统,其特征在于,在进程模块中包括:读取当前终端硬件的CPU核数、内存G数,计算内存G数与CPU核数的比例,记为T;表格类文件处理进程数或文本类处理进程数为M,如果CPU核数小于9并且T>1,则M=CPU核数
×
2,其他情况M=CPU核数;图片文件处理进程数为N,如果CPU核数小于9并且T>1,则其中,INT()表示取整函数;if表示逻辑条件如果;Q
CPU
表示CPU核数;T表示内存G数与CPU核数的比例;其他情况,
其中,INT()表示取整函数;if表示逻辑条件如果;Q
CPU
表示CPU核数;T表示内存G数与CPU核数的比例。4.根据权利要求1所述的便捷式数据分级分类的处理系统,其特征在于,在分类模块对表格类文件内容读取及分类处理包括:从待检测文件清单中筛选出待检测表格类文件,过滤待检测文件清单,得到表格类文件清单;启动M个进程,将待检测表格类文件中的文件按照索引号分成M份,分别传给进程;依次处理每个文件,读取表格sheet名,分别读取每个sheet表格内容;每个表格内容逐列比对,每列记录依次与预设数据信息比对,预设数据信息包括自定义关键词、地址、姓名、性别、身份证号、银行卡号、电话号码、电子邮箱、IP地址、日期、时间、qq号、微信之一或者任意组合信息,找到满足条件的内容则对该文件该列标记内容标签并计入标签列表,同时中断进入下一个列比对;如果全部遍历均没找到,则直接进入下一列比对;单个文件处理完后,继续处理下一个文件;或/和对文本类文件内容读取及分类处理包括:从待检测文件清单中筛选出待检测文本类文件,过滤待检测文件清单,得到文本类文件清单;启动M个进程,将待检测文本类文件中的文件按照索引号分成M份,分别传给进程;依次读取每个文本内容,依次与预设数据信息比对,预设数据信息包括自定义关键词、地址、姓名、性别、身份证号、银行卡号、电话号码、电子邮箱、IP地址、日期、时间、qq号、微信之一或者任意组合信息,满足条件则对该内容增加一个标签并计入标签列表,全部比对完结束后开始读取下一文本;或/和对图片类文件内容读取及分类处理包括:从待检测文件清单中筛选出待检测图片类文件,过滤待检测文件清单,得到图片类文件清单;启动N个进程,将待检测图片类文件中的文件按照索引号分成N份,分别传给进程;启动图片文本内容检测程序,依次读取每个图片的文字内容,形成文本内容列表;对文本内容列表总的每个文本内容,依次与预设数据信息比对,预设数据信息包括自定义关键词、地址、姓名、性别、身份证号、银行卡号、电话号码、电子邮箱、IP地址、日期、时间、qq号、微信之一或者任意组合信息,满足条件则对该内容增加一个标签并计入标签列表,全部比对完结束后开始读取下一文本。5.一种便捷式数据分级分类的处理方法,其特征在于,包括以下步骤:S1,主程序启动;S2,检测程序执行,判断运行环境合法性;S3,检测程序启动多进程读取待检测文件清单;S4,检测进程读取硬件能力信息,动态确定检测进程数量;S5,对表格类文件、文本类文件、图片类文件之一或者任意组合内容读取及分类处理;
S6,生成检测报告。6.根据权...

【专利技术属性】
技术研发人员:张建强
申请(专利权)人:重庆贝特计算机系统工程有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1