一种网络数据监测方法技术

技术编号:21432435 阅读:18 留言:0更新日期:2019-06-22 11:59
本发明专利技术公开了一种网络数据监测方法,该方法包括以下几个步骤:步骤1:待识别的文本数据获取并预处理;步骤2:搭建无语义字符库和冷僻字符库以及冷僻字符搭配表,设定冷僻字符以及无字符出现的次数阀值N;步骤3:遍历预处理后的文本,记录冷僻字符出现次数A以及与无语义字符数B;步骤4:制定警告规则,提示网络监管。本发明专利技术的有益效果:1、人性化的根据企业要求制定监管策略,可以提高信息审查的效率,避免因人工监管带来的疏忽以及信息泄露,安全高效;2、根据不同的需求以及检查结果,及时的更新无语义字符库和冷僻字符库以及冷僻字符搭配表,可以提高信息检查的准确新,减少信息泄露的风险。

【技术实现步骤摘要】
一种网络数据监测方法
本专利技术涉及互联网
,具体涉及一种网络数据监测方法。
技术介绍
文本分类是指对文本按照一定的分类体系或者标准进行自动分类标记,文本分类包括了文本的表达、分类器的选择与训练、分类结果的评价与反馈等过程。信息作为一种资源,它的普遍性、共享性、增值性、可处理性和多效用性,使其对于人类具有特别重要的意义。信息安全的实质就是要保护信息系统或信息网络中的信息资源免受各种类型的威胁、干扰和破坏,即保证信息的安全性。根据国际标准化组织的定义,信息安全性的含义主要是指信息的完整性、可用性、保密性和可靠性。信息安全是任何国家、政府、部门、行业都必须十分重视的问题,是一个不容忽视的国家安全战略。对于不同的部门和行业来说,其对信息安全的要求和重点却是有区别的。对于一个企业来说,如果发生未公开信息或者方案遭到泄密对一个企业来说是存在很大的隐患的,因此在信息加密以及信息监控方面需要不断去开发新技术,以应对不同企业的不同需求,保证信息安全。中国专利,公开号:CN104539624A,公开日:2015年4月22日,公开了一种文本中号码信息的安全监测方法及装置,本专利技术提供一种文本中号码信息的安全监测方法,包括以下步骤:获取包含号码的文本消息;提取文本消息中的号码信息;发送包含号码信息的安全检测请求至服务器端;获取服务器端返回的检测结果,当该检测结果表征号码信息应被拦截时,拦截号码信息对应的文本消息。该方法能够将上述方式通过将文本消息中的号码信息与黑号码库中的信息进行匹配,能够准确地识别垃圾消息,减少用户损失。但不能及时的根据文本消息中的内容去区别黑号码,也不能及时的更新黑号码库,当遇到新的黑号码内容时,不能保证下一次能够拦截。
技术实现思路
本专利技术的目是针对企业文件中一些涉及信息泄露的关键字或关键词,在文案倒出过程中需要对文案的整体信息进行一个泄密排查,提出了一种网络数据监测方法,该方法可以有效监察到文档中涉及到的泄密内容,并作出警告以及后续的警告处理步骤。为实现上述技术目的,本专利技术提供的一种技术方案是,一种网络数据监测方法,该方法包括以下几个步骤:步骤1:待识别的文本数据获取并预处理;步骤2:搭建无语义字符库和冷僻字符库以及冷僻字符搭配表,设定冷僻字符以及无字符出现的次数阀值N;步骤3:遍历预处理后的文本,记录冷僻字符出现次数A以及与无语义字符数B;步骤4:制定警告规则,提示网络监管。进一步的,所述步骤1包括:步骤11:网络文本数据的获取;步骤12:对获取到的网络文本数据进行分词处理,对文本中的无语义字符和冷僻字符进行提取和分类。本方案中,网络文本来源可以是企业的文档,也可以是大型论坛,贴吧等公共网络舆论场所;将文本中的的汉字以及字符通过所占字符数进行区分,特别的,对文档中的数字内容可以根据设定规则作为冷僻字,用于防止因为数字串对应的代码、编码或者暗号而产生的信息泄密。进一步的,所述步骤2包括:步骤21:建立无语义字符库和冷僻字符库,搭建冷僻字符搭配表,将与冷僻字相邻的一定字符长度的字符串制定一个字符串集合,以冷僻字作为搜索关键字核心目标进行匹配。本方案中,无语义字符库和冷僻字符库都是根据大数据分析采集训练得到,无语义字符库和冷僻字符库根据数据监管的力度以及涉密级别的大小不断的调整阀值N,达到企业需要达到的保密及被,提高数据处理效率;步骤22:设定文本中的字符遍历相同字符出现的次数阀值N,用以制定警告,提示需要网络监管。本方案中,所述的阀值可以更具企业的对文档的安全系数进行调整。进一步的,所述步骤3包括:步骤31:对文本进行特征提取,将冷僻字符和无语义字符进行类别识别;步骤32:分别遍历冷僻字符相邻的无语义字符数以及冷僻字符,通过与无语义字符库和冷僻字符库的对照,记录无语义字符以及冷僻字符出现的次数;进一步的,所述步骤4包括:步骤41:统计遍历整篇文本的冷僻字符出现次数A和无语义字符数B,与设定阀值N进行对比;步骤42:判定:若A>=N,则剔除整篇文档的无语义字符,将剔除无语义字符后的生僻字符与冷僻字符库进行匹配,若匹配成功,则生成关键字;若匹配不成功,更新所述冷僻字符库和所述冷僻字符搭配表;若B>=N,将剔除生僻字符的文档与无语义字符表匹配,若匹配成功,则发出警告,若匹配不成功,更新无语义字符表。步骤43:制定关键词集合,以关键字为中心,提取关键字以及相邻的字符作为关键词,生成关键词集合;步骤44:将关键词集合与冷僻字符搭配表进行匹配,若匹配成功,提示警告,需要网络监管。进一步的,所述的步骤42包括:更新冷僻字符库以及更新冷僻字符搭配表;所述关键字如果不在冷僻字符库,需要更新所述冷僻字符库和所述冷僻字符搭配表,具体步骤如下:步骤421:将关键字作为冷僻字添加到冷僻字符表中,生成新的冷僻字符表作为下一次遍历文本的冷僻字符表;进一步的,所述的更新冷僻字符搭配表有以下规则;步骤422:遍历整篇文档,记录无语义字符的个数B,若B>=A/2,则将此无语义的字符以及与其相邻的冷僻字符作为关键词,放入关键词集合,将生成的关键词集合添加到所述冷僻字符搭配表中,生成新的冷僻字符搭配表供下一次遍历文本对照。进一步的,所述的冷僻字符表可以对关键词集合进行语义分析,通过企业对不同信息的安全级别要求,通过计算语义权重,进行语义判别,制定不同的警告策略。进一步的,所述的警告策略根据语义分析以及所占语义的权重制定不同的网络监管方法,所述网络监管方法分别为注销IP以及IP跟踪、禁止输入、文本模糊化处理。本专利技术的有益效果:按照本专利技术的计算机文本信息安全自动监控预警方法,对待处理文档进行识别预处理,预处理后的文档与无语义字符库和冷僻字符库进行匹配,根据企业对信息安全级别制定判定规则,进行无语义字符库和冷僻字符库以及冷僻字符搭配表的更新,方便对信息进行检测和警告。该方法具有以下优点:1、人性化的根据企业要求制定监管策略,可以提高信息审查的效率,避免因人工监管带来的疏忽以及信息泄露,安全高效;2、根据不同的需求以及检查结果,及时的更新无语义字符库和冷僻字符库以及冷僻字符搭配表,可以提高信息检查的准确新,减少信息泄露的风险。附图说明图1为本专利技术的一种网络数据监测方法流程图。图2为本专利技术的一种网络数据监测方法的字符库更新流程图。具体实施方式为使本专利技术的目的、技术方案以及优点更加清楚明白,下面结合附图和实施例对本专利技术作进一步详细说明,应当理解的是,此处所描述的具体实施方式仅是本专利技术的一种最佳实施例,仅用以解释本专利技术,并不限定专利技术的保护范围,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。如图1所示,一种网络数据监测方法,该方法包括以下几个步骤:步骤1:待识别的文本数据获取并预处理;步骤2:搭建无语义字符库和冷僻字符库以及冷僻字符搭配表,设定冷僻字符以及无字符出现的次数阀值N;步骤3:遍历预处理后的文本,记录冷僻字符出现次数A以及与无语义字符数B;步骤4:制定警告规则,提示网络监管。进一步的,所述步骤1包括:步骤11:网络文本数据的获取;步骤12:对获取到的网络文本数据进行分词处理,对文本中的无语义字符和冷僻字符进行提取和分类。本实施例中,网络文本来源可以是企业的文档,也可以是大型本文档来自技高网
...

【技术保护点】
1.一种网络数据监测方法,其特征在于:该方法包括以下几个步骤;步骤1:待识别的文本数据获取并预处理;步骤2:搭建无语义字符库和冷僻字符库以及冷僻字符搭配表,设定冷僻字符以及无字符出现的次数阀值N;步骤3:遍历预处理后的文本,记录冷僻字符出现次数A以及与冷僻字符相邻的无语义字符数B;步骤4:制定警告规则,提示网络监管。

【技术特征摘要】
1.一种网络数据监测方法,其特征在于:该方法包括以下几个步骤;步骤1:待识别的文本数据获取并预处理;步骤2:搭建无语义字符库和冷僻字符库以及冷僻字符搭配表,设定冷僻字符以及无字符出现的次数阀值N;步骤3:遍历预处理后的文本,记录冷僻字符出现次数A以及与冷僻字符相邻的无语义字符数B;步骤4:制定警告规则,提示网络监管。2.根据权利要求1所述的一种网络数据监测方法,其特征在于:所述步骤1包括:步骤11:网络文本数据的获取;步骤12:对获取到的网络文本数据进行分词处理,对文本中的无语义字符和冷僻字符进行提取和分类。3.根据权利要求1所述的一种网络数据监测方法,其特征在于:所述步骤2包括:步骤21:建立无语义字符库和冷僻字符库,搭建冷僻字符搭配表,将与冷僻字相邻的一定字符长度的字符串制定一个字符串集合,以冷僻字作为搜索核心目标进行匹配;步骤22:设定文本中的字符遍历相同字符出现的次数阀值,用以制定警告,提示需要网络监管。4.根据权利要求1所述的一种网络数据监测方法,其特征在于:所述步骤3包括:步骤31:对文本进行特征提取,将冷僻字符和无语义字符进行类别识别;步骤32:分别遍历无语义字符以及冷僻字符,通过与无语义字符库和冷僻字符库的对照,记录无语义字符以及冷僻字符出现的次数。5.根据权利要求1所述的一种网络数据监测方法,其特征在于:所述步骤4包括:步骤41:统计遍历整篇文本的冷僻字符出现次数A和冷僻字符相邻的无语义字符数B,与设定值N进行对比;步骤42:判定:若A>=N,则剔除整篇文档的无语义字符,将剔除无语...

【专利技术属性】
技术研发人员:徐宏金鑫胡遨洋金海松花志伟张振威杨泰刘书涵张杰商杰吴蓓佳张超
申请(专利权)人:国网浙江桐乡市供电有限公司
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1