一种信息安全检测方法、装置及设备制造方法及图纸

技术编号:39331746 阅读:11 留言:0更新日期:2023-11-12 16:07
本申请提供一种信息安全检测方法、装置及设备,涉及网络安全技术领域,用于提高检测信息安全的准确性。该信息安全检测方法包括:从文本检测工具的脚本文件中,提取M条文本检测规则,M条文本检测规则中的N条文本检测规则用于判断一种类型的第一文本是否符合信息安全标准,M大于N,N为正整数,并生成符合N条文本检测规则的样本文本;采用样本文本训练文本识别模型,获得训练后的文本识别模型以及经文本识别模型输出的样本词类型集合;根据样本词类型集合,生成正则规则,正则规则用于判断文本是否符合信息安全标准;根据训练后的文本识别模型以及正则规则,确定目标网页所包含的文本是否符合信息安全标准。否符合信息安全标准。否符合信息安全标准。

【技术实现步骤摘要】
一种信息安全检测方法、装置及设备


[0001]本申请涉及网络安全
,尤其涉及一种信息安全检测方法、装置及设备。

技术介绍

[0002]长久以来,网络一直是泄漏隐私信息的重要途径。因此,确保网络中的信息的安全尤为重要。
[0003]现有技术中,保障网络信息安全常用的方法为:通过预存储的关键词库,与网络中的文本信息进行比对,如果确定文本信息中包括关键词库中的任一个关键词,则确定该文本信息不符合信息安全标准,存在信息泄漏的问题。然而,这种方式下,判断文本信息是否符合信息安全标准的准确性与关键词库的数量相关。并且,在文本信息中不包括关键词时,无法对文本信息的语义进行检测,导致检测较为片面,信息检测的准确性也较低。

技术实现思路

[0004]本申请提供一种信息安全检测方法、装置及设备,用于提高检测信息安全的准确性。
[0005]第一方面,本申请实施例提供一种信息安全检测方法,包括:从文本检测工具的脚本文件中,提取M条文本检测规则,所述M条文本检测规则中的N条文本检测规则用于判断一种类型的第一文本是否符合信息安全标准,M大于N,N为正整数;生成符合所述N条文本检测规则的样本文本;采用所述样本文本训练文本识别模型,获得训练后的文本识别模型以及经所述文本识别模型输出的样本词类型集合;其中,所述文本识别模型用于识别所述样本文本中每个样本词的类型、以及将所述每个样本词的类型组成所述样本词类型集合;根据所述样本词类型集合,生成正则规则,所述正则规则用于判断文本是否符合所述信息安全标准;根据所述训练后的文本识别模型以及所述正则规则,确定目标网页所包含的文本是否符合所述信息安全标准。
[0006]在本申请实施例中,基于文本检测工具中的N条文本检测规则所表示的语义生成的样本文本,可使得基于样本文本训练后的文本识别模型可识别与样本文本的语义相同的文本,并不限制于基于关键词识别,识别范围更广,从而基于训练后的文本识别模型以及正则规则检测目标网页所包含的文本的准确性也更高。
[0007]在一种可能的实施方式中,生成符合所述N条文本检测规则的样本文本,包括:基于所述N条文本检测规则,确定样本词集合;其中,所述样本词集合包括至少一个不符合所述信息安全标准的样本词;根据所述样本词集合所表示的语义,生成所述样本文本。
[0008]在该实施方式中,从用于检测语义相同的第一文本的N条文本检测规则中确定出样本词集合,基于样本词集合表示的语义,生成的样本文本。进而后续基于样本文本训练得到的文本识别模型,能够识别到与样本文本语义相同的其他文本,而并非仅能基于关键词进行匹配,检测范围更广,提高了检测信息安全的准确性。
[0009]在一种可能的实施方式中,根据所述样本词类型集合,生成正则规则,包括:从所
述样本词类型集合中,确定出除指示敏感数据的词类型之外的第一词类型;确定所述第一词类型在所述样本词类型集合的第一位置;将所述第一词类型在所述第一位置的出现次数添加到所述样本词类型集合形成所述正则规则;其中,所述出现次数小于或等于预设阈值。
[0010]在该实施方式中,通过设定第一词类型在样本词类型集合中的第一位置的出现次数,可有效避免由于文本内容过长,指示敏感数据的词类型间隔较远,其实际的语义并不涉及信息泄漏,但词类型集合与样本词类型集合匹配,误判为文本不符合信息安全标准的情况出现,提高了检测信息安全的准确性。
[0011]在一种可能的实施方式中,根据所述训练后的文本识别模型以及所述正则规则,确定目标网页所包含的文本是否符合信息安全标准,包括:接收目标网页的网页信息,并从所述网页信息中提取得到第二文本;将所述第二文本输入所述训练后的文本识别模型,获得词类型集合;将所述词类型集合与所述正则规则匹配;若所述词类型集合与所述正则规则不匹配,则确定所述目标网页所包含的文本符合所述信息安全标准;若所述词类型集合与所述正则规则匹配,则确定所述目标网页所包含的文本不符合所述信息安全标准。
[0012]在该实施方式中,本申请通过网页信息中的第二文本进行检测,无需依赖目标网页的地址信息或是其他标签信息判断,从而使得本申请中的信息安全检测方法不局限于特定的网站中,应用范围更广。
[0013]在一种可能的实施方式中,若所述目标网页所包含的文本不符合信息安全标准;所述方法还包括:从所述词类型集合中,确定出表示敏感数据的第二词类型;确定所述第二文本中与所述第二词类型对应的目标词;对所述第二文本中所述目标词的内容进行脱敏;根据脱敏后的第二文本,对所述目标网页进行更新,得到更新后的目标网页,其中,所述更新后的目标网页符合所述信息安全标准。
[0014]在该实施方式中,确定目标网页所包含的文本不符合信息安全标准之后,对第二文本中包含敏感数据的目标词的内容进行脱敏,对目标网页进行更新,从而避免敏感数据被泄露,确保了目标网页的信息安全。
[0015]第二方面,本申请实施例提供一种信息安全检测装置,包括:提取模块,用于从文本检测工具的脚本文件中,提取M条文本检测规则,所述M条文本检测规则中的N条文本检测规则用于判断一种类型的第一文本是否符合信息安全标准,M大于N,N为正整数,以及生成符合所述N条文本检测规则的样本文本;训练模块,用于采用所述样本文本训练文本识别模型,获得训练后的文本识别模型以及经所述文本识别模型输出的样本词类型集合;其中,所述文本识别模型用于识别所述样本文本中每个样本词的类型、以及将所述每个样本词的类型组成所述样本词类型集合,以及根据所述样本词类型集合,生成正则规则,所述正则规则用于判断文本是否符合所述信息安全标准;确定模块,用于根据所述训练后的文本识别模型以及所述正则规则,确定目标网页所包含的文本是否符合所述信息安全标准。
[0016]在一种可能的实施方式中,所述提取模块,具体用于:基于所述N条文本检测规则,确定样本词集合;其中,所述样本词集合包括至少一个不符合所述信息安全标准的样本词,以及根据所述样本词集合所表示的语义,生成所述样本文本。
[0017]在一种可能的实施方式中,所述训练模块,具体用于:从所述样本词类型集合中,确定出除指示敏感数据的词类型之外的第一词类型,以及确定所述第一词类型在所述样本词类型集合的第一位置,以及将所述第一词类型在所述第一位置的出现次数添加到所述样
本词类型集合形成所述正则规则;其中,所述出现次数小于或等于预设阈值。
[0018]在一种可能的实施方式中,所述确定模块,具体用于:接收目标网页的网页信息,并从所述网页信息中提取得到第二文本,以及将所述第二文本输入所述训练后的文本识别模型,获得词类型集合,以及将所述词类型集合与所述正则规则匹配,以及若所述词类型集合与所述正则规则不匹配,则确定所述目标网页所包含的文本符合所述信息安全标准;若所述词类型集合与所述正则规则匹配,则确定所述目标网页所包含的文本不符合所述信息安全标准。
[0019]在一种可能的实施方式中,所述确定模块,还用于:从所述词类型集合中,确定出表示敏感数据的第二词类型,以及本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种信息安全检测方法,其特征在于,包括:从文本检测工具的脚本文件中,提取M条文本检测规则,所述M条文本检测规则中的N条文本检测规则用于判断一种类型的第一文本是否符合信息安全标准,M大于N,N为正整数;生成符合所述N条文本检测规则的样本文本;采用所述样本文本训练文本识别模型,获得训练后的文本识别模型以及经所述文本识别模型输出的样本词类型集合;其中,所述文本识别模型用于识别所述样本文本中每个样本词的类型、以及将所述每个样本词的类型组成所述样本词类型集合;根据所述样本词类型集合,生成正则规则,所述正则规则用于判断文本是否符合所述信息安全标准;根据所述训练后的文本识别模型以及所述正则规则,确定目标网页所包含的文本是否符合所述信息安全标准。2.根据权利要求1所述的方法,其特征在于,生成符合所述N条文本检测规则的样本文本,包括:基于所述N条文本检测规则,确定样本词集合;其中,所述样本词集合包括至少一个不符合所述信息安全标准的样本词;根据所述样本词集合所表示的语义,生成所述样本文本。3.根据权利要求2所述的方法,其特征在于,根据所述样本词类型集合,生成正则规则,包括:从所述样本词类型集合中,确定出除指示敏感数据的词类型之外的第一词类型;确定所述第一词类型在所述样本词类型集合的第一位置;将所述第一词类型在所述第一位置的出现次数添加到所述样本词类型集合形成所述正则规则;其中,所述出现次数小于或等于预设阈值。4.根据权利要求1

3任一项所述的方法,其特征在于,根据所述训练后的文本识别模型以及所述正则规则,确定目标网页所包含的文本是否符合信息安全标准,包括:接收目标网页的网页信息,并从所述网页信息中提取得到第二文本;将所述第二文本输入所述训练后的文本识别模型,获得词类型集合;将所述词类型集合与所述正则规则匹配;若所述词类型集合与所述正则规则不匹配,则确定所述目标网页所包含的文本符合所述信息安全标准;若所述词类型集合与所述正则规则匹配,则确定所述目标网页所包含的文本不符合所述信息安全标准。5.根据权利要求4所述的方法,其特征在于,若所述目标网页所包含的文本不符合所述信息安全标准;所述方法还包括:从所述词类型集合中,确定出表示敏感数据的第二词类型;确定所述第二文本中与所述第二词类型对应的目标词;对所述第二文本中所述目标词的内容进行脱敏;根据脱敏后的第二文本,对所述目标网页进行更新,得到更新后的目标网页,其中,所述更新后的目标网页符合所述信息安全标准。6.一种信息安全检测装置,其特征在于,包括:提取模块,用于从文本检测工具的脚本文件中,提取M条文本检测规则,所述M条文本检
测规则中的N条文本检测规则用于判断一种类型的第一文本是否符...

【专利技术属性】
技术研发人员:杨旭程军秦金晓吴淑川
申请(专利权)人:中国电信股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1