基于人工智能的敏感信息检测方法、装置及相关设备制造方法及图纸

技术编号:37806586 阅读:8 留言:0更新日期:2023-06-09 09:36
本申请涉及人工智能技术领域,提供一种基于人工智能的敏感信息检测方法、装置及相关设备,所述方法包括:获取第一文件;对第一文件进行解析,得到第二文件;对第二文件进行敏感信息检测,得到第一敏感信息集;将第一文件及第一敏感信息集输入预先训练好的语义分类模型中,输出每个第一敏感信息的类别;根据第一敏感信息集的每个第一敏感信息的类别,确定第二敏感信息集;根据第二敏感信息集及第一文件的文件类型,确定第一文件的检测结果。本申请根据第一敏感信息集的每个第一敏感信息的类别,确定第二敏感信息集,将不隶属于敏感信息范围内的敏感信息进行剔除,提高了敏感信息检测的准确率。准确率。准确率。

【技术实现步骤摘要】
基于人工智能的敏感信息检测方法、装置及相关设备


[0001]本申请涉及人工智能
,具体涉及一种基于人工智能的敏感信息检测方法、装置及相关设备。

技术介绍

[0002]敏感文件检测是安全领域的重要内容,现有技术一般采用敏感信息识别系统检测敏感信息。
[0003]然而,目前敏感信息识别系统大部分已经产品化,无法识别出个性化敏感信息,导致敏感信息检测准确率低。

技术实现思路

[0004]鉴于以上内容,有必要提出一种基于人工智能的敏感信息检测方法、装置及相关设备,根据第一敏感信息集的每个第一敏感信息的类别,确定第二敏感信息集,将不隶属于敏感信息范围内的敏感信息进行剔除,提高了敏感信息检测的准确率。
[0005]本申请的第一方面提供一种基于人工智能的敏感信息检测方法,所述方法包括:
[0006]响应于接收到的文件检测请求,获取第一文件;
[0007]对所述第一文件进行解析,得到第二文件;
[0008]对所述第二文件进行敏感信息检测,得到第一敏感信息集;
[0009]将所述第一文件及所述第一敏感信息集输入预先训练好的语义分类模型中,输出每个所述第一敏感信息的类别;
[0010]根据所述第一敏感信息集的每个所述第一敏感信息的类别,确定第二敏感信息集;
[0011]根据所述第二敏感信息集及所述第一文件的文件类型,确定所述第一文件的检测结果。
[0012]可选地,所述对所述第二文件进行敏感信息检测,得到第一敏感信息集包括:
[0013]采用正则匹配表达式对所述第二文件进行敏感信息检测,得到第一信息,同时将所述第二文件与预先创建的敏感词数据库进行数据匹配,得到第二信息;
[0014]对所述第一信息和所述第二信息进行去重处理,得到第一敏感信息集。
[0015]可选地,在所述将所述第二文件与预先创建的敏感词数据库进行数据匹配,得到第二信息之前,所述方法还包括:
[0016]获取预设的多个主题;
[0017]从预设的多个数据源获取每个所述主题的第一词库;
[0018]采用预设的开源词库对每个所述主题的第一词库中的敏感词进行第一次扩充处理,得到每个所述主题的第二词库;
[0019]将所述多个主题的多个第二词库中的相同的敏感词进行剔除,得到第三词库;
[0020]对所述第三词库中的敏感词进行第二次扩充处理,得到第四词库;
[0021]将所述第四词库中的敏感词读入预设的数据库中,得到敏感词数据库。
[0022]可选地,所述采用预设的开源词库对每个所述主题的第一词库中的敏感词进行第一次扩充处理,得到每个所述主题的第二词库包括:
[0023]从预设的开源数据库中获取每个所述主题的敏感词;
[0024]将每个所述主题的敏感词添加至每个所述主题的第一词库中,得到每个所述主题的第二词库。
[0025]可选地,所述对所述第三词库中的敏感词进行第二次扩充处理,得到第四词库包括:
[0026]使用预设模块读取所述第三词库中的每个所述敏感词的词向量,查询预设词向量集中的所有词;
[0027]获取查询到的每个所述敏感词对应的相似词;
[0028]将每个所述敏感词对应的相似词添加至所述第三词库中,得到第四词库。
[0029]可选地,所述根据所述第一敏感信息集的每个所述第一敏感信息的类别,确定第二敏感信息集包括:
[0030]获取每个所述第一敏感信息的类别对应的敏感分计算规则,并根据所述敏感分计算规则计算对应第一敏感信息的敏感分值;
[0031]对所述敏感分值进行降序排序;
[0032]从所述排序结果中选取排序在前的多个敏感分值对应的多个第一敏感信息确定为第二敏感信息集。
[0033]可选地,所述根据所述第二敏感信息集及所述第一文件的文件类型,确定所述第一文件的检测结果包括:
[0034]当所述第一文件的文件类型为预设类型时,获取所述第二文件中数值型数据对应的处理规则,基于所述处理规则对所述第二文件进行处理,得到目标文件,并对所述目标文件中的数值型数据进行敏感信息检测,得到第三敏感信息集,将所述第二敏感信息集和所述第三敏感信息集确定为所述第一文件的检测结果;
[0035]当所述第一文件的文件类型不为预设类型时,将所述第二敏感信息集确定为所述第一文件的检测结果。
[0036]本申请的第二方面提供一种基于人工智能的敏感信息检测装置,所述装置包括:
[0037]获取模块,用于响应于接收到的文件检测请求,获取第一文件;
[0038]解析模块,用于对所述第一文件进行解析,得到第二文件;
[0039]检测模块,用于对所述第二文件进行敏感信息检测,得到第一敏感信息集;
[0040]输出模块,用于将所述第一文件及所述第一敏感信息集输入预先训练好的语义分类模型中,输出每个所述第一敏感信息的类别;
[0041]第一确定模块,用于根据所述第一敏感信息集的每个所述第一敏感信息的类别,确定第二敏感信息集;
[0042]第二确定模块,用于根据所述第二敏感信息集及所述第一文件的文件类型,确定所述第一文件的检测结果。
[0043]本申请的第三方面提供一种电子设备,所述电子设备包括处理器和存储器,所述处理器用于执行所述存储器中存储的计算机程序时实现所述的基于人工智能的敏感信息
检测方法。
[0044]本申请的第四方面提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现所述的基于人工智能的敏感信息检测方法。
[0045]综上所述,本申请所述的基于人工智能的敏感信息检测方法、装置及相关设备,能够推动智慧城市的建设,应用于智慧建筑、智慧安防、智慧社区、智慧生活、物联网等领域,通过对所述第一文件进行解析,得到第二文件,将第一文件解析为统一格式,在敏感信息检测过程中减少了格式不统一所带来的格式干扰。对所述第二文件进行敏感信息检测,得到第一敏感信息集,在得到第一敏感信息集时考虑了创建的敏感词数据库,确保了获取的第一敏感信息集的完整性,减少了敏感信息的漏报和误报,提高了后续敏感信息检测的准确率。通过根据所述第一敏感信息集的每个所述第一敏感信息的类别,确定第二敏感信息集,在确定第二敏感信息集过程中,根据每个所述第一敏感信息的类别对应的敏感分计算规则计算每个敏感信息的敏感分值,更加具有针对性,确保了计算的敏感分值的准确率,同时保留满足条件的多个第一敏感信息确定为第二敏感信息集,剔除掉不满足条件的多个第一敏感信息,即将不隶属于敏感信息范围内的敏感信息进行剔除,提高了敏感信息检测的准确率。
附图说明
[0046]图1是本申请实施例一提供的基于人工智能的敏感信息检测方法的流程图。
[0047]图2是本申请实施例二提供的基于人工智能的敏感信息检测装置的结构图。
[0048]图3是本申请实施例三提供的电子设备的结构示意图。<本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于人工智能的敏感信息检测方法,其特征在于,所述方法包括:响应于接收到的文件检测请求,获取第一文件;对所述第一文件进行解析,得到第二文件;对所述第二文件进行敏感信息检测,得到第一敏感信息集;将所述第一文件及所述第一敏感信息集输入预先训练好的语义分类模型中,输出每个所述第一敏感信息的类别;根据所述第一敏感信息集的每个所述第一敏感信息的类别,确定第二敏感信息集;根据所述第二敏感信息集及所述第一文件的文件类型,确定所述第一文件的检测结果。2.如权利要求1所述的基于人工智能的敏感信息检测方法,其特征在于,所述对所述第二文件进行敏感信息检测,得到第一敏感信息集包括:采用正则匹配表达式对所述第二文件进行敏感信息检测,得到第一信息,同时将所述第二文件与预先创建的敏感词数据库进行数据匹配,得到第二信息;对所述第一信息和所述第二信息进行去重处理,得到第一敏感信息集。3.如权利要求2所述的基于人工智能的敏感信息检测方法,其特征在于,在所述将所述第二文件与预先创建的敏感词数据库进行数据匹配,得到第二信息之前,所述方法还包括:获取预设的多个主题;从预设的多个数据源获取每个所述主题的第一词库;采用预设的开源词库对每个所述主题的第一词库中的敏感词进行第一次扩充处理,得到每个所述主题的第二词库;将所述多个主题的多个第二词库中的相同的敏感词进行剔除,得到第三词库;对所述第三词库中的敏感词进行第二次扩充处理,得到第四词库;将所述第四词库中的敏感词读入预设的数据库中,得到敏感词数据库。4.如权利要求3所述的基于人工智能的敏感信息检测方法,其特征在于,所述采用预设的开源词库对每个所述主题的第一词库中的敏感词进行第一次扩充处理,得到每个所述主题的第二词库包括:从预设的开源数据库中获取每个所述主题的敏感词;将每个所述主题的敏感词添加至每个所述主题的第一词库中,得到每个所述主题的第二词库。5.如权利要求3所述的基于人工智能的敏感信息检测方法,其特征在于,所述对所述第三词库中的敏感词进行第二次扩充处理,得到第四词库包括:使用预设模块读取所述第三词库中的每个所述敏感词的词向量,查询预设词向量集中的所有词;获取查询到的每个所述敏感词对应的相似词;将每个所述敏感词...

【专利技术属性】
技术研发人员:高星韩伟邓坤王建明
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1