基于人工智能的敏感信息检测方法、装置及相关设备制造方法及图纸

技术编号:37806586 阅读:20 留言:0更新日期:2023-06-09 09:36
本申请涉及人工智能技术领域,提供一种基于人工智能的敏感信息检测方法、装置及相关设备,所述方法包括:获取第一文件;对第一文件进行解析,得到第二文件;对第二文件进行敏感信息检测,得到第一敏感信息集;将第一文件及第一敏感信息集输入预先训练好的语义分类模型中,输出每个第一敏感信息的类别;根据第一敏感信息集的每个第一敏感信息的类别,确定第二敏感信息集;根据第二敏感信息集及第一文件的文件类型,确定第一文件的检测结果。本申请根据第一敏感信息集的每个第一敏感信息的类别,确定第二敏感信息集,将不隶属于敏感信息范围内的敏感信息进行剔除,提高了敏感信息检测的准确率。准确率。准确率。

【技术实现步骤摘要】
基于人工智能的敏感信息检测方法、装置及相关设备


[0001]本申请涉及人工智能
,具体涉及一种基于人工智能的敏感信息检测方法、装置及相关设备。

技术介绍

[0002]敏感文件检测是安全领域的重要内容,现有技术一般采用敏感信息识别系统检测敏感信息。
[0003]然而,目前敏感信息识别系统大部分已经产品化,无法识别出个性化敏感信息,导致敏感信息检测准确率低。

技术实现思路

[0004]鉴于以上内容,有必要提出一种基于人工智能的敏感信息检测方法、装置及相关设备,根据第一敏感信息集的每个第一敏感信息的类别,确定第二敏感信息集,将不隶属于敏感信息范围内的敏感信息进行剔除,提高了敏感信息检测的准确率。
[0005]本申请的第一方面提供一种基于人工智能的敏感信息检测方法,所述方法包括:
[0006]响应于接收到的文件检测请求,获取第一文件;
[0007]对所述第一文件进行解析,得到第二文件;
[0008]对所述第二文件进行敏感信息检测,得到第一敏感信息集;
[0009]将所述第一文件及所述本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于人工智能的敏感信息检测方法,其特征在于,所述方法包括:响应于接收到的文件检测请求,获取第一文件;对所述第一文件进行解析,得到第二文件;对所述第二文件进行敏感信息检测,得到第一敏感信息集;将所述第一文件及所述第一敏感信息集输入预先训练好的语义分类模型中,输出每个所述第一敏感信息的类别;根据所述第一敏感信息集的每个所述第一敏感信息的类别,确定第二敏感信息集;根据所述第二敏感信息集及所述第一文件的文件类型,确定所述第一文件的检测结果。2.如权利要求1所述的基于人工智能的敏感信息检测方法,其特征在于,所述对所述第二文件进行敏感信息检测,得到第一敏感信息集包括:采用正则匹配表达式对所述第二文件进行敏感信息检测,得到第一信息,同时将所述第二文件与预先创建的敏感词数据库进行数据匹配,得到第二信息;对所述第一信息和所述第二信息进行去重处理,得到第一敏感信息集。3.如权利要求2所述的基于人工智能的敏感信息检测方法,其特征在于,在所述将所述第二文件与预先创建的敏感词数据库进行数据匹配,得到第二信息之前,所述方法还包括:获取预设的多个主题;从预设的多个数据源获取每个所述主题的第一词库;采用预设的开源词库对每个所述主题的第一词库中的敏感词进行第一次扩充处理,得到每个所述主题的第二词库;将所述多个主题的多个第二词库中的相同的敏感词进行剔除,得到第三词库;对所述第三词库中的敏感词进行第二次扩充处理,得到第四词库;将所述第四词库中的敏感词读入预设的数据库中,得到敏感词数据库。4.如权利要求3所述的基于人工智能的敏感信息检测方法,其特征在于,所述采用预设的开源词库对每个所述主题的第一词库中的敏感词进行第一次扩充处理,得到每个所述主题的第二词库包括:从预设的开源数据库中获取每个所述主题的敏感词;将每个所述主题的敏感词添加至每个所述主题的第一词库中,得到每个所述主题的第二词库。5.如权利要求3所述的基于人工智能的敏感信息检测方法,其特征在于,所述对所述第三词库中的敏感词进行第二次扩充处理,得到第四词库包括:使用预设模块读取所述第三词库中的每个所述敏感词的词向量,查询预设词向量集中的所有词;获取查询到的每个所述敏感词对应的相似词;将每个所述敏感词...

【专利技术属性】
技术研发人员:高星韩伟邓坤王建明
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1