信息识别方法和系统技术方案

技术编号:29331397 阅读:28 留言:0更新日期:2021-07-20 17:48
本公开公开了一种信息识别方法和系统,涉及网络技术与安全领域。其中的方法包括:提取待测文本的多个主题词,并将多个主题词作为第一候选敏感词;获取每个主题词对应的多个相近词,并将多个相似词作为第二候选敏感词;基于布隆过滤器,对第一候选敏感词和第二候选敏感词,与敏感语料库中的词语进行匹配;根据匹配结果,识别出待测文本是否为包含敏感信息。本公开通过对待测文件的语义理解,抽取主题词,然后对主题词进行动态扩展,得到多个语义相近词,并应用布隆过滤器进行语义匹配,识别出待测文本是否为包含敏感信息,提升了信息识别速度。

【技术实现步骤摘要】
信息识别方法和系统
本公开涉及网络技术与安全领域,尤其涉及一种信息识别方法和系统。
技术介绍
对于文本类数据中的敏感信息的识别,相关技术中,大多采用对文本进行分词处理,利用关键词检测、正则表达式检测等方法实现。这种方法的一个问题是词匹配量大,且当文本中没包含敏感词库中的词,但实际上包含与敏感词相近语义的词,从语义层面是涉敏时,该方案不能检测出该文本包含敏感信息。
技术实现思路
本公开提供一种信息识别方法和系统,能够提高敏感信息识别的效率。根据本公开一方面,提出一种信息识别方法,包括:提取待测文本的多个主题词,并将多个主题词作为第一候选敏感词;获取每个主题词对应的多个相近词,并将多个相似词作为第二候选敏感词;基于布隆过滤器,对第一候选敏感词和第二候选敏感词,与敏感语料库中的词语进行匹配;根据匹配结果,识别出待测文本是否为包含敏感信息。在一些实施例中,利用多个哈希函数对敏感语料库中的每个词语进行哈希计算,将计算结果映射到布隆过滤器的对应位置;利用相同的多个哈希函数对每个第一候选敏感词和第二候选敏感词进行哈希计算,本文档来自技高网...

【技术保护点】
1.一种信息识别方法,包括:/n提取待测文本的多个主题词,并将多个所述主题词作为第一候选敏感词;/n获取每个所述主题词对应的多个相近词,并将多个所述相似词作为第二候选敏感词;/n基于布隆过滤器,对所述第一候选敏感词和所述第二候选敏感词,与敏感语料库中的词语进行匹配;/n根据匹配结果,识别出所述待测文本是否为包含敏感信息。/n

【技术特征摘要】
1.一种信息识别方法,包括:
提取待测文本的多个主题词,并将多个所述主题词作为第一候选敏感词;
获取每个所述主题词对应的多个相近词,并将多个所述相似词作为第二候选敏感词;
基于布隆过滤器,对所述第一候选敏感词和所述第二候选敏感词,与敏感语料库中的词语进行匹配;
根据匹配结果,识别出所述待测文本是否为包含敏感信息。


2.根据权利要求1所述的信息识别方法,其中,
利用多个哈希函数对所述敏感语料库中的每个词语进行哈希计算,将计算结果映射到所述布隆过滤器的对应位置;
利用相同的所述多个哈希函数对每个所述第一候选敏感词和所述第二候选敏感词进行哈希计算,将计算结果映射到所述布隆过滤器的对应位置;
将所述第一候选敏感词和所述第二候选敏感词在所述布隆过滤器的映射位置的数值,与敏感语料库在所述布隆过滤器的映射位置的数值进行匹配。


3.根据权利要求1所述的信息识别方法,其中,
将与所述敏感语料库的词语匹配的第一候选敏感词进行数量求和,得到第一和值;
将与所述敏感语料库的词语匹配的第二候选敏感词进行数量求和,得到第二和值;
对所述第一和值和所述第二和值进行加权计算,得到所述待测文本的敏感度;
若所述待测文本的敏感度大于敏感度阈值,则识别出所述待测文本包含敏感信息。


4.根据权利要求1至3任一所述的信息识别方法,还包括:
基于所述敏感语料库中的词语对主题模型进行训练,以便将所述待测文本输入到训练好的主题模型,得到多个所述主题词;
利用深度学习算法,基于所述敏感语料库中的词语对词向量模型进行训练,以便将每个所述主题词输入到训练好的词向量模型,得到与每个所述主题词对应的多个相近词。


5.根据权利要求4所述的信息识别方法,其中,得到与每个所述主题词对应的多个相近词包括:
计算每个主题词与对应的词向量模型的输出结果中的每个词语间的...

【专利技术属性】
技术研发人员:赵钧姚晓辉
申请(专利权)人:中国电信股份有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1