识别敏感信息的方法及装置制造方法及图纸

技术编号:15690846 阅读:83 留言:0更新日期:2017-06-24 03:34
本发明专利技术实施例公开了一种识别敏感信息的方法,包括:接收目标信息,提取所述目标信息中包含的文本信息;计算所述文本信息的哈希值,在所述文本信息的哈希值与预设的特征敏感信息的哈希值不同时,对所述文本信息进行分词得到分词集合;计算所述分词集合中的分词的哈希值,根据所述分词集合中的分词的哈希值生成所述目标信息与预设的特征敏感信息的相似度;根据所述相似度和/或对所述文本信息进行语义分析判定所述目标信息为敏感信息。本发明专利技术还相应地公开了一种识别敏感信息的装置。上述识别敏感信息的方法和装置在对用户发布的内容是否为敏感信息的判定上具有较高的识别准确率。

Method and device for identifying sensitive information

The embodiment of the invention discloses a method, a recognition of sensitive information: receiving target information extraction contains information of the target text in the text information; hash values in the hash hash the text information value and preset value of feature sensitive information is not at the same time, the text get the word segmentation information collection; the hash computation in the set value of the word segmentation, word segmentation according to the similarity of the hash value generated in the set of the target information with the preset feature sensitive information; according to the similarity degree and / or the text information analysis to determine the target information for sensitive information. The invention also discloses a device for identifying sensitive information accordingly. The method and device for identifying sensitive information has higher recognition accuracy in judging whether the content issued by the user is sensitive information.

【技术实现步骤摘要】
识别敏感信息的方法及装置
本专利技术涉及计算机
,尤其涉及一种识别敏感信息的方法及装置。
技术介绍
在现有的web2.0的互联网社交应用中,应用的内容不再由服务器发布和推送,而是更多的由用户自行发布和交互。例如,用户可通过手机拍照分享到网络上发送给其他用户,可以编辑论坛主题、博客、论坛发帖、微博等文本内容分享给其他用户。然而,用户分享的内容可能存在违法或者不符合道德规范的风险,例如,粗口、暴力、淫秽、诈骗等内容,因此,需要对用户发布的内容进行敏感信息的识别和拦截。现有的在线拦截敏感信息的方法中,通常采用较单一的文本相似算法策略如全文md5相似来发现拦截敏感信息,虽然这种方法准确率非常高,但是敏感信息的召回率严重依赖于已有的敏感信息特征库的规模,并且敏感信息极容易出现变种,这种相似算法很难有效的发现相似的文本消息,对敏感信息的发现召回率低,且仅通过人工添加敏感信息特征的方法具有一定的时间滞后性,很难解决消息变种问题。因此,传统技术中的在线拦截敏感信息的方法由于人工添加敏感信息特征具有一定的时间滞后性的原因,使得识别敏感信息的准确度不高,对于变种和近似的敏感信息无法准确地识别。
技术实现思路
基于此,为传统技术中的在线拦截敏感信息的方法由于人工添加敏感信息特征具有一定的时间滞后性的原因,使得识别敏感信息的准确度不高的技术问题,特提供了一种识别敏感信息的方法。一种识别敏感信息的方法,包括:接收目标信息,提取所述目标信息中包含的文本信息;计算所述文本信息的哈希值,在所述文本信息的哈希值与预设的特征敏感信息的哈希值不同时,对所述文本信息进行分词得到分词集合;计算所述分词集合中的分词的哈希值,根据所述分词集合中的分词的哈希值生成所述目标信息与预设的特征敏感信息的相似度;根据所述相似度和/或对所述文本信息进行语义分析判定所述目标信息为敏感信息。在其中一个实施例中,所述根据所述分词集合中的分词的哈希值生成所述目标信息与预设的特征敏感信息的相似度的步骤包括:计算所述分词集合中,与预设的特征敏感信息的分词的哈希值匹配的分词在所述分词集合中所占的比例;根据所述比例生成所述目标信息与预设的特征敏感信息的相似度。在其中一个实施例中,所述根据所述分词集合中的分词的哈希值生成所述目标信息与预设的特征敏感信息的相似度的步骤包括:结合simhash算法,根据所述分词集合中的分词的哈希值生成所述目标信息的第一simhash值;计算所述第一simhash值与所述预设的特征敏感信息的第二simhash值的差值;根据所述差值生成所述目标信息与预设的特征敏感信息的相似度。在其中一个实施例中,所述提取所述目标信息中包含的文本信息的步骤之后还包括:在所述目标信息中不包含文本信息时,获取发布所述目标信息的用户标识;获取所述用户标识的行为特征数据,根据所述行为特征数据判定所述目标信息是否为敏感信息。在其中一个实施例中,所述计算所述文本信息的哈希值的步骤之后还包括:在所述文本信息的哈希值与预设的特征敏感信息的哈希值相同时,判定所述目标信息为敏感信息。在其中一个实施例中,所述根据所述相似度和/或对所述文本信息进行语义分析判定所述目标信息为敏感信息的步骤还包括:根据预设的机器学习概率模型提取所述文本信息的文本特征;将所述文本特征作为输入,根据所述预设的机器学习概率模型通过计算所述目标信息的敏感置信度对所述文本信息进行语义分析;根据所述相似度和/或敏感置信度判定所述目标信息是否为敏感信息。在其中一个实施例中,所述根据所述相似度和/或敏感置信度判定所述目标信息是否为敏感信息的步骤之后还包括:若所述目标信息被判定为敏感信息,则将所述目标信息作为特征敏感信息存储。在其中一个实施例中,所述提取所述目标信息中包含的文本信息的步骤之后还包括:过滤掉所述文本信息中的符号信息和冗余语义信息。此外,为传统技术中的在线拦截敏感信息的方法由于人工添加敏感信息特征具有一定的时间滞后性的原因,使得识别敏感信息的准确度不高的技术问题,特提供了一种识别敏感信息的装置。一种识别敏感信息的装置,包括:文本信息提取模块,用于接收目标信息,提取所述目标信息中包含的文本信息;全文哈希识别模块,用于计算所述文本信息的哈希值;分词模块,用于在所述文本信息的哈希值与预设的特征敏感信息的哈希值不同时,对所述文本信息进行分词得到分词集合;相似度计算模块,用于计算所述分词集合中的分词的哈希值,根据所述分词集合中的分词的哈希值生成所述目标信息与预设的特征敏感信息的相似度;敏感信息判定模块,用于根据所述相似度和/或对所述文本信息进行语义分析判定所述目标信息为敏感信息。在其中一个实施例中,所述相似度计算模块还用于计算所述分词集合中,与预设的特征敏感信息的分词的哈希值匹配的分词在所述分词集合中所占的比例;根据所述比例生成所述目标信息与预设的特征敏感信息的相似度。在其中一个实施例中,所述相似度计算模块还用于结合simhash算法,根据所述分词集合中的分词的哈希值生成所述目标信息的第一simhash值;计算所述第一simhash值与所述预设的特征敏感信息的第二simhash值的差值;根据所述差值生成所述目标信息与预设的特征敏感信息的相似度。在其中一个实施例中,所述装置还包括行为识别模块,用于在所述目标信息中不包含文本信息时,获取发布所述目标信息的用户标识;获取所述用户标识的行为特征数据,根据所述行为特征数据判定所述目标信息是否为敏感信息。在其中一个实施例中,所述全文哈希识别模块还用于在所述文本信息的哈希值与预设的特征敏感信息的哈希值相同时,判定所述目标信息为敏感信息。在其中一个实施例中,所述装置还包括语义识别模块,用于根据预设的机器学习概率模型提取所述文本信息的文本特征;将所述文本特征作为输入,根据所述预设的机器学习概率模型通过计算所述目标信息的敏感置信度对所述文本信息进行语义分析;所述敏感信息判定模块还用于根据所述相似度和/或敏感置信度判定所述目标信息是否为敏感信息。在其中一个实施例中,所述语义识别模块还用于在所述目标信息被判定为敏感信息时,则将所述目标信息作为特征敏感信息存储。在其中一个实施例中,所述文本信息提取模块还用于过滤掉所述文本信息中的符号信息和冗余语义信息。实施本专利技术实施例,将具有如下有益效果:采用了上述识别敏感信息的方法和装置之后,先计算输入的目标信息中的文本信息的哈希值,进行全文哈希比对,使得在目标信息与特征库中的特征敏感信息不完全一致时,可通过对目标信息分词并计算分词的哈希值得到目标信息与特征库中的特征敏感信息的相似度,然后结合对目标信息进行语义分析的分析结果来判定目标信息是否为敏感信息,从而在进行敏感信息的判定时,采用了多种手段,同时结合了全文哈希比对,相似度比对和语义比对的方式,和传统技术相比,即使在目标信息与特征敏感信息不完全相同的情况下,也能够识别出近似的或者变种的敏感信息而不会漏判,从而提高了识别的准确度。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。本文档来自技高网...
识别敏感信息的方法及装置

【技术保护点】
一种识别敏感信息的方法,其特征在于,包括:接收目标信息,提取所述目标信息中包含的文本信息;计算所述文本信息的哈希值,在所述文本信息的哈希值与预设的特征敏感信息的哈希值不同时,对所述文本信息进行分词得到分词集合;计算所述分词集合中的分词的哈希值,根据所述分词集合中的分词的哈希值生成所述目标信息与预设的特征敏感信息的相似度;根据所述相似度和/或对所述文本信息进行语义分析判定所述目标信息为敏感信息。

【技术特征摘要】
1.一种识别敏感信息的方法,其特征在于,包括:接收目标信息,提取所述目标信息中包含的文本信息;计算所述文本信息的哈希值,在所述文本信息的哈希值与预设的特征敏感信息的哈希值不同时,对所述文本信息进行分词得到分词集合;计算所述分词集合中的分词的哈希值,根据所述分词集合中的分词的哈希值生成所述目标信息与预设的特征敏感信息的相似度;根据所述相似度和/或对所述文本信息进行语义分析判定所述目标信息为敏感信息。2.根据权利要求1所述的一种识别敏感信息的方法,其特征在于,所述根据所述分词集合中的分词的哈希值生成所述目标信息与预设的特征敏感信息的相似度的步骤包括:计算所述分词集合中,与预设的特征敏感信息的分词的哈希值匹配的分词在所述分词集合中所占的比例;根据所述比例生成所述目标信息与预设的特征敏感信息的相似度。3.根据权利要求1所述的一种识别敏感信息的方法,其特征在于,所述根据所述分词集合中的分词的哈希值生成所述目标信息与预设的特征敏感信息的相似度的步骤包括:结合simhash算法,根据所述分词集合中的分词的哈希值生成所述目标信息的第一simhash值;计算所述第一simhash值与所述预设的特征敏感信息的第二simhash值的差值;根据所述差值生成所述目标信息与预设的特征敏感信息的相似度。4.根据权利要求1所述的一种识别敏感信息的方法,其特征在于,所述提取所述目标信息中包含的文本信息的步骤之后还包括:在所述目标信息中不包含文本信息时,获取发布所述目标信息的用户标识;获取所述用户标识的行为特征数据,根据所述行为特征数据判定所述目标信息是否为敏感信息。5.根据权利要求1所述的一种识别敏感信息的方法,其特征在于,所述计算所述文本信息的哈希值的步骤之后还包括:在所述文本信息的哈希值与预设的特征敏感信息的哈希值相同时,判定所述目标信息为敏感信息。6.根据权利要求1所述的一种识别敏感信息的方法,其特征在于,所述根据所述相似度和/或对所述文本信息进行语义分析判定所述目标信息为敏感信息的步骤还包括:根据预设的机器学习概率模型提取所述文本信息的文本特征;将所述文本特征作为输入,根据所述预设的机器学习概率模型通过计算所述目标信息的敏感置信度对所述文本信息进行语义分析;根据所述相似度和/或敏感置信度判定所述目标信息是否为敏感信息。7.根据权利要求6所述的一种识别敏感信息的方法,其特征在于,所述根据所述相似度和/或敏感置信度判定所述目标信息是否为敏感信息的步骤之后还包括:若所述目标信息被判定为敏感信息,则将所述目标信息作为特征敏感信息存储。8.根据权利要求1所述的一种识别敏感信息的方法,其特征在于,所述提取所述目标信息中包含的文本信息的步骤之后还包括:过滤...

【专利技术属性】
技术研发人员:付星辉
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1