The embodiment of the invention discloses a method, a recognition of sensitive information: receiving target information extraction contains information of the target text in the text information; hash values in the hash hash the text information value and preset value of feature sensitive information is not at the same time, the text get the word segmentation information collection; the hash computation in the set value of the word segmentation, word segmentation according to the similarity of the hash value generated in the set of the target information with the preset feature sensitive information; according to the similarity degree and / or the text information analysis to determine the target information for sensitive information. The invention also discloses a device for identifying sensitive information accordingly. The method and device for identifying sensitive information has higher recognition accuracy in judging whether the content issued by the user is sensitive information.
【技术实现步骤摘要】
识别敏感信息的方法及装置
本专利技术涉及计算机
,尤其涉及一种识别敏感信息的方法及装置。
技术介绍
在现有的web2.0的互联网社交应用中,应用的内容不再由服务器发布和推送,而是更多的由用户自行发布和交互。例如,用户可通过手机拍照分享到网络上发送给其他用户,可以编辑论坛主题、博客、论坛发帖、微博等文本内容分享给其他用户。然而,用户分享的内容可能存在违法或者不符合道德规范的风险,例如,粗口、暴力、淫秽、诈骗等内容,因此,需要对用户发布的内容进行敏感信息的识别和拦截。现有的在线拦截敏感信息的方法中,通常采用较单一的文本相似算法策略如全文md5相似来发现拦截敏感信息,虽然这种方法准确率非常高,但是敏感信息的召回率严重依赖于已有的敏感信息特征库的规模,并且敏感信息极容易出现变种,这种相似算法很难有效的发现相似的文本消息,对敏感信息的发现召回率低,且仅通过人工添加敏感信息特征的方法具有一定的时间滞后性,很难解决消息变种问题。因此,传统技术中的在线拦截敏感信息的方法由于人工添加敏感信息特征具有一定的时间滞后性的原因,使得识别敏感信息的准确度不高,对于变种和近似的敏感信息无法准确地识别。
技术实现思路
基于此,为传统技术中的在线拦截敏感信息的方法由于人工添加敏感信息特征具有一定的时间滞后性的原因,使得识别敏感信息的准确度不高的技术问题,特提供了一种识别敏感信息的方法。一种识别敏感信息的方法,包括:接收目标信息,提取所述目标信息中包含的文本信息;计算所述文本信息的哈希值,在所述文本信息的哈希值与预设的特征敏感信息的哈希值不同时,对所述文本信息进行分词得到分词集合;计算所 ...
【技术保护点】
一种识别敏感信息的方法,其特征在于,包括:接收目标信息,提取所述目标信息中包含的文本信息;计算所述文本信息的哈希值,在所述文本信息的哈希值与预设的特征敏感信息的哈希值不同时,对所述文本信息进行分词得到分词集合;计算所述分词集合中的分词的哈希值,根据所述分词集合中的分词的哈希值生成所述目标信息与预设的特征敏感信息的相似度;根据所述相似度和/或对所述文本信息进行语义分析判定所述目标信息为敏感信息。
【技术特征摘要】
1.一种识别敏感信息的方法,其特征在于,包括:接收目标信息,提取所述目标信息中包含的文本信息;计算所述文本信息的哈希值,在所述文本信息的哈希值与预设的特征敏感信息的哈希值不同时,对所述文本信息进行分词得到分词集合;计算所述分词集合中的分词的哈希值,根据所述分词集合中的分词的哈希值生成所述目标信息与预设的特征敏感信息的相似度;根据所述相似度和/或对所述文本信息进行语义分析判定所述目标信息为敏感信息。2.根据权利要求1所述的一种识别敏感信息的方法,其特征在于,所述根据所述分词集合中的分词的哈希值生成所述目标信息与预设的特征敏感信息的相似度的步骤包括:计算所述分词集合中,与预设的特征敏感信息的分词的哈希值匹配的分词在所述分词集合中所占的比例;根据所述比例生成所述目标信息与预设的特征敏感信息的相似度。3.根据权利要求1所述的一种识别敏感信息的方法,其特征在于,所述根据所述分词集合中的分词的哈希值生成所述目标信息与预设的特征敏感信息的相似度的步骤包括:结合simhash算法,根据所述分词集合中的分词的哈希值生成所述目标信息的第一simhash值;计算所述第一simhash值与所述预设的特征敏感信息的第二simhash值的差值;根据所述差值生成所述目标信息与预设的特征敏感信息的相似度。4.根据权利要求1所述的一种识别敏感信息的方法,其特征在于,所述提取所述目标信息中包含的文本信息的步骤之后还包括:在所述目标信息中不包含文本信息时,获取发布所述目标信息的用户标识;获取所述用户标识的行为特征数据,根据所述行为特征数据判定所述目标信息是否为敏感信息。5.根据权利要求1所述的一种识别敏感信息的方法,其特征在于,所述计算所述文本信息的哈希值的步骤之后还包括:在所述文本信息的哈希值与预设的特征敏感信息的哈希值相同时,判定所述目标信息为敏感信息。6.根据权利要求1所述的一种识别敏感信息的方法,其特征在于,所述根据所述相似度和/或对所述文本信息进行语义分析判定所述目标信息为敏感信息的步骤还包括:根据预设的机器学习概率模型提取所述文本信息的文本特征;将所述文本特征作为输入,根据所述预设的机器学习概率模型通过计算所述目标信息的敏感置信度对所述文本信息进行语义分析;根据所述相似度和/或敏感置信度判定所述目标信息是否为敏感信息。7.根据权利要求6所述的一种识别敏感信息的方法,其特征在于,所述根据所述相似度和/或敏感置信度判定所述目标信息是否为敏感信息的步骤之后还包括:若所述目标信息被判定为敏感信息,则将所述目标信息作为特征敏感信息存储。8.根据权利要求1所述的一种识别敏感信息的方法,其特征在于,所述提取所述目标信息中包含的文本信息的步骤之后还包括:过滤...
【专利技术属性】
技术研发人员:付星辉,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。