敏感信息识别方法、系统、设备及存储介质技术方案

技术编号:20917064 阅读:54 留言:0更新日期:2019-04-20 09:48
本发明专利技术提供了一种敏感信息识别方法、系统、设备及存储介质,该方法包括:将待识别的文本句子进行切词,得到各个组成词;在训练好的词向量库中查找各个组成词的词向量;将各个组成词的词向量计算平均值,得到平均向量值;将平均向量值输入训练好的敏感信息识别模型,得到敏感信息概率值;根据敏感信息概率值判断文本句子是否包括敏感信息。通过采用本发明专利技术的方案,基于向量化文本进行敏感程度分类,可以快速高效地识别文本句子是否包括敏感信息,提高文本识别的准确率;本发明专利技术可以应用于各种类型的论坛中评论的识别,在文本句子中包含敏感信息时可以将对应的评论删除,本发明专利技术也可以应用于其他场景的敏感信息的识别。

Sensitive Information Recognition Method, System, Equipment and Storage Media

The invention provides a sensitive information recognition method, system, equipment and storage medium. The method includes: cutting the text sentences to be recognized to get the constituent words; searching the word vectors of each constituent word in the trained word vector library; calculating the average value of the word vectors of each constituent word to get the average vector value; and inputting the average vector value into the trained sensitive words. The information recognition model obtains the probability value of sensitive information, and judges whether a text sentence contains sensitive information according to the probability value of sensitive information. By adopting the scheme of the invention, the sensitivity classification based on vectorized text can quickly and efficiently identify whether a text sentence contains sensitive information and improve the accuracy of text recognition; the invention can be applied to the recognition of comments in various types of forums, and the corresponding comments can be deleted when sensitive information is included in a text sentence, and the invention can also be applied to it. Recognition of sensitive information in his scene.

【技术实现步骤摘要】
敏感信息识别方法、系统、设备及存储介质
本专利技术涉及文本识别
,尤其涉及一种敏感信息识别方法、系统、设备及存储介质。
技术介绍
在网络论坛的管理中,需要对一些敏感信息进行识别和删除,保证论坛氛围积极。敏感信息例如可能是负面、反动、黄色、暴力等不合法不合规的信息。发帖数据的主要属性有文本、表情、数字、字符等等,数据格式非常杂乱,语义丰富,如果直接将发帖数据输入到现有的敏感信息识别模型中会比较难以使用,且效果较差。现有的敏感信息识别方案主要有两种,第一种为暴力的敏感词匹配,这种方法造成误伤比较大,很可能将不是敏感信息的文本也识别为敏感信息。另一种是常规分词分类,将一句话分为多个词,然后通过词频进行贝叶斯分类。这种方案对短句识别效果较为落后,对于一些只有三四个字词的短句,由于分词前后长度较短,贝叶斯分类器不能有很好的分类结果,而且没有很好地利用词的相关性,无法获得准确的敏感信息识别结果。
技术实现思路
针对现有技术中的问题,本专利技术的目的在于提供一种敏感信息识别方法、系统、设备及存储介质,基于向量化文本进行敏感程度分类,可以快速高效地识别文本句子是否包括敏感信息。本专利技术实施例提供本文档来自技高网...

【技术保护点】
1.一种敏感信息识别方法,其特征在于,包括如下步骤:将待识别的文本句子进行切词,得到各个组成词;在训练好的词向量库中查找各个所述组成词的词向量;将各个所述组成词的词向量计算平均值,得到平均向量值;将所述平均向量值输入训练好的敏感信息识别模型,得到敏感信息概率值,并根据所述敏感信息概率值判断所述文本句子是否包括敏感信息。

【技术特征摘要】
1.一种敏感信息识别方法,其特征在于,包括如下步骤:将待识别的文本句子进行切词,得到各个组成词;在训练好的词向量库中查找各个所述组成词的词向量;将各个所述组成词的词向量计算平均值,得到平均向量值;将所述平均向量值输入训练好的敏感信息识别模型,得到敏感信息概率值,并根据所述敏感信息概率值判断所述文本句子是否包括敏感信息。2.根据权利要求1所述的敏感信息识别方法,其特征在于,所述将待识别的文本句子进行切词,包括如下步骤:采用Jieba分词方法对所述待识别的文本句子进行切词。3.根据权利要求1所述的敏感信息识别方法,其特征在于,所述训练好的词向量库包括多个基于GloVe训练的词向量。4.根据权利要求1所述的敏感信息识别方法,其特征在于,所述训练好的词向量库包括多个预设敏感词的词向量,所述在训练好的词向量库中查找各个所述组成词的词向量时,对于在所述训练好的词向量库中未查找到的组成词,采用默认词向量。5.根据权利要求1所述的敏感信息识别方法,其特征在于,所述将各个所述组成词的词向量计算平均值,包括将各个所述组成词的词向量进行列平均。6.根据权利要求1所述的敏感信息识别方法,其特征在于,还包括采集多个已知是否包括敏感信息的文本句子作为训练集,采用所述训练集训练敏感信息识别模型的步骤。7.根据权利要求6所述的敏感信息识别方法,其特征在于,所述采用所述训练集训练敏感信息识别模型,包括如下步骤:分别对各个已知是否包括敏感信息的文本句子进行切词,得到各个文本句...

【专利技术属性】
技术研发人员:王东沙韬伟罗竞佳邓金秋
申请(专利权)人:江苏满运软件科技有限公司
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1