一种判别文本安全性的方法及装置制造方法及图纸

技术编号:15746590 阅读:67 留言:0更新日期:2017-07-03 02:14
本发明专利技术提供了一种判别文本安全性的方法及装置,其中,方法包括:获取待判别文本,并提取所述待判别文本的文本字符;根据不同判断条件的判定参数,对文本字符分别从不同判断条件进行安全性判断,并分别获得不同判断条件的判定结果,其中,不同判断条件的判定参数为根据预先存储的已判定文本获得的;根据所获得的不同判断条件的判定结果,确定待判别文本的最终判定结果。本发明专利技术提高了文本判别的准确率和效率,降低了人工的判定工作量。

Method and device for judging text security

Including the invention provides a method and device, the safety of the text, obtained to judge the text, and extract the distinguishing text characters; according to the determination parameters of different condition, the text characters from different judgment conditions for safety judgment, judgment results, respectively different judgment conditions which determine the parameters in different conditions according to the judgment of the pre stored text has been determined; based on the result of different conditions obtained, the final decision to determine the discriminant of text. The invention improves the accuracy and efficiency of text discrimination, and reduces the manual judgment workload.

【技术实现步骤摘要】
一种判别文本安全性的方法及装置
本专利技术涉及通信互联网
,尤其是涉及一种判别文本安全性的方法及装置。
技术介绍
随着通信互联网的迅速发展,信息传播的速度越来越快,人们每天通过网络获得的信息也日渐增多。但由于信息监管的缺失,各种良莠不齐的内容例如广告、诈骗、反动等也随之传播。此外,该些内容传播的方式也是多种多样,例如,接收短信时会收到垃圾信息,浏览论坛会遇到不愿看到的广告,在游戏中聊天会碰到刷屏、污言秽语等。由此可以看出,种种违规信息的传播有愈演愈烈的趋势,该些内容不但对信息的使用者造成很大困扰,例如用户需要花费额外的时间去处理这些信息,而且一些违法信息也威胁着个人、公司、社会和国家方方面面的安全。因此,抑制违规信息的传播在通信互联网领域就成了一件迫在眉睫的大事。现有的违规信息过滤方式主要基于三种模式:第一种是人工发现直接封堵,例如在论坛中版主去监管版面。第二种是用户举报后人工封堵,这种模式出现在手机短信、微信和QQ等即时通讯工具中。第三种是基于自动发现违规信息的模式去过滤,有些也配合人工封堵进一步操作,例如很多社会性网络服务SNS社交网站采用这种模式。其中,在自动发现违规信息的模式中,主要采用以下两种技术:第一种为敏感词过滤,敏感词过滤基本方法为,通过对文本与敏感词库中的敏感词进行匹配来查看文本中是否涉嫌违规信息。如果经过匹配发现文本中出现敏感词,则该文本被判定违规或者疑似违规。在一些方法中,也可能采取敏感词组合和筛选的方法进行过滤。第二种为相似文本匹配,相似文本匹配基本方法为,对待判定文本与已判定违规文本进行比较,若二者一致或者相似则对待判定文本进行判定。其中,指纹哈希算法、文本特征向量算法等均属于此类。以上两种技术虽然实现了自动发现违规信息的目的,但是在准确率和效率方面也存在比较明显的确定。针对敏感词过滤来说,如果敏感词配置得当,基于敏感词过滤的方法能发现绝大多数违规信息,覆盖率比较高。但是根据实验,相比较敏感词命中的违规信息,敏感词会命中更多的正常信息。例如“发票”这样的词语,除了违规广告使用之外,也是生活工作中常见的词汇。因此单纯使用敏感词过滤,会造成很多误判,可能影响正常的信息交流或加大下一步人工审核的负担。针对相似文本匹配来说,通过对已有判定结果的文本内容进行学习,对未判定的文本内容进行判定。通常来讲这种方法具有比较高的准确率,但也存在两个问题,一是随着违规信息的不断变化,学习文本的数量会不断增长,随着学习库的越加庞大,文本匹配的效率会越来越慢。二是一些文本会出现少量语序变化,从而影响最终的匹配结果。例如“外卖专享,到家美食会5折”和“到家美食会5折登录订购吧”,这两条文本会被认为是两个不同内容,而不能被匹配系统做出有效判定。综上所述,现有自动发现违规信息的模式对文本不能做出有效判断,并且增加了人工审核的负担,存在准确率及效率较低的问题。
技术实现思路
为了能够对文本做出有效判断,降低人工的判定工作量,提高文本判别的准确率和效率,本专利技术提供了一种判别文本安全性的方法及装置。为了实现上述目的,本专利技术提供了一种判别文本安全性的方法,包括:获取待判别文本,并提取所述待判别文本的文本字符;根据不同判断条件的判定参数,对所述文本字符分别从不同判断条件进行安全性判断,并分别获得不同判断条件的判定结果,其中,所述不同判断条件的判定参数为根据预先存储的已判定文本获得的;根据所获得的不同判断条件的判定结果,确定所述待判别文本的最终判定结果。可选的,所述根据不同判断条件的判定参数,对所述文本字符分别从不同判断条件进行安全性判断,并分别获得不同判断条件的判定结果中,不同判断条件至少包括:字符内容分析、文本长度分析、黑名单匹配和敏感词匹配。可选的,所述根据不同判断条件的判定参数,对所述文本字符分别从不同判断条件进行安全性判断,并分别获得不同判断条件的判定结果之前,所述方法还包括:对预先存储的已判定文本进行分析,并从所述已判定文本中分析得到不同判断条件的判定参数。可选的,所述对预先存储的已判定文本进行分析,并从所述已判定文本中分析得到不同判断条件的判定参数,包括:根据所述已判定文本确定第一判断条件对应的参考参数,其中,所述第一判断条件为字符内容分析、文本长度分析、黑名单匹配和敏感词匹配中的任意一个;根据第一判断条件对应的参考参数,对多个所述已判定文本从第一判断条件进行安全性判断,并计算判定结果为第一确定结果的文本的占比率和误判率,其中,判定结果包括第一确定结果和不确定结果,第一确定结果包括正常文本结果和违规文本结果;将所述参考参数对应的占比率与一占比率阈值进行比较,将所述参考参数对应的误判率与一误判率阈值进行比较,将占比率大于一占比率阈值且误判率小于一误判率阈值对应的参考参数作为所述第一判断条件对应的判定参数。可选的,在根据第一判断条件对应的参考参数,对多个所述已判定文本从第一判断条件进行安全性判断,并计算判定结果为第一确定结果的文本的占比率和误判率中,根据公式计算判定结果为第一确定结果的文本的占比率,其中,R表示所述占比率,WS表示根据第一判断条件对应的参考参数,对多个所述已判定文本从第一判断条件进行安全性判断时,获得判定结果为第一确定结果的文本的数量,MS表示多个所述已判定文本的总数量;根据公式计算判定结果为第一确定结果的文本的误判率,其中,F表示所述误判率,WS表示根据第一判断条件对应的参考参数,对多个所述已判定文本从第一判断条件进行安全性判断时,获得判定结果为第一确定结果的文本的数量,JW表示所述已判定文本中第一确定结果与所述已判定文本的已判定结果不相符的文本的数量。可选的,在所述根据所述已判定文本确定第一判断条件对应的参考参数中,所述字符内容分析对应的参考参数为中文字符,所述文本长度分析对应的参考参数为文本长度值、所述黑名单匹配对应的参考参数为黑名单库以及所述敏感词匹配对应的参考参数为敏感词库。可选的,当第一判断条件为黑名单匹配时,所述根据所述已判定文本确定第一判断条件对应的参考参数包括:从所述已判定文本的违规文本结果对应的违规文本中提取不同的字符串,并将所述多个不同的字符串组成黑名单匹配对应的参考参数黑名单库,其中,所述字符串至少包括数字和统一资源定位符URL。可选的,当第一判断条件为敏感词匹配时,所述根据所述已判定文本确定第一判断条件对应的参考参数包括:将一预设敏感词库中的敏感词与所述已判定文本中的违规文本结果对应的违规文本进行匹配,并计算所述敏感词的匹配度;根据计算得到的敏感词的匹配度,将匹配度小于匹配度阈值的敏感词从所述预设敏感词库中清除,并将所述预设敏感词库中剩余的敏感词组成敏感词匹配对应的参考参数敏感词库。可选的,在将匹配度小于一匹配度阈值的敏感词从所述预设敏感词库中清除,并将所述预设敏感词库中剩余的敏感词组成敏感词匹配对应的参考参数敏感词库之后,所述方法还包括:从所述敏感词库中筛选出匹配度值最高的敏感词以及从所述已判定文本中筛选出与所述匹配度值最高的敏感词匹配的文本;将所述敏感词库中剩余敏感词与所述已判定文本中剩余文本进行匹配,并计算所述剩余敏感词的匹配度;根据计算得到的剩余敏感词的匹配度,从所述剩余敏感词中筛选出匹配度等级最高的敏感词以及从所述剩余文本中筛选出本文档来自技高网
...
一种判别文本安全性的方法及装置

【技术保护点】
一种判别文本安全性的方法,其特征在于,所述方法包括:获取待判别文本,并提取所述待判别文本的文本字符;根据不同判断条件的判定参数,对所述文本字符分别从不同判断条件进行安全性判断,并分别获得不同判断条件的判定结果,其中,所述不同判断条件的判定参数为根据预先存储的已判定文本获得的;根据所获得的不同判断条件的判定结果,确定所述待判别文本的最终判定结果。

【技术特征摘要】
1.一种判别文本安全性的方法,其特征在于,所述方法包括:获取待判别文本,并提取所述待判别文本的文本字符;根据不同判断条件的判定参数,对所述文本字符分别从不同判断条件进行安全性判断,并分别获得不同判断条件的判定结果,其中,所述不同判断条件的判定参数为根据预先存储的已判定文本获得的;根据所获得的不同判断条件的判定结果,确定所述待判别文本的最终判定结果。2.根据权利要求1所述的方法,其特征在于,所述根据不同判断条件的判定参数,对所述文本字符分别从不同判断条件进行安全性判断,并分别获得不同判断条件的判定结果中,不同判断条件至少包括:字符内容分析、文本长度分析、黑名单匹配和敏感词匹配。3.根据权利要求2所述的方法,其特征在于,所述根据不同判断条件的判定参数,对所述文本字符分别从不同判断条件进行安全性判断,并分别获得不同判断条件的判定结果之前,所述方法还包括:对预先存储的已判定文本进行分析,并从所述已判定文本中分析得到不同判断条件的判定参数。4.根据权利要求3所述的方法,其特征在于,所述对预先存储的已判定文本进行分析,并从所述已判定文本中分析得到不同判断条件的判定参数,包括:根据所述已判定文本确定第一判断条件对应的参考参数,其中,所述第一判断条件为字符内容分析、文本长度分析、黑名单匹配和敏感词匹配中的任意一个;根据第一判断条件对应的参考参数,对多个所述已判定文本从第一判断条件进行安全性判断,并计算判定结果为第一确定结果的文本的占比率和误判率,其中,判定结果包括第一确定结果和不确定结果,第一确定结果包括正常文本结果和违规文本结果;将所述参考参数对应的占比率与一占比率阈值进行比较,将所述参考参数对应的误判率与一误判率阈值进行比较,将占比率大于一占比率阈值且误判率小于一误判率阈值对应的参考参数作为所述第一判断条件对应的判定参数。5.根据权利要求4所述的方法,其特征在于,在根据第一判断条件对应的参考参数,对多个所述已判定文本从第一判断条件进行安全性判断,并计算判定结果为第一确定结果的文本的占比率和误判率中,根据公式计算判定结果为第一确定结果的文本的占比率,其中,R表示所述占比率,WS表示根据第一判断条件对应的参考参数,对多个所述已判定文本从第一判断条件进行安全性判断时,获得判定结果为第一确定结果的文本的数量,MS表示多个所述已判定文本的总数量;根据公式计算判定结果为第一确定结果的文本的误判率,其中,F表示所述误判率,WS表示根据第一判断条件对应的参考参数,对多个所述已判定文本从第一判断条件进行安全性判断时,获得判定结果为第一确定结果的文本的数量,JW表示所述已判定文本中第一确定结果与所述已判定文本的已判定结果不相符的文本的数量。6.根据权利要求4所述的方法,其特征在于,在所述根据所述已判定文本确定第一判断条件对应的参考参数中,所述字符内容分析对应的参考参数为中文字符,所述文本长度分析对应的参考参数为文本长度值、所述黑名单匹配对应的参考参数为黑名单库以及所述敏感词匹配对应的参考参数为敏感词库。7.根据权利要求6所述的方法,其特征在于,当第一判断条件为黑名单匹配时,所述根据所述已判定文本确定第一判断条件对应的参考参数包括:从所述已判定文本的违规文本结果对应的违规文本中提取不同的字符串,并将所述多个不同的字符串组成黑名单匹配对应的参考参数黑名单库,其中,所述字符串至少包括数字和统一资源定位符URL。8.根据权利要求6所述的方法,其特征在于,当第一判断条件为敏感词匹配时,所述根据所述已判定文本确定第一判断条件对应的参考参数包括:将一预设敏感词库中的敏感词与所述已判定文本中的违规文本结果对应的违规文本进行匹配,并计算所述敏感词的匹配度;根据计算得到的敏感词的匹配度,将匹配度小于匹配度阈值的敏感词从所述预设敏感词库中清除,并将所述预设敏感词库中剩余的敏感词组成敏感词匹配对应的参考参数敏感词库。9.根据权利要求8所述的方法,其特征在于,在将匹配度小于一匹配度阈值的敏感词从所述预设敏感词库中清除,并将所述预设敏感词库中剩余的敏感词组成敏感词匹配对应的参考参数敏感词库之后,所述方法还包括:从所述敏感词库中筛选出匹配度值最高的敏感词以及从所述已判定文本中筛选出与所述匹配度值最高的敏感词匹配的文本;将所述敏感词库中剩余敏感词与所述已判定文本中剩余文本进行匹配,并计算所述剩余敏感词的匹配度;根据计算得到的剩余敏感词的匹配度,从所述剩余敏感词中筛选出匹配度等级最高的敏感词以及从所述剩余文本中筛选出与所述匹配度等级最高的敏感词匹配的文本,其中,所述匹配度的等级随匹配度值的增大而增加;重复进入将所述敏感词库中剩余敏感词与所述已判定文本中剩余文本进行匹配,并计算所述剩余敏感词的匹配度的步骤,直至所述剩余敏感词的匹配度为零;将筛选出的敏感词组成敏感词匹配对应的判定参数敏感词库。10.根据权利要求2所述的方法,其特征在于,所述根据不同判断条件的判定参数,对所述文本字符分别从不同判断条件进行安全性判断,并分别获得不同判断条件的判定结果中,根据字符内容分析的判定参数,对所述文本字符从字符内容分析进行安全性判断,获得字符内容分析的判定结果,包括:根据字符内容分析的判定参数中文字符,判断所述文本字符中是否包含有中文字符;若所述文本字符中不包含有中文字符,则所述字符内容分析的判定结果为正常文本结果;若所述文本字符中包含有中文字符,则所述字符内容分析的判定结果为不确定结果。11.根据权利要求2所述的方法,其特征在于,所述根据不同判断条件的判定参数,对所述文本字符分别从不同判断条件进行安全性判断,并分别获得不同判断条件的判定结果中,根据文本长度分析的判定参数,对所述文本字符从文本长度分析进行安全性判断,获得文本长度分析的判定结果,包括:根据文本长度分析的判定参数长度阈值,判断所述文本字符的文本长度是否小于等于所述长度阈值;若所述文本长度小于等于所述长度阈值,则所述文本长度分析的判定结果为正常文本结果;若所述文本长度大于所述长度阈值,则所述文本长度分析的判定结果为不确定结果。12.根据权利要求2所述的方法,其特征在于,所述根据不同判断条件的判定参数,对所述文本字符分别从不同判断条件进行安全性判断,并分别获得不同判断条件的判定结果中,根据黑名单匹配的判定参数,对所述文本字符从黑名单匹配进行安全性判断,获得黑名单匹配的判定结果,包括:根据黑名单匹配的判定参数黑名单库,判断所述文本字符中是否包含有与所述黑名单库中的字符串相匹配的字符串,其中,所述字符串至少包括数字和URL;若所述文本字符中包含有与所述黑名单库中的字符串相匹配的字符串,则所述黑名单匹配的判定结果为违规文本结果;若所述文本字符中不包含有与所述黑名单库中的字符串相匹配的字符串,则所述黑名单匹配的判定结果为不确定文本结果。13.根据权利要求2所述的方法,其特征在于,所述根据不同判断条件的判定参数,对所述文本字符分别从不同判断条件进行安全性判断,并分别获得不同判断条件的判定结果中,根据敏感词匹配的判定参数,对所述文本字符从敏感词匹配进行安全性判断,获得敏感词匹配的判定结果,包括:根据敏感词匹配的判定参数敏感词库,判断所述文本字符中是否包含有与所述敏感词库中的敏感词相匹配的分词;若所述文本字符中不包含有与所述敏感词库中的敏感词相匹配的分词,则所述敏感词匹配的判定结果为正常文本结果;若所述文本字符中包含有与所述敏感词库中的敏感词相匹配的分词,则所述敏感词匹配的判定结果为疑似违规文本结果。14.根据权利要求1所述的方法,其特征在于,根据所获得的不同判断条件的判定结果,确定所述待判别文本的最终判定结果,包括:根据所获得的不同判断条件的判定结果,确定判定结果的类型,其中,所述判定结果的类型包括第二确定结果和不确定结果,所述第二确定结果包括正常文本结果、违规文本结果和疑似违规文本结果;根据预先设置的不同...

【专利技术属性】
技术研发人员:安宁宇粟栗张峰孙洋邵妍李元锋
申请(专利权)人:中国移动通信集团公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1