基于含有违法词的互联网文章自动过滤处理方法及系统技术方案

技术编号:17837625 阅读:40 留言:0更新日期:2018-05-03 19:18
本发明专利技术公开一种基于含有违法词的互联网文章自动过滤处理系统,包括违法词词库收集模块、词库人工核查模块、分词处理模块、违法词内容转换模块、前台触发式访问过滤模块以及后台编辑发布检测模块。本发明专利技术还公开一种基于含有违法词的互联网文章自动过滤处理方法,包括如下步骤:步骤1,创建违法词词库;步骤2,管理词库,为每个词标注风险等级;步骤3,产品、文章编辑发布时,利用分词检测技术筛选排查出是否含有违法词,并对排查出的违法词根据词的风险层级对应不同的处理方式。此种技术方案可以将互联网产品、文章内容有效自动过滤处理违法词,并实现产品、文章内容数据的长期有效的自动检测处理,进一步改善网络信息安全。

An automatic filtering method and system for Internet articles based on illegal words

The invention is based on an internet article automatic filtering processing system based on illegal words, including the collection module of the word library, the part of the word library manual verification module, the word segmentation processing module, the illegal content conversion module, the front trigger access filter module and the background editor distribution detection module. The invention also discloses an internet article automatic filtering method based on illegal words, which includes the following steps: Step 1, create a word library of illegal words; step 2, manage the word bank to mark the risk grade for each word; step 3, when the product and article are published, use the word detection technique to screen out if the contents are contained or not. Illegal words and corresponding illegal words are treated according to the risk level of the word. This technical scheme can automatically filter illegal words of Internet products and articles, and realize long-term and effective automatic detection and processing of product and article content data, and further improve the network information security.

【技术实现步骤摘要】
基于含有违法词的互联网文章自动过滤处理方法及系统
本专利技术涉及一种基于含有违法词的互联网文章自动过滤处理的方法及处理系统。
技术介绍
随着互联网、移动互联网的高速发展,基于B端和C端的互联网用户也越来越多,各用户也皆会基于部分官网或产品或平台发布一些文章或产品内容。但目前大部分的网民对于网络信息安全了解并不够多或不够熟悉,导致有些违法词或违禁词也运用写到了文章或产品内容里并发布,导致后续还得排查修改并查处。对过往所发布的产品或文章内容没法有效保障是否含有违法词,违法词或违禁词会根据时间、阶段、社会发展情况不断增加或减少调整,也会随部分谣言事件的发生成为热词或重点关注查处事项。但各企业官网、产品、平台人员无法时时监控违法词的新增或减少并及时做出相应的处理或修改,同时每次的排查并修改也需耗费不少时间成本。现有的互联网中小微企业,大部分都只考虑文章、产品的宣传推广,没有过多的考虑文章、产品内容是否含有违禁词,同时更多的是没有预防或处理措施,在如今网络信息高速分享传播的时代下,对于网络信息安全的提升有着一定的隐患。
技术实现思路
本专利技术的目的,在于提供一种基于含有违法词的互联网文章自动过滤处理方法及系统,其可以将企业、平台中的互联网产品、文章内容有效自动过滤处理违法词,并实现产品、文章内容数据的长期有效的自动检测处理,特别是针对过往所发布的文章、产品,完全也不必担心随着的新违法词的出现,每一次再去花费大量的人工、时间成本检测及处理,进一步改善网络信息安全。为了达成上述目的,本专利技术的解决方案是:一种基于含有违法词的互联网文章自动过滤处理系统,包括:违法词词库收集模块:收集违法词,并建立违法词词库;词库人工核查模块:采取人工方式对违法词词库中新增导入的词进行核查,为每个词设立风险层级;分词处理模块:在产品或文章中筛选排查出是否含有违法词;违法词内容转换模块:将排查出的违法词根据词的风险层级对应不同的处理方式;前台触发式访问过滤模块:用户访问文章时,触发分词处理模块对文章进行筛选排查;以及,后台编辑发布检测模块:产品、文章编辑发布时,触发分词处理模块对文章进行筛选排查。上述违法词词库收集模块根据网安每期公布提供的违法词列表、网上公布的非法词库定期收集及建库储存。上述分词处理模块基于字符串匹配的方法、正向最大匹配分词算法以及反向最大匹配分词算法在产品或文章中筛选排查出是否含有违法词。上述违法词词库中的词风险层级包括高风险和低风险,违法词内容转换模块将低风险违法词转换成***,将高风险违法词删除。一种基于含有违法词的互联网文章自动过滤处理方法,包括如下步骤:步骤1,创建违法词词库;步骤2,管理词库,为每个词标注风险等级;步骤3,产品、文章编辑发布时,利用分词检测技术筛选排查出是否含有违法词,并对排查出的违法词根据词的风险层级对应不同的处理方式。上述步骤1中,从网安部门或互联网下载最新非法词词库,创建违法词词库,且定时或不定时维护更新违法词词库。上述步骤2中,将含军事政治类、含情色类的相关词汇标注为高风险,将含阶段性的敏感词汇标注为低风险。上述步骤3中,通过企业官网后台或平台后台编辑发布文章及产品时,当检测出含有违法词时无法编辑成功并提示含有的词汇做出修改。上述步骤3中,当用户通过前台访问文章及产品时,也会利用分词检测技术筛选排查出是否含有违法词,并对排查出的违法词根据词的风险层级对应不同的处理方式。上述步骤3中,分词检测技术采用基于字符串匹配的方法、正向最大匹配分词算法、反向最大匹配分词算法或双向最大匹配分词算法。采用上述方案后,本专利技术具有以下有益效果:(1)解决中小微企业、平台发布的产品、文章里不经意间含有违法词,规避后续可能出现的不及时处理或受到处罚;(2)对过往所发布的产品或文章内容随着新违法词的出现能继续有效保障自动过滤处理,解放部分人工成本,企业、平台不需再因当有新词出现时立即对全部的文章、产品再次检测或处理;(3)提升网络信息安全,从根本上长期有效的杜绝违法词、违禁词的出现;(4)访问触发式过滤处理方式可以有效避免当文章、产品数据量过大时,执行过滤这些操作引起的数据库堵塞或执行时间超长。附图说明图1是本专利技术的流程图。具体实施方式以下将结合附图,对本专利技术的技术方案进行详细说明。本专利技术提供一种基于含有违法词的互联网文章自动过滤处理系统,包括如下功能模块:违法词词库收集模块:根据网安每期公布提供的违法词列表、网上公布的非法词库定期收集及建库储存。词库人工核查模块:该模块采取人工方式对每次新增导入的关键词进行核查,为每个关键词设立标注低风险或高风险等层级。分词处理模块:基于字符串匹配的方法、正向最大匹配分词算法以及反向最大匹配分词算法等方式封装而成的分词处理技术,在产品或文章中筛选排查出是否含有违法词或违禁词。违法词内容转换模块:将过滤排查的违法词根据词的风险层级对应不同的处理方式,如低风险则将词转换成***,高风险则删除等。前台触发式访问过滤模块:用户访问文章时,同时触发违法词过滤处理方式做出相应的检测处理。当添加新违法词到词库时,有用户访问旧文章,也将在访问触发过程中进行检测及处理。后台编辑发布检测模块:产品、文章编辑发布时,触发违法词过滤处理方式做出相应的检测及提醒机制。通过上面的几大模块,实现了基于含有违法词的互联网文章、产品自动检测过滤处理。如图1所示,本专利技术还提供一种基于含有违法词的互联网文章自动过滤处理方法,包括如下步骤:步骤1,创建违法词词库,从网安部门(会不定期地公布最新词库)或互联网下载最新非法词词库,导入违法词词库,每一阶段定期维护更新违法词词库;步骤2,管理词库,给每个词标注风险等级,如将含军事政治类、含情色类的相关词汇标注为高风险,如将含阶段性的敏感词汇标注为低风险;步骤3,非法词检测及处理,有几个场景及处理方式具体过程如下:A.将分词检测技术及违法词标注风险层级包装封装成接口模式;B.通过企业官网后台或平台后台编辑发布文章及产品时,在编辑完成的触发动作上加入违法词检测接口,当检测出含有违法词时无法编辑成功并提示含有的词汇做出修改;C.用户通过前台访问文章及产品时,请求触发违法词检测接口,当检测出含有违法词时,根据检测出的违法词风险层级做出内容修正,例如将词汇自动替换成***再渲染页面或跳转404无法访问该篇文章,最高风险将可触发直接删除该篇文章或产品内容;D.对过往所发布的产品或文章内容随着新违法词的出现能继续有效保障自动过滤处理,有新的非法关键词或删减旧关键词,都仅需在词库上做处理即可,当旧文章或旧产品内容含有新添加的违法词时,也将自动在有用户访问该文章/产品内容时触发做出相应内容修正结果。所述违法词分词处理匹配方式如以下几种方式方法:A.基于字符串匹配的方法,又称为机械分词方法或字典匹配方法,它主要依据词典的信息,而不使用规则知识和统计信息,按照一定的策略将待切分的汉字串与词典中的词条逐一匹配,若在词典中找到该词条,则匹配成功,否则做其它相应的处理。机械分词法依据待切分文本扫描的方向不同,分为正向匹配、逆向匹配以及双向匹配;依据分词过程是否与词性标注过程相结合,又可分为单纯分词方法和分词与标注相结合的一体化方法;依据每次匹配优先考虑长词还是短词,分为最大匹配和最小匹配。常用的本文档来自技高网...
基于含有违法词的互联网文章自动过滤处理方法及系统

【技术保护点】
一种基于含有违法词的互联网文章自动过滤处理系统,其特征在于包括:违法词词库收集模块:收集违法词,并建立违法词词库;词库人工核查模块:采取人工方式对违法词词库中新增导入的词进行核查,为每个词设立风险层级;分词处理模块:在产品或文章中筛选排查出是否含有违法词;违法词内容转换模块:将排查出的违法词根据词的风险层级对应不同的处理方式;前台触发式访问过滤模块:用户访问文章时,触发分词处理模块对文章进行筛选排查;以及,后台编辑发布检测模块:产品、文章编辑发布时,触发分词处理模块对文章进行筛选排查。

【技术特征摘要】
1.一种基于含有违法词的互联网文章自动过滤处理系统,其特征在于包括:违法词词库收集模块:收集违法词,并建立违法词词库;词库人工核查模块:采取人工方式对违法词词库中新增导入的词进行核查,为每个词设立风险层级;分词处理模块:在产品或文章中筛选排查出是否含有违法词;违法词内容转换模块:将排查出的违法词根据词的风险层级对应不同的处理方式;前台触发式访问过滤模块:用户访问文章时,触发分词处理模块对文章进行筛选排查;以及,后台编辑发布检测模块:产品、文章编辑发布时,触发分词处理模块对文章进行筛选排查。2.如权利要求1所述的基于含有违法词的互联网文章自动过滤处理系统,其特征在于:所述违法词词库收集模块根据网安每期公布提供的违法词列表、网上公布的非法词库定期收集及建库储存。3.如权利要求1所述的基于含有违法词的互联网文章自动过滤处理系统,其特征在于:所述分词处理模块基于字符串匹配的方法、正向最大匹配分词算法以及反向最大匹配分词算法在产品或文章中筛选排查出是否含有违法词。4.如权利要求1所述的基于含有违法词的互联网文章自动过滤处理系统,其特征在于:所述违法词词库中的词风险层级包括高风险和低风险,违法词内容转换模块将低风险违法词转换成***,将高风险违法词删除。5.一种基于含有违法词的互联网文章自动过滤处理方法,其特征在于包括如下步骤:步骤1,创建违...

【专利技术属性】
技术研发人员:张迎金魏增辉庄良基林溪庄永梁
申请(专利权)人:厦门二五八网络科技集团股份有限公司
类型:发明
国别省市:福建,35

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1