基于含有违法词的互联网文章自动过滤处理方法及系统技术方案

技术编号：17837625 阅读：71 留言：0更新日期：2018-05-03 19:18

本发明专利技术公开一种基于含有违法词的互联网文章自动过滤处理系统，包括违法词词库收集模块、词库人工核查模块、分词处理模块、违法词内容转换模块、前台触发式访问过滤模块以及后台编辑发布检测模块。本发明专利技术还公开一种基于含有违法词的互联网文章自动过滤处理方法，包括如下步骤：步骤1，创建违法词词库；步骤2，管理词库，为每个词标注风险等级；步骤3，产品、文章编辑发布时，利用分词检测技术筛选排查出是否含有违法词，并对排查出的违法词根据词的风险层级对应不同的处理方式。此种技术方案可以将互联网产品、文章内容有效自动过滤处理违法词，并实现产品、文章内容数据的长期有效的自动检测处理，进一步改善网络信息安全。

An automatic filtering method and system for Internet articles based on illegal words

The invention is based on an internet article automatic filtering processing system based on illegal words, including the collection module of the word library, the part of the word library manual verification module, the word segmentation processing module, the illegal content conversion module, the front trigger access filter module and the background editor distribution detection module. The invention also discloses an internet article automatic filtering method based on illegal words, which includes the following steps: Step 1, create a word library of illegal words; step 2, manage the word bank to mark the risk grade for each word; step 3, when the product and article are published, use the word detection technique to screen out if the contents are contained or not. Illegal words and corresponding illegal words are treated according to the risk level of the word. This technical scheme can automatically filter illegal words of Internet products and articles, and realize long-term and effective automatic detection and processing of product and article content data, and further improve the network information security.

全部详细技术资料下载

【技术实现步骤摘要】
基于含有违法词的互联网文章自动过滤处理方法及系统
本专利技术涉及一种基于含有违法词的互联网文章自动过滤处理的方法及处理系统。
技术介绍
随着互联网、移动互联网的高速发展，基于B端和C端的互联网用户也越来越多，各用户也皆会基于部分官网或产品或平台发布一些文章或产品内容。但目前大部分的网民对于网络信息安全了解并不够多或不够熟悉，导致有些违法词或违禁词也运用写到了文章或产品内容里并发布，导致后续还得排查修改并查处。对过往所发布的产品或文章内容没法有效保障是否含有违法词，违法词或违禁词会根据时间、阶段、社会发展情况不断增加或减少调整，也会随部分谣言事件的发生成为热词或重点关注查处事项。但各企业官网、产品、平台人员无法时时监控违法词的新增或减少并及时做出相应的处理或修改，同时每次的排查并修改也需耗费不少时间成本。现有的互联网中小微企业，大部分都只考虑文章、产品的宣传推广，没有过多的考虑文章、产品内容是否含有违禁词，同时更多的是没有预防或处理措施，在如今网络信息高速分享传播的时代下，对于网络信息安全的提升有着一定的隐患。
技术实现思路
本专利技术的目的，在于提供一种基于含有违法词...
基于含有违法词的互联网文章自动过滤处理方法及系统

【技术保护点】
一种基于含有违法词的互联网文章自动过滤处理系统，其特征在于包括：违法词词库收集模块：收集违法词，并建立违法词词库；词库人工核查模块：采取人工方式对违法词词库中新增导入的词进行核查，为每个词设立风险层级；分词处理模块：在产品或文章中筛选排查出是否含有违法词；违法词内容转换模块：将排查出的违法词根据词的风险层级对应不同的处理方式；前台触发式访问过滤模块：用户访问文章时，触发分词处理模块对文章进行筛选排查；以及，后台编辑发布检测模块：产品、文章编辑发布时，触发分词处理模块对文章进行筛选排查。

【技术特征摘要】
1.一种基于含有违法词的互联网文章自动过滤处理系统，其特征在于包括：违法词词库收集模块：收集违法词，并建立违法词词库；词库人工核查模块：采取人工方式对违法词词库中新增导入的词进行核查，为每个词设立风险层级；分词处理模块：在产品或文章中筛选排查出是否含有违法词；违法词内容转换模块：将排查出的违法词根据词的风险层级对应不同的处理方式；前台触发式访问过滤模块：用户访问文章时，触发分词处理模块对文章进行筛选排查；以及，后台编辑发布检测模块：产品、文章编辑发布时，触发分词处理模块对文章进行筛选排查。2.如权利要求1所述的基于含有违法词的互联网文章自动过滤处理系统，其特征在于：所述违法词词库收集模块根据网安每期公布提供的违法词列表、网上公布的非法词库定期收集及建库储存。3.如权利要求1所述的基于含有违法词的互联网文章自动过滤处理系统，其特征在于：所述分词处理模块基于字符串匹配的方法、正向最大匹配分词算法以及反向最大匹配分词算法在产品或文章中筛选排查出是否含有违法词。4.如权利要求1所述的基于含有违法词的互联网文章自动过滤处理系统，其特征在于：所述违法词词库中的词风险层级包括高风险和低风险，违法词内容转换模块将低风险违法词转换成***，将高风险违法词删除。5.一种基于含有违法词的互联网文章自动过滤处理方法，其特征在于包括如下步骤：步骤1，创建违...

【专利技术属性】
技术研发人员：张迎金，魏增辉，庄良基，林溪，庄永梁，
申请(专利权)人：厦门二五八网络科技集团股份有限公司，
类型：发明
国别省市：福建,35

全部详细技术资料下载我是这个专利的主人