【技术实现步骤摘要】
本专利技术涉及信息系统数据处理领域,特别涉及。
技术介绍
在互联网应用日益发达的今天,互联网信息越来越丰富,与此同时,带有敏感政治倾向、暴力倾向、不健康内容等不良信息也随之泛滥,为了净化网络环境,因此在需要对外发布信息的互联网场合中,其内容是要经过审查,审查通过后才能在互联网上公开。信息内容审查初期,都是通过人工进行审核,这种审核方式虽然准确,但随着信息的快速增长,这种方式凸显审查效率低、人员负荷重的缺点,在这种情况下,自动化的系统处理方式的需求 越来越强烈。随着各种自动化处理系统的产生,其处理方式都是针对敏感词库,基于敏感词库对目标信息进行敏感词提取操作,而对于敏感词匹配来说,有两个关键点匹配效率和匹配准确率。匹配效率体现了在对大量敏感词以及大量目标信息处理时的响应时间;匹配准确率体现了对于一个敏感词要尽量区分语境,不能误将非敏感词判断为敏感词而进行处理。目前较为流行且成熟的处理方法有 I、简单文本搜索与替换。这种方式是以敏感词库为主体,对目标信息进行匹配,就是循环把每个敏感词在目标信息中从头到尾搜索一遍,如果在目标信息中有匹配成功的敏感词,那就找到一个就处 ...
【技术保护点】
【技术特征摘要】
1.一种基于聚合词树的敏感词匹配处理的系统,其特征在于,包括 敏感词库单元,用于保存长期积累的各类行业敏感词,以及具有敏感政治倾向、暴力倾向、不健康内容的词语; 聚合词树算法处理器,用于根据敏感词库中的敏感词,进行生成词树的处理,以及对目标信息进行敏感词匹配的处理; 语义分析单元,用于处理初步匹配成功的关键词,结合这些关键词在目标信息中上下文的内容进行语义分析,根据业务规则,判断这些关键词在文中是否是敏感词; 行业领域分析单元,用于根据目标信息的属性确定其行业领域,通过事先设置的行业规则,判断初步匹配成功的关键词,在对应的行业领域内是否属于敏感词,通过业务规则进行过滤后,排除对于所在领域不属于敏感词的关键词。2.如权利要求I所述系统,其特征在于,所述聚合词树算法处理器包括 聚合词树生成单元,用于将敏感词库中的每个敏感词按照聚合词方式建立词链,然后将多条词链聚合成一棵词树,整个敏感词库中的所有敏感词会聚合成多棵词树; 目标信息匹配单元,用于扫描目标信息中每个字,判断这个字的特征码地址是否在内存地址表中,如果在,则取出这个字对应的词树,这个字在这棵词树的根结点上;再判断下一个字在不在这棵词树中所有词链的第二个结点上,如果在,则在这棵词树上提取相对应的词链,在提取的这条词链上,判断这个字后是否有结束标志,如果有结束标志,则表示已经成功匹配敏感词;如依此类推,直到目标信息中的字构成词树上的一条完整的词链。3.如权利要求I所述系统,其特征在于,还包括 匹配结果输出单元,用于在匹配工作结束后,根据用户事先自定义的标识规则,确定对匹配成功的敏感词进行标识处理方式,并获取这些敏感词的相关属性,输出给信息系统中的信息审核子系统。4.如权利要求3所述系统,其特征在于,所述匹配结果输出单元的输出包括 布尔数据,表示目标信息中是否含有敏感词,用于在信息审核系统的列表中,区分显示含有敏感词的目标信息和不含敏感词的目标信息; 字符串数据,表示目标信息中所含有的所有敏感词,用于在信息审核系统中,显示每条目录信息中包含的敏感词; 整数型数组,表示敏感词的首字在目标信息中的位置,以及敏感词的长度,用于在信息审核系统的目标信息详细页中,以选择好的标识处理方式对目标信息中的敏感词进行标识...
【专利技术属性】
技术研发人员:陶富成,邹铁鹏,
申请(专利权)人:焦点科技股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。