内容过滤的方法、装置及系统制造方法及图纸

技术编号:7520878 阅读:179 留言:0更新日期:2012-07-12 02:26
本发明专利技术公开了一种内容过滤的方法、装置及系统,涉及网络通信安全技术领域,提高内容过滤的准确率和效率。该方法包括:获取待过滤的网络内容片断;根据事件元素提取规则,对所述待过滤的网络内容片断进行事件元素提取,并按照事件模板将提取的事件元素生成对应于所述待过滤的网络内容片断的语义特征向量;根据事件分类模型,对所述语义特征向量进行正负类类别判断;若判定为负类,则对所述待过滤的网络内容片断对应的网络内容进行过滤处理。本发明专利技术主要应用于网络内容过滤的过程中。

【技术实现步骤摘要】

本专利技术涉及通信
,尤其涉及一种内容过滤的方法、装置及系统
技术介绍
随着互联网的发展,人们通过互联网能够获得越来越多的信息。为了在大量的信息中过滤有害信息,为人们提供有益信息,目前使用的现有技术为基于词与词频统计分类的内容过滤方法。所述基于词与词频统计分类的内容过滤方法,主要根据网络信息中词与对应词频特征提取语义特征向量,根据对语义特征向量的分析来对网络内容进行控制,用以过滤有害信息。在实现上述网络内容过滤的过程中,专利技术人发现现有技术中至少存在如下问题 基于词与词频统计分类的内容过滤方法,由于使用基于词与词频的统计方法而导致不能理解文本信息的语义,不能处理词与词频特征相似,但语义相反的网络信息,降低了内容过滤的准确率;而且,这种方法由于处理的信息过多而导致使用的语义特征向量维度巨大,加剧文本分类的训练时间,增加过滤时的运算代价,降低了内容过滤的效率。
技术实现思路
本专利技术的实施例提供一种内容过滤的方法、装置及系统,提高内容过滤的准确率和效率。为达到上述目的,本专利技术的实施例采用如下技术方案一种内容过滤的方法,包括获取待过滤的网络内容片断;根据事件元素提取规则,对所述待过滤的网络内容片断进行事件元素提取,并按照事件模板将提取的事件元素生成对应于所述待过滤的网络内容片断的语义特征向量;根据事件分类模型,对所述语义特征向量进行正负类类别判断;若所述对应于所述待过滤的网络内容片断的语义特征向量被判定为负类,则对所述待过滤的网络内容片断对应的网络内容进行过滤处理。一种内容过滤的装置,包括获取单元,用于获取待过滤的网络内容片断;特征向量生成单元,用于根据事件元素提取规则,对所述待过滤的网络内容片断进行事件元素提取,并按照事件模板将提取的事件元素生成对应于所述待过滤的网络内容片断的语义特征向量;第一判断单元,用于根据事件分类模型,对所述语义特征向量进行正负类类别判断;过滤单元,用于在所述对应于所述待过滤的网络内容片断的语义特征向量被判定为负类时,对所述待过滤的网络内容片断对应的网络内容进行过滤处理。—种通信系统,包括〔0017〕 深度报文检测0?1设备,用于获取待过滤的网络内容片断;根据事件元素提取规 则,对所述待过滤的网络内容片断进行事件元素提取,并按照事件模板将提取的事件元素 生成对应于所述待过滤的网络内容片断的语义特征向量;根据事件分类模型,对所述语义 特征向量进行正负类类别判断;若所述对应于所述待过滤的网络内容片断的语义特征向量 被判定为负类,则对所述待过滤的网络内容片断对应的网络内容进行过滤处理。 〔0018〕 计费服务器,用于对所述0?1设备进行过滤处理后且传输过来的网络内容进行计 费。〔0019〕 本专利技术实施例提供的内容过滤的方法、装置及系统,通过使用对应于待过滤的所 述网络内容片断的语义特征向量,并结合事件分类模型对所述待过滤的所述网络内容片断 进行过滤处理,能够准确理解网络内容,提高了内容过滤的准确率;并且,与根据网络内容 整体提取语义特征向量相比,网络内容片断的语义特征向量的使用,降低了过滤时的运算 代价。附图说明〔0020〕 为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现 有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本 专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以 根据这些附图获得其他的附图。〔0021〕图1为本专利技术实施例1中的一种内容过滤的方法流程图;〔0022〕图2为本专利技术实施例2中的一种内容过滤的方法流程图;〔0023〕图3为本专利技术实施例3中的一种内容过滤的方法流程图;〔0024〕图4为本专利技术实施例4中的一种内容过滤的装置的组成框图;〔0025〕图5为本专利技术实施例4中的另一种内容过滤的装置的组成框图〔0026〕图6为本专利技术实施例4中的另一种内容过滤的装置的组成框图〔0027〕图7为本专利技术实施例4中的另一种内容过滤的装置的组成框图〔0028〕图8为本专利技术实施例4中的另一种内容过滤的装置的组成框图〔0029〕图9为本专利技术实施例4中的另一种内容过滤的装置的组成框图〔0030〕图10为本专利技术实施例4中的另一种内容过滤的装置的组成框图〔0031〕图11为本专利技术实施例4中的另一种内容过滤的装置的组成框图〔0032〕图12为本专利技术实施例4中的网络设备的组成框图;〔0033〕图13为本专利技术实施例4中的--种通信系统的组成框图;〔0034〕图14为本专利技术实施例4中的上网应用场景的结构框图。具体实施例方式〔0035〕 下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完 整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于 本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他 实施例,都属于本专利技术保护的范围。 〔0〇36〕 实施例1本专利技术提供了一种内容过滤的方法,如图I所示,该方法包括101、获取待过滤的网络内容片断。其中,所述待过滤的网络内容片断可以为动态文本数据,也可以为静态文本数据, 本专利技术实施例对此不进行限制;若为动态文本数据时,可以为若干个携带有待过滤的网络内容的数据包;若为静态文本数据时可以是文本文档中的一段文字或全篇文字,本专利技术在此不进行限制。102、根据事件元素提取规则,对所述待过滤的网络内容片断进行事件元素提取, 并按照事件模板将提取的事件元素生成对应于所述待过滤的网络内容片断的语义特征向量。其中,所述事件元素提取规则是指在一段文字中选取名词、动词等词性的词,而不选取语气词、助词等词性的词,所述事件元素提取规则的具体实现方式可以由用户自行设定,也可以是从事件元素提取规则库中动态获取对应的事件元素提取规则,本专利技术对此不再赘述。例如,以待过滤的网络内容片断为“一批法轮功练习者闯入我驻美使馆,围攻我驻美使馆人员,导致多名工作人员受伤”这一句话为例,具体为上述待过滤的网络内容片断根据事件元素提取规则提取出的事件元素为法轮功练习者、驻美使馆人员、闯入、围攻、工作人员受伤;对应使用的事件模板为暴力事件模板, 所述暴力事件模板包括行为主体、对象、语言特征以及导致相关结果;根据所述暴力事件模板将上述事件元素生成的对应于所述待过滤的网络内容片断的语义特征向量的内容如表I 所示。表I语义特征向量表行为主体对象语言特征导致相关结果法轮功练习者驻美使馆人员闯入、围攻工作人员受伤对于其他待过滤的网路内容片断及使用其他事件模板生成语义特征向量的实现方法,与上述例子中的实现方法类似,本专利技术实施例对此不再赘述。另外,需要说明的是,对语义特征向量表格式的设置根据处理的网络内容不同,实现方法也不同,本专利技术实施例提供的技术方法不局限于上述例子。103、根据事件分类模型,对所述语义特征向量进行正负类类别判断。其中,所述事件分类模型用于判断语义特征向量的正负类别。104、若所述对应于所述待过滤的网络内容片断的语义特征向量被判定为负类,则对所述待过滤的网络内容片断对应的网络内容进行过滤处理。其中,所述过滤处理可以为丢弃,也可以为拦截并存储,本专利技术实施例对此不进行限制。另外,需要说明的是,本专利技术实施例所处理的网络内容对应的语言种类可以但不局限于中文,也可以本文档来自技高网...

【技术保护点】

【技术特征摘要】

【专利技术属性】
技术研发人员:张辉姜南范家星
申请(专利权)人:华为技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术