文本内容过滤方法和系统技术方案

技术编号:2918223 阅读:192 留言:0更新日期:2012-04-11 18:40
一种文本内容过滤方法,包括步骤:1)解析用户配置信息,提取出其中的有效过滤规则;2)根据所述的有效过滤规则,对被过滤文本信息进行分析和检测;3)对步骤2)的分析结果进行精确关键字匹配检测,输出检测结果;4)对步骤2)的分析结果进行模糊关键字匹配检测,输出检测结果;5)对步骤2)和4)的分析检测结果进行文本主题检测,确定被过滤文本内容的主题,输出检测结果。本发明专利技术在提供细粒度的精确关键字过滤支持、有限的模糊关键字过滤支持和基于主题的粗粒度过滤支持的同时,通过分离重组三种过滤方式的文本内容扫描前端,只需要对被过滤文本做一次全文扫描,可以大大降低文本过滤所需处理时间。

【技术实现步骤摘要】

本专利技术属于计算机
,涉及文本信息处理领域的文本信息过滤的实现方法,尤 其涉及基于文本主题分析和关键字检测的文本内容过滤方法。
技术介绍
随着计算机和互联网技术的迅速发展,应用的日益广泛,使得互联网上的信息量急剧 增加,人们也越来越习惯通过网络来获取信息。然而,互联网上的信息十分庞杂,良莠不 齐。对互联网上的信息进行监测、分析和过滤,及时发现和阻止不良信息的传播和散布, 净化互联网环境显得十分必要。目前,对于互联网上的文本信息过滤的技术主要分为三类 一类是通过应用关键字匹 配算法,匹配文本信息中的特定关键字,如图1所示。这类方法能够较快速地匹配到包含 匹配关键字的文本,但要求用户准确给出所有需要检测的关键字,并且由于机械地根据字 词进行匹配,误报率较高。另一类方法是采用正规表达式,应用模糊的关键字匹配方法, 匹配文本信息中的特定关键字。这一类方法的问题在于,采用正规表达式的匹配过程很复 杂,计算量很大,当待过滤内容较多或实时性要求较高时,采用这类方法的过滤方法往往 不能胜任。再一类方法是通过支持向量机(SVM)等技术,采用统计分析的方法,对文本 内容进行归类,并根据所属类别的对应主题进行进一步的人工分析。这类方法往往需要通 过一些训练数据来提取过滤特征,并根据提取到的特征进行实际的过滤操作。这种方法虽 然解决了用户配置的难题,但是其完全基于主题的分类方法粒度较大,往往无法准确区分 出主题范围内包含不同子话题的内容,产生的结果往往因为需要的后续人工分析工作量太 大,在实际应用中用户往往无法承担这么大的工作量。考虑到文本内容过滤方法的实际应用背景,过滤方法应该需要支持细粒度的精确匹配 过滤, 一定程度的模糊匹配过滤和基于主题的粗粒度过滤,我们设计了本专利技术所述的一种 基于文本内容和主题相关程度的内容过滤方法。
技术实现思路
本专利技术的目的在于提供一种基于文本内容和主题相关程度的内容过滤方法。该方法是 一种既具有字词级别的关键字匹配,又具有文章/会话级别的主题相关度分析的文本信息过滤方法。由于结合了关键字匹配的高效性与准确性,以及主题分析误报率低的特点,本 专利技术的实用性大大高于以往文本信息过滤方法。本专利技术的另一个目的在于,提供一种可用性高,可操作性好的文本信息过滤系统,降 低对用户配置的要求。本专利技术采用结合关键字匹配和文本主题相关性分析的技术,解决了 单一依靠关键字匹配要求用户准确给出所有需要检测的关键字的难题,也解决了单一依靠 主题相关性分析需要事先训练,并且分类粒度较粗,不够精确的问题,大大提高了实际应 用中的可操作性,降低了对用户配置和使用的要求。为实现以上目的,本专利技术的构思是首先将被过滤文本信息送入文本内容分析模块进 行分析,然后将分析结果送往精确匹配检测模块和模糊匹配检测模块进行匹配,文本主题 检测模块根据文本内容分析模块的分析结果和模糊匹配检测模块的匹配结果,识别出被过 滤文本信息的相关主题。通过调整需要检测的主题和关键字,该方法可以适用于任何主题 和/或关键字的过滤,并且不需要事先训练,为用户提供一种使用灵活方便,处理高效快 速的文本内容过滤服务。相应地,用于实现上述方法的文本内容过滤系统主要由文本内容分析模块、精确关键 字检测模块、模糊关键字检测模块和文本主题检测模块组成。基于以上构思,本专利技术的技术方案为一种文本内容过滤方法,包括步骤1) 解析用户配置信息,提取出其中的有效过滤规则;进一步地,还可以将提取出来的 有效过滤规则组织成处理效率更高的内部表达形式;2) 根据所述的有效过滤规则,对被过滤文本信息进行分析和检测;3) 对步骤2)的分析结果进行精确关键字匹配检测,输出检测结果;4) 对步骤2)的分析结果进行模糊关键字匹配检测,输出检测结果;5) 对步骤2)和4)的分析检测结果进行文本主题检测,确定被过滤文本内容的主题, 输出检测结果。较佳地,上述方法还可以包括综合步骤2)、 3)、 4)的检测结果,输出最终过滤结果 的步骤。相应地,用于实现以上方法的文本内容过滤系统包括配置信息解析模块、文本内容 分析模块、精确关键字检测模块、模糊关键字检测模块和文本主题检测模块。 系统的结构如图2所示,其中配置信息解析模块根据用户配置的检测关键字和/或主题,提取出其中的有效过滤规 贝IJ;并将提取出来的有效过滤规则进行预处理,组织成处理效率更高的内部表达形式;并将组织好的过滤规则送入文本内容分析模块,供其使用;文本内容分析模块根据配置信息解析模块提供的过滤规则,对被过滤文本信息解析分 析和检测。文本内容分析模块标记可能匹配的过滤规则项目,并且根据用户提供的配置信 息,可以将分析结果送往精确关键字检测模块进行进一步的分析,也可以将分析结果送往 模糊关键字检测模块进行进一步的分析,检査其中的精确匹配规则或模糊匹配规则是否命 中;文本内容分析模块还可以将分析结果送往主题检测模块进行进一步的分析,检查其中 的主题过滤规则是否命中;精确关键字检测模块根据文本内容分析模块对被过滤文本所做的分析和检测的结果, 检查精确关键字过滤规则对应的匹配模式是否命中,据此判断精确关键字过滤规则是否命 中;模糊关键字检测模块根据文本内容分析模块对被过滤文本所做的分析和检测的结果, 检查模糊关键字过滤规则对应的匹配模式是否都命中,并且同时满足模糊关键字过滤规则 的约束条件,据此判断模糊关键字过滤规则是否命中;文本主题检测模块根据文本内容分析模块对被过滤文本所做的分析和检测的结果,以 及模糊关键字检模块的检测结果,判断主题过滤规则中的命中的子规则数占该主题所有子 规则数的比例是否超过预先指定的阀值,决定该主题是否命中。本专利技术的技术效果在于,在提供细粒度的精确关键字过滤支持、有限的模糊关键字过 滤支持和基于主题的粗粒度过滤支持的同时,通过分离重组三种过滤方式的文本内容扫描 前端,只需要对被过滤文本做一次全文扫描,而不需要像以往的分别应用三种方法所需要 的三次全文扫描,可以大大降低文本过滤所需处理时间。并且,本专利技术没有指定文本内容 扫描前端在具体实现中所采用的匹配算法,内容扫描和过滤操作分离的架构使得本专利技术可 以根据被过滤文本内容的特性,选择有针对性的优化内容匹配算法。另外,本专利技术中,对于每个过滤配置项目,用户都可以指定对应的优先级,表明用户 对该项目在被过滤文本中出现时的关注程度,实现不同级别的过滤处理操作。最后,本方 法中的主题过滤模块中还实现了基于关键字权值的检测。用户可以为每个主题中包含的各 个关键字条目分别指定对应的权值,表明该关键字在该主题中的重要性,使得本方法的灵 活性和适用性进一歩得到加强。附图说明图1是传统精确关键字匹配系统的框图。 图2是本专利技术的文本内容过滤系统的框图。图3是本专利技术实施例配置信息解析模块对有效过滤规则进行预处理的示意图,精确关 键字过滤规则、模糊关键字过滤规则和主题过滤规则最终都被解析,以内部的匹配模式表达。图4是本专利技术实施例的文本内容过滤系统的数据流图。具体实施方式以下将结合附图,通过一优选的实施例对本专利技术作出更详细的描述。本专利技术的输入是 待过滤的文本内容信息。输入信息可以来自任何网络信息承载设备,如网关、路由模块、 服务模块或个人计算机。这些网络信息设备上的数据流经过对应的预处理设备处理本文档来自技高网
...

【技术保护点】
一种文本内容过滤方法,包括步骤:1)解析用户配置信息,提取出其中的有效过滤规则;2)根据所述的有效过滤规则,对被过滤文本信息进行分析和检测;3)对步骤2)的分析结果进行精确关键字匹配检测,输出检测结果;4)对 步骤2)的分析结果进行模糊关键字匹配检测,输出检测结果;5)对步骤2)和4)的分析检测结果进行文本主题检测,确定被过滤文本内容的主题,输出检测结果。

【技术特征摘要】

【专利技术属性】
技术研发人员:应凌云苏璞睿冯登国
申请(专利权)人:中国科学院软件研究所
类型:发明
国别省市:11[中国|北京]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1