网页内容的自动筛选方法及装置制造方法及图纸

技术编号:11975208 阅读:102 留言:0更新日期:2015-08-31 01:09
本发明专利技术公开了一种网页内容的自动筛选方法及装置。其中,该方法包括:读取源数据库中的网页内容;根据预先设置的关键词字典和预先设置的筛选参数,对网页内容进行筛选,得到网页筛选结果;提取预先设置的标签信息字典;将标签信息字典中任意一种或多种类型的标签添加至网页筛选结果当中;根据网页筛选结果中添加的标签信息,对网页筛选结果执行与标签信息对应的功能处理,得到自动筛选后网页内容。本发明专利技术解决了现有技术中对每日更新的大量网页内容进行手动筛选,导致的过程冗杂效率低下的问题。

【技术实现步骤摘要】
【专利摘要】本专利技术公开了一种网页内容的自动筛选方法及装置。其中,该方法包括:读取源数据库中的网页内容;根据预先设置的关键词字典和预先设置的筛选参数,对网页内容进行筛选,得到网页筛选结果;提取预先设置的标签信息字典;将标签信息字典中任意一种或多种类型的标签添加至网页筛选结果当中;根据网页筛选结果中添加的标签信息,对网页筛选结果执行与标签信息对应的功能处理,得到自动筛选后网页内容。本专利技术解决了现有技术中对每日更新的大量网页内容进行手动筛选,导致的过程冗杂效率低下的问题。【专利说明】网页内容的自动筛选方法及装置
本专利技术涉及计算机领域,具体而言,涉及一种网页内容的自动筛选方法及装置。
技术介绍
目前,对于网页内容中的内容进行监控的舆论情报监测系统而言,虽然能够让用户对所需要的文本内容进行再筛选,以及可以对再筛选之后的文本内容进行操作(例如:分类操作,打标签操作等),可以很好的满足用户的多元化需求,但是存在一个问题:在网络上的网页内容是每日都进行更新的,并且每日更新的数据量巨大,就导致了用户如果需要持续监测最新的情况,在每次对更新的网页内容进行分析时,都需要从自己想要的分类维度去分析更新的网页内容,这就需要每天人为的手工对所有的文本内容进行筛选以及筛选之后的再操作,过程冗杂、麻烦。 针对现有技术中对每日更新的大量网页内容进行手动筛选导致的过程冗杂、效率低下的问题,目前尚未提出有效的解决方案。
技术实现思路
本专利技术的主要目的在于提供一种网页内容的自动筛选方法及装置,以解决现有技术中对每日更新的大量网页内容进行手动筛选,导致的过程冗杂效率低下的问题。 为了实现上述目的,根据本专利技术实施例的一个方面,提供了一种网页内容的自动筛选方法。该方法包括:读取源数据库中的网页内容;根据预先设置的关键词字典和预先设置的筛选参数,对网页内容进行筛选,得到网页筛选结果;提取预先设置的标签信息字典;将标签信息字典中任意一种或多种类型的标签添加至网页筛选结果当中;根据网页筛选结果中添加的标签信息,对网页筛选结果执行与标签信息对应的功能处理,得到自动筛选后网页内容。 为了实现上述目的,根据本专利技术实施例的另一方面,提供了一种网页内容的自动筛选装置,该装置包括第一读取模块,用于读取源数据库中的网页内容;筛选模块,用于根据预先设置的关键词字典和预先设置的筛选参数,对网页内容进行筛选,得到网页筛选结果;提取模块,用于提取预先设置的标签信息字典;第一处理模块,用于根据网页筛选结果中的网页内容,将标签信息字典中任意一种或多种类型的标签添加至网页筛选结果当中;第二处理模块,用于根据网页筛选结果中添加的标签信息,对网页筛选结果执行与标签信息对应的功能处理,得到自动筛选后网页内容。 根据专利技术实施例,通过读取源数据库中的网页内容;根据预先设置的关键词字典和预先设置的筛选参数,对网页内容进行筛选,得到网页筛选结果;提取预先设置的标签信息字典;将标签信息字典中任意一种或多种类型的标签添加至网页筛选结果当中;根据网页筛选结果中添加的标签信息,对网页筛选结果执行与标签信息对应的功能处理,得到自动筛选后网页内容,解决了现有技术中对每日更新的大量网页内容进行手动筛选,导致的过程冗杂效率低下的问题。实现了自动对网页进行筛选,并根据网页内容对网页进行处理的效果。 【专利附图】【附图说明】 构成本申请的一部分的附图用来提供对本专利技术的进一步理解,本专利技术的示意性实施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定。在附图中: 图1是根据本专利技术实施例一的网页内容的自动筛选方法的流程图; 图2是根据本专利技术实施例一优选的网页内容的自动筛选方法的流程图; 图3是根据本专利技术实施例二的网页内容的自动筛选装置的结构示意图;以及 图4是根据本专利技术实施例二优选的网页内容的自动筛选装置的结构示意图。 【具体实施方式】 需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本专利技术。 为了使本
的人员更好地理解本专利技术方案,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分的实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本专利技术保护的范围。 需要说明的是,本专利技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本专利技术的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。 实施例1 本专利技术实施例提供了一种网页内容的自动筛选方法。 图1是根据本专利技术实施例的网页内容的自动筛选方法的流程图。如图1所示,该方法包括步骤如下: 步骤311,读取源数据库中的网页内容。 具体的,通过上述步骤311,对源数据库中存储的网页内容进行读取。其中,源数据库用于存储定期更新的网页内容。 步骤313,根据预先设置的关键词字典和预先设置的筛选参数,对网页内容进行筛选,得到网页筛选结果。 具体的,通过上述步骤313,对从源数据库中读取得到的网页内容进行筛选。其中,对网页内容进行筛选方法可以先根据预先设置的关键词字典对网页内容进行筛选,然后对筛选结果通过预先设定的筛选参数进行筛选,得到网页筛选结果。 步骤315,提取预先设置的标签信息字典。 具体的,通过上述步骤315,将为网页内容预先设定好的标签信息字典进行提取,获得用于对网页进行标识的标签信息字典。 步骤317,根据网页筛选结果中的网页内容,将标签信息字典中与网页内容匹配的任意一种或多种类型的标签添加至网页筛选结果当中。 具体的,通过上述步骤317,将网页筛选结果的内容与标签信息字典中的标签进行匹配,通过匹配获得与网页筛选结果的内容匹配的一种或多种类型中的一个或多个标签。在标签信息字典中,包括了若干个不同类型的标签信息。 步骤319,根据网页筛选结果中添加的标签信息,对网页筛选结果执行与标签信息对应的功能处理,得到自动筛选后网页内容。 具体的,通过上述步骤319,针对与网页筛选结果相应的一种或多种类型的标签信息,调用与标签类型相应的功能函数对该网页筛选结果中的网页内容进行处理,从而实现对网页筛选结果的自动筛选的功能。 通过步骤311至步骤319,对源数据库中的网页内容进行读取之后,先根据关键词字典和预先设置的筛选参数,对网页内容进行筛选。得到包含关键词字典中的一个或者多个关键词的网页内容,并且,进一步根据筛选参数对网页内容进行筛选,得到符合筛选参数中一个或者多个筛选条件的网页内容,从而得到网页筛选结果。在网页筛选结果的基础上,进一步根据标签信息字典对网页筛选结果进行识别。当网页筛选结果中某个网页内容与标签信息字典中的一种或者多种标签类型相匹配时,为本文档来自技高网
...

【技术保护点】
一种网页内容的自动筛选方法,其特征在于,包括:读取源数据库中的网页内容;根据预先设置的关键词字典和预先设置的筛选参数,对所述网页内容进行筛选,得到网页筛选结果;提取预先设置的标签信息字典;根据所述网页筛选结果中的网页内容,将所述标签信息字典中与所述网页内容匹配的任意一种或多种类型的标签添加至所述网页筛选结果当中;根据所述网页筛选结果中添加的标签信息,对所述网页筛选结果执行与所述标签信息对应的功能处理,得到自动筛选后网页内容。

【技术特征摘要】

【专利技术属性】
技术研发人员:陈俊宏余德乐杨韬赵冬玲
申请(专利权)人:北京国双科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1