针对网页内容进行剪裁和过滤的方法技术

技术编号:7510356 阅读:230 留言:0更新日期:2012-07-11 12:39
本发明专利技术针对一般的网页内容,通过特定裁减和过滤的方法,提供符合特定标准的内容,并符合呈现的条件。

【技术实现步骤摘要】

本专利技术涉及一种在互联网使用过程中,属于计算机

技术介绍
随着互联网和手机产品的发展,越来越多的用户选择手机上网,使用手机上网方便,快捷,灵活。但在信息高速发展的时代,我们面临的又是信息爆炸问题,网络流量问题和访问速度问题,而手机又不具备普通PC机大屏幕,操作方便的优点,如果能在小屏幕手机上快速的获得所需信息,使用户能够清晰明了看到关注焦点,获得关键数据,就会达到事半功倍的效果。因此,我们采取对网页内容进行特定裁剪和过滤,屏蔽冗余内容,获得预定信息,有效快捷的对内容进行精准定位。
技术实现思路
本专利技术目的在于提供一种面向对互联网网页进行内容提取过滤的应用软件构件模型,按此方法提取的网页内容满足特定需求。网页内容的剪裁和过滤要依据原始数据,按照既定需求实现内容提取。在方法规划时,考虑提取内容的多变性、灵活些和易操作性,设计了用于网页内容分析提取的函数解释器,这些函数解释器被指定分担一些简单数据处理任务,并且由过滤部分完成特定的数据处理任务,将数据处理结果汇聚到输出语句;按照本专利技术的所构建的系统在运行时,它们按照数据规划接受查询、简单处理、输出等任务,将信息传回主控系统。显然现有软件构件模型不适用于对网络原始内容过滤提取的应用。在本专利技术中,考虑到网站内容的有效性和实时性的特点,提出了内容过滤器和规则解释器的处理模式。内容过滤器是运行在移动互联网中的任何一个网站之上,对网站内容进行内容选取的过滤器。该过滤器是根据此类应用场景所提出的需求,例如网络流量低,内容简洁清晰,硬件资源有限,可适用大多数网站等特点,实现了一种通过正文检索对原有网站内容进行实时选取、过滤和整合的技术方法。规则解释器是构成规则文件分析处理的执行单元,对预编译的规则文件执行解释输出,获得预定义的网页内容。规则解释器为规则解释应用程序提供了常量解释器,变量解释器,查询解释器,嵌套解释器,置换解释器, 提取解释器,循环解释器,校验解释器,字串拼合解释器,模板解释器,调用c程序解释器, 输出解释器等。每个函数解释器都有输入输出端子,执行一定的功能,得到预定内容。不仅有利于用户访问INTERNET时减少网络流量,减少信息冗余,对信息进行精准定位;同时也可对用户进行定制,针对不同类型用户,获取对应的关注内容。本专利技术适用于对网页内容实现剪裁和过滤,按本专利技术实现的系统能够满足完成频繁的内容提取和过滤这项重要需求,也能满足应用的多样性需求,对那些限制网络流量和要求数据精准定位的应用提供很好的支持。 附图说明图1用于说明裁剪和过滤处理系统。图2用于说明规则解释器处理系统。具体实施例方式本专利技术目的在于提供一种面向对互联网网页进行内容提取过滤的应用软件构件模型。按本专利技术提取的网页内容满足特定需求如降低网络流量和获取精准内容,其网页内容的有效性和充分性承担从一般网站到我们普通的互联网网站资源,总体上需要充分发挥有限资源利用率的最大化,还要保证响应内容的实时有效性等特点,同时也能满足应用的多样性需求,对那些没有实时性要求的应用或任务提供很好的支持。这样的需求无论是个人网站,还是商业网站都是不能满足需求。内容过滤是裁剪过滤的核心,是解决网站内容冗余、网络数据过多的关键。处理在进行内容过滤时执行内容过滤器和规则解释器外,在应用程序设计阶段增加了规则文件编写工作,就能将一个完整的网页数据分解为若干个小块数据流才能符合这种内容裁剪过滤的需求。内容过滤器是运行在移动互联网中的任何一个网站之上,基于规则解释器对网站内容进行内容选取、信息过滤、服务聚合等操作的过滤器器。该过滤器是根据此类应用场景所提出的需求,例如网络流量低,内容简洁清晰,硬件资源有限,可适用大多数网站等特点,实现了一种通过正文检索对原有网站内容进行实时选取、过滤和整合的技术方法。在内容过滤器系统中,通过规则解释器解释执行预定义地规则文件,实现对原有网页内容的分析,从而可以获得关键数据,减少信息冗余,快捷地获得预定内容,达到事半功倍的效果。在本专利技术中,考虑到网络资源数据虽具有多样性,但却保持标签一致性的特定,提出了规则解释器过滤模型。规则解释器是一个处理执行系统,是一个或一系列开放的规则执行过程,是本裁剪过滤方法的基本调度单位。规则解释器为应用程序提供了常量解释器, 变量解释器,查询解释器,嵌套解释器,置换解释器,提取解释器,循环解释器,校验解释器, 字串拼合解释器,模板解释器,调用c程序解释器,输出解释器等。每个函数解释器都有输入输出,执行一定的功能,得到预定内容。规则解释器执行处理了预定义的规则文件,所谓规则文件是由一系列规则解释语句组成,方便用于程序实现,它针对特定用户需求,对原始网页进行分析识别出符合特定需求的网页内容。下面结合相应的附图说明此方法实现的关键点。图1说明剪裁和过滤处理系统。通过网络传入原始数据,过滤器中规则文件进行解释,获取该网页所对应的规则函数,以原始数据为源,通过规则解释器对规则函数进行语句解析,获得既定内容。图2说明规则解释器处理系统。给出了规则解释器的工作处理过程,对规则文件进行分析,根据规则文件中的规则语句执行对应函数解释器,获得处理进行输出。工业应用性本专利技术可用于对网络内容进行裁剪过滤,按本专利技术实现的过滤系统满足对互联网网页的有效性和实时性的需求。 以上所述,仅为本专利技术的较佳实施例而已,并非用于限定本专利技术的保护范围。权利要求1.一种,其特征在于,其支持对特定于互联网网站的内容过滤和规则解释;内容过滤和规则解释是通过对预定义的一个或一系列的规则语句的执行过程,是该裁剪过滤的基本调度单位。2.如权利要求1所属的内容过滤器和规则解释器系统,其支持符合HTML和WML语法的内容过滤,翻译解释,通过对预定义的规则文件的执行处理,得到特定过滤、裁减内容,并将其进行呈现。全文摘要本专利技术针对一般的网页内容,通过特定裁减和过滤的方法,提供符合特定标准的内容,并符合呈现的条件。文档编号G06F17/30GK102567356SQ20101060005公开日2012年7月11日 申请日期2010年12月22日 优先权日2010年12月22日专利技术者奉旭辉, 张斌, 顾玉良 申请人:北京凯思昊鹏软件工程技术有限公司本文档来自技高网...

【技术保护点】

【技术特征摘要】

【专利技术属性】
技术研发人员:顾玉良张斌奉旭辉
申请(专利权)人:北京凯思昊鹏软件工程技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术