一种基于内容块标识处理网页内容的方法与设备技术

技术编号:8765486 阅读:142 留言:0更新日期:2013-06-07 22:42
本发明专利技术的目的是提供一种基于内容块标识处理网页内容的方法与设备。首先,获取待处理的原始网页;接着,从所述原始网页的标记语言文件中提取块标识信息,其中,所述块标识信息用于标识所述标记语言文件中的各内容块;随后,根据所述块标识信息,在处理规则库中进行匹配查询,以获得与该块标识信息相对应的内容块处理规则;随后,根据所述内容块处理规则,对该块标识信息所标识的内容块进行相应的处理,以获得目标网页。与现有技术相比,本发明专利技术实现快速地对页面内容进行处理;由此提高页面转换效率与质量,从而提升用户使用体验,同时由于页面的标记语言文件中仅需包括块标识信息而无需包括相应的处理规则,由此减轻网站进行网页维护的负担。

【技术实现步骤摘要】
一种基于内容块标识处理网页内容的方法与设备
本专利技术涉及互联网
,尤其涉及一种基于内容块标识处理网页内容的技术。
技术介绍
现有技术在进行网页内容处理时,例如,将在台式计算机上显示的网页转换为适于在移动终端上显示的网页时,通常从解析后的互联网网页中提取主题内容,并根据提取的主题内容生成新的网页,以实现将适合于台式计算机展示的原始网页转换为适合于移动设备展示的目标网页,但利用该方法进行网页转换的效率较低,处理的时间成本高,从而影响来自移动终端用户的页面访问请求的响应速度,降低用户体验。因此,如何有效地实现快速地对页面内容进行处理,成为目前亟待解决的问题之一。
技术实现思路
本专利技术的目的是提供一种基于内容块标识处理网页内容的方法与设备。根据本专利技术的一个方面,提供了一种计算机实现的基于内容块标识处理网页内容的方法,该方法包括以下步骤:a获取待处理的原始网页;b从所述原始网页的标记语言文件中提取块标识信息,其中,所述块标识信息用于标识所述标记语言文件中的各内容块;c根据所述块标识信息,在处理规则库中进行匹配查询,以获得与该块标识信息相对应的内容块处理规则;d根据所述内容块处理规则,对该块标识信息所标识的内容块进行相应的处理,以获得目标网页。根据本专利技术的另一方面,还提供了一种基于内容块标识处理网页内容的设备,该设备包括:原始网页获取装置,用于获取待处理的原始网页;标识信息提取装置,用于从所述原始网页的标记语言文件中提取块标识信息,其中,所述块标识信息用于标识所述标记语言文件中的各内容块;处理规则获取装置,用于根据所述块标识信息,在处理规则库中进行匹配查询,以获得与该块标识信息相对应的内容块处理规则;目标网页获取装置,用于根据所述内容块处理规则,对该块标识信息所标识的内容块进行相应的处理,以获得目标网页。与现有技术相比,本专利技术根据所获取原始网页的标记语言文件,如HTML、XHTML文件,的各内容块相对应的块标识信息,在处理规则库中进行匹配查询以获得与该块标识信息相对应的内容块处理规则,进而对各内容块进行相应的诸如折叠、删除、格式化等处理,从而实现快速地对页面内容进行处理;由此提高页面转换效率与质量,从而提升用户使用体验,同时由于页面的标记语言文件中仅需包括块标识信息而无需包括相应的处理规则,由此减轻网站进行网页维护的负担。附图说明通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本专利技术的其它特征、目的和优点将会变得更明显:图1示出根据本专利技术一个方面的基于内容块标识处理网页内容的设备示意图;图2示出根据本专利技术一个优选实施例的基于内容块标识处理网页内容的设备示意图;图3示出根据本专利技术另一个方面的基于内容块标识处理网页内容的方法流程图;图4示出根据本专利技术一个优选实施例的基于内容块标识处理网页内容的方法流程图。附图中相同或相似的附图标记代表相同或相似的部件。具体实施方式下面结合附图对本专利技术作进一步详细描述。图1示出根据本专利技术一个方面基于内容块标识处理网页内容的设备示意图。其中,处理设备1包括原始网页获取装置11、标识信息提取装置12、处理规则获取装置13和目标网页获取装置14。在此,处理设备1可为网络设备,包括但不限于计算机、网络主机、单个网络服务器、多个网络服务器集或多个服务器构成的云,在此,云由基于云计算(CloudComputing)的大量计算机或网络服务器构成,其中,云计算是分布式计算的一种,由一群松散耦合的计算机集组成的一个超级虚拟计算机;处理设备1也可为移动终端,所述移动终端意指可以在移动中使用的计算机设备,包括但不限于手机、笔记本、POS机、车载电脑等,其显示屏尺寸通常远远小于台式电脑的显示器尺寸。以下参照图1来对处理设备1处理网页内容的过程进行详细描述:具体地,原始网页获取装置11获取待处理的原始网页。在此,所述获取待处理的原始网页的方式包括但不限于以下情形:1)根据来自移动终端的页面访问请求,从该页面访问请求中的统一资源定位符(URL)所指向的网站服务器处获取相应的原始网页;在一示例中,首先,用户借助移动终端的交互装置,包括但不限于键盘、鼠标、遥控器、触摸板、或手写设备,与移动终端的浏览器软件或客户端软件进行交互,以键盘为例,用户在移动终端的浏览器软件的地址栏输入框中进行输入时,该移动终端实时地获取用户输入的按键序列,例如用户输入的一条统一资源定位符(URL),并记录为与该用户输入操作相对应的页面访问请求,其中,该页面访问请求中包括该URL,然后将该页面访问请求通过约定的通信方式发送至处理设备1;接着,原始网页获取装置11实时地接收该页面访问请求,并从中提取页面URL,并向该URL所指向网页所在的网络服务器发送获取该网页的请求,例如,可将其封装为一请求消息,如http请求消息,并通过相应的通信协议,如http、https通信协议,发送至该网络服务器;接着,原始网页获取装置11接收该网络服务器响应于该请求而反馈的网页,并将该网页作为所述待处理的原始网页。2)从第三方设备获取待处理的原始网页。在另一示例中,处理设备1为网络设备。原始网页获取装置11根据第三方设备提供的应用编程接口(API),受预定条件或事件触发地、或定期地向该第三方设备发送接收待处理的原始网页的请求消息,并接收该第三方设备响应于该请求消息返回的待处理的原始网页;或第三方设备主动向处理设备1推送待处理的原始网页,原始网页获取装置11接收该待处理的原始网页。本领域技术人员应能理解上述获取待处理的原始网页的方式仅为举例,其他现有的或今后可能出现的获取待处理的原始网页的方式如可适用于本专利技术,也应包含在本专利技术保护范围以内,并以引用方式包含于此。接着,标识信息提取装置12从原始网页获取装置11获取的原始网页的标记语言文件中例如利用字符串匹配等方式提取块标识信息,其中,所述块标识信息用于标识所述标记语言文件中的各内容块。在此,所述标记语言文件包括但不限于:1)HTML(超文本标记语言)文件,其是用于描述网页文档的一种标准通用标记语言;2)XML(可扩展标记语言)文件,其是一种简单的用于数据存储的标准通用标记语言;3)XHTML(可扩展超文本标记语言)文件,其是一种基于XML的具有严格语法的标记语言;4)WML(无线标记语言)文件,其是用于创建可显示在WAP浏览器中的页面的一种描述性标记语言。本领域技术人员应能理解上述标记语言文件仅为举例,其他现有的或今后可能出现的标记语言文件如可适用于本专利技术,也应包含在本专利技术保护范围以内,并以引用方式包含于此。在此,所述块标识信息包括但不限于标识名称、标识ID等;其中,标识名称的命名可根据其标识的内容块的类型,如标题、导航、正文、图片、内嵌对象(如Javaapplet、ActiveX、Flash)等。在此,所述内容块意为标记语言文件中的由一个或多个标签组成的内容区域,其与网页中显示的特定内容相对应,如,标题内容块、正文内容块、导航内容块、图片内容块、内嵌对象(如Javaapplet、ActiveX、Flash)块等。在此,所述块标识信息在标记语言文件中的存储方式包括但不限于:1)标记语言文件中的注释;例如,利用JSON格式,标识信息可存储于HTML文件注释中,如<!--tcblock_本文档来自技高网...
一种基于内容块标识处理网页内容的方法与设备

【技术保护点】
一种计算机实现的基于内容块标识处理网页内容的方法,其中,该方法包括以下步骤:a获取待处理的原始网页;b从所述原始网页的标记语言文件中提取块标识信息,其中,所述块标识信息用于标识所述标记语言文件中的各内容块;c根据所述块标识信息,在处理规则库中进行匹配查询,以获得与该块标识信息相对应的内容块处理规则;d根据所述内容块处理规则,对该块标识信息所标识的内容块进行相应的处理,以获得目标网页。

【技术特征摘要】
1.一种计算机实现的基于内容块标识处理网页内容的方法,其中,该方法包括以下步骤:a获取待处理的原始网页;b从所述原始网页的标记语言文件中提取块标识信息,其中,所述块标识信息用于标识所述标记语言文件中的各内容块;c根据所述块标识信息,在处理规则库中进行匹配查询,以获得与该块标识信息相对应的内容块处理规则;d根据所述内容块处理规则,对该块标识信息所标识的内容块进行相应的处理,以获得目标网页;其中,所述步骤c包括:-根据所述块标识信息和所述原始网页所属网站的标识信息,在处理规则库中进行匹配查询,以获得所述内容块处理规则;-当未从所述处理规则库获得所述内容块处理规则时,根据所述块标识信息所标识的内容块的内容相关信息,确定所述内容块处理规则;其中,所述内容相关信息包括以下至少任一项:-所述内容块的内容在所述原始网页中的位置信息;-所述内容块的内容所包含的文字字符数量;-所述内容块所包含的标签信息。2.根据权利要求1所述的方法,其中,所述内容块处理规则包括以下至少任一项:-对所述内容块中的内容进行格式化;-对所述内容块进行展示;-对所述内容块进行删除;-对所述内容块进行折叠。3.根据权利要求1所述的方法,其中,该方法还包括:-根据新确定的内容块处理规则,建立或更新所述处理规则库。4.根据权利要求1至3中任一项所述的方法,其中,所述步骤a包括:-根据用户通过移动终端输入的页面访问请求,获取所述原始网页;其中,该方法还包括:-将所述目标网页提供给所述用户。5.根据权利要求4所述的方法,其中,该方法还包括:-获取所述移动终端的显示参数信息;-根据所述显示参数信息对所述内容块处理规则进行优化,以获得优选内容块处理规则;其中,所述步骤d包括:-根据所述优选内容块处理规则,对所述内容块进行相应的处理,以获得所述目标网页。6.根据权利要求1所述的方法,其中,所述块标识信息在所述标记语言文件中的存储方式包括以下至少任一项:-所述标记语言文件中的注释;-所述标记语言文件中的定制标签;-所述标记语言文件中的标签属性。7.根据权利要求1所述的方法,其中,所述标记语言文件包括以下至少任一项:-HTML文件;-XML文件;-XHTML文件;-WML文件。8.一种基于内容块标识处理网页内容的设备,其中,该设备包括:原始网页获取...

【专利技术属性】
技术研发人员:钱海祥辛昕
申请(专利权)人:百度在线网络技术北京有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1