一种用于处理网页内容的方法和设备技术

技术编号:7047580 阅读:182 留言:0更新日期:2012-04-11 18:40
本发明专利技术的目的是提供一种用于处理网页内容的方法和设备,其中,本发明专利技术根据待处理的网页的相关信息,在特征文本库中进行匹配查询,以获得与所述网页相对应的特征文本,进而用于将所述特征文本在与所述网页相对应的DOM树的各节点中进行匹配查询,以获得包含所述特征文本的特征文本节点,从而根据所述特征文本节点中的特征节点内容,生成与所述网页相对应的新网页。与现有技术相比,本发明专利技术将网页中的特征文本在网页的DOM树中进行匹配查询,以提取包含特征文本的特征文本节点的内容,进而生成新的网页,其对于具有特定内容和结构特征的网页的处理效率高,同时,可对网页内容进行重新布局以满足用户的浏览需求,进而提升用户体验。

【技术实现步骤摘要】

本专利技术涉及互联网技术,尤其涉及用于处理网页内容的技术。
技术介绍
随着移动互联网技术的快速发展,越来越多的用户通过移动终端,如智能手机等, 访问互联网网页,但因移动终端的屏幕尺寸的限制,当在计算机中浏览的超文本标记语言 (HTML)网页在移动终端的屏幕上显示时,现有技术通常利用关键字在该网页的HTML文件中进行匹配查询以获得目标网页内容,并根据约定的规则对该目标网页内容保留或删除, 但所述方法对于具有特定内容和结构特征的网页,如论坛页、问答页等,的处理效率偏低, 处理的时间成本高,同时,由于其基于原有的网页对网页内容进行处理,不能对网页内容进行重新布局,因此不能很好满足用户的浏览需求,从而降低用户体验。因此,如何实现有效地对网页内容进行处理,成为目前亟待解决的问题之一。
技术实现思路
本专利技术的目的是提供一种用于处理网页内容的方法和设备。根据本专利技术的一个方面,提供一种计算机实现的用于处理网页内容的方法a获取待处理的网页;b根据所述网页的相关信息,在特征文本库中进行匹配查询,以获得与所述网页相对应的特征文本;c将所述特征文本在与所述网页相对应的DOM树的各节点中进行匹配查询,以获得包含所述特征文本的特征文本节点;d根据所述特征文本节点中的特征节点内容,生成与所述网页相对应的新网页。根据本专利技术的另一个方面,还提供了一种用于处理网页内容的设备,该设备包括网页获取装置,用于获取待处理的网页;特征文本获取装置,用于根据所述网页的相关信息,在特征文本库中进行匹配查询,以获得与所述网页相对应的特征文本;节点获取装置,用于将所述特征文本在与所述网页相对应的DOM树的各节点中进行匹配查询,以获得包含所述特征文本的特征文本节点;网页生成装置,用于根据所述特征文本节点中的特征节点内容,生成与所述网页相对应的新网页。与现有技术相比,本专利技术将网页中的特征文本在网页的DOM树中进行匹配查询, 以提取包含特征文本的特征文本节点的内容,进而生成新的网页,其对于具有特定内容和结构特征的网页的处理效率高,同时,可对网页内容进行重新布局以满足用户的浏览需求, 进而提升用户体验。附图说明通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本专利技术的其它特征、目的和优点将会变得更明显图1示出根据本专利技术一个方面用于处理网页内容的设备示意图;图2示出根据本专利技术一个用于处理网页内容的示例图;图3示出根据本专利技术另一用于处理网页内容的示例图;图4示出根据本专利技术一个优选实施例的用于处理网页内容的设备示意图;图5示出根据本专利技术另一个优选实施例的用于处理网页内容的设备示意图;图6示出根据本专利技术另一个方面用于处理网页内容的方法流程图;图7示出根据本专利技术一个优选实施例的用于处理网页内容的方法流程图;图8示出根据本专利技术另一优选实施例的用于处理网页内容的方法流程图。附图中相同或相似的附图标记代表相同或相似的部件。具体实施例方式下面结合附图对本专利技术作进一步详细描述。图1示出根据本专利技术一个方面用于处理网页内容的设备示意图。处理设备1包括网页获取装置11、特征文本获取装置12、节点获取装置13和网页生成装置14。在此,处理设备1包括但不限于计算机、网络主机、单个网络服务器、多个网络服务器集或多个服务器构成的云,在此,云由基于云计算(Cloud Computing)的大量计算机或网络服务器构成,其中,云计算是分布式计算的一种,由一群松散耦合的计算机集组成的一个超级虚拟计算机。如图1所示,首先,网页获取装置11获取待处理的网页。具体地,网页获取装置11应事件触发实时地、或定期地从第三方设备中获取待处理的网页。在一示例中,网页获取装置11根据第三方设备提供的应用编程接口(API),应事件触发实时地、或定期地向该第三方设备发送接收待处理的网页的请求消息,并接收该第三方设备响应于该请求消息返回的一个或多个待处理的网页;或第三方设备主动向处理设备1推送待处理的网页,网页获取装置11接收该(等)待处理的网页。本领域技术人员应能理解上述获取待处理的网页的方式仅为举例,其他现有的或今后可能出现的获取待处理的网页的方式如可适用于本专利技术,也应包含在本专利技术保护范围以内,并以引用方式包含于此。接着,特征文本获取装置12根据网页获取装置11获取的待处理的网页的相关信息,在特征文本库中进行匹配查询,以获得与所述网页相对应的特征文本。具体地,特征文本获取装置12根据网页获取装置11获取的待处理的网页的相关信息,在特征文本库中进行匹配查询,以获得与该待处理的网页相对应的特征文本。其中,所述网页的相关信息包括但不限于以下至少任一项1)所述网页的网络地址,如网页的URL ;2)所述网页所属网站的网络地址。例如,特征文本获取装置12从网页的URL中提取其所属网站的域名或IP地址,以作为该网站的网络地址。3)所述网页所属网站的网站类型。其中,所述网站类型包括但不限于论坛网站、问答网站、购物网站等。例如,特征文本获取装置12根据网页所属网站的网络地址,在网页数据库中进行匹配查询,以获得该网页所属网站的网站类型。在此,所述网页数据库中包含网站的网络地址及其相应的网站类型。本领域技术人员应能理解上述网页的相关信息仅为举例,其他现有的或今后可能出现的网页的相关信息如可适用于本专利技术,也应包含在本专利技术保护范围以内,并以引用方式包含于此。其中,所述特征文本意指用于标注网页中特定内容的文本。例如问答网页中的特征文本可为“最佳答案”、“其他回答”。又例如,购物网页中的特征文本“商品”、“价格”、“评价”等。其中,所述特征文本库中存储的内容包括但不限于1)网页所属网站的网站类型所对应的特征文本。例如,论坛网站的特征文本包括但不限于“发帖人”、“发布时间”。2)网页所属网站所对应的特征文本。例如,同一类型网站的特征文本会不同,在博客网站A中标注博文作者的特征文本为“博主”,而在博客网站B中标注博文作者的特征文本为“发布者”。3)网页所对应的特征文本。在一示例中,特征文本获取装置12根据网页获取装置11获取的待处理的网页的 URL http://bbs. life. abc. com. cn/12/thread-289319-l-l. html,提取该网页所属网站的域名lbs. life. abc. com. cn”,并据此在网页数据库中进行匹配查询,获得该网页所属网站的网站类型为论坛网站,并根据该网站类型,在特征文本库中进行匹配查询,以获得与论坛网站所对应的特征文本为“发帖人”、“发布时间”等,并将该等特征文本作为与该网页相对应的特征文本。在另一示例中,特征文本获取装置12根据网页获取装置11获取的待处理的网页的 URL http://sportshirts. com. cn/ll/thread-226319-l-L html,提取该网页所属网站的域名“sportshirts. com. cn”作为该网页所属网站的网络地址,并根据该网站的网络地址,在特征文本库中进行匹配查询,获得与该网络地址所对应的特征文本为“商品名称”、“价格”、“评价”等,并将该等特征文本作为与该网页相对应的特征文本。本领域技术人员应能理解上述获取特征文本的方式仅为举例,其他现有的或今后可能出现的获取特征文本的方式如可适用于本专利技术,也应包含在本专利技术本文档来自技高网...

【技术保护点】
1.一种计算机实现的用于处理网页内容的方法,其中,该方法包括以下步骤:a获取待处理的网页;b根据所述网页的相关信息,在特征文本库中进行匹配查询,以获得与所述网页相对应的特征文本;c将所述特征文本在与所述网页相对应的DOM树的各节点中进行匹配查询,以获得包含所述特征文本的特征文本节点;d根据所述特征文本节点中的特征节点内容,生成与所述网页相对应的新网页。

【技术特征摘要】
1.一种计算机实现的用于处理网页内容的方法,其中,该方法包括以下步骤 a获取待处理的网页;b根据所述网页的相关信息,在特征文本库中进行匹配查询,以获得与所述网页相对应的特征文本;c将所述特征文本在与所述网页相对应的DOM树的各节点中进行匹配查询,以获得包含所述特征文本的特征文本节点;d根据所述特征文本节点中的特征节点内容,生成与所述网页相对应的新网页。2.根据权利要求1所述的方法,其中,所述网页的相关信息包括以下至少任一项 -所述网页的网络地址;-所述网页所属网站的网络地址; -所述网页所属网站的网站类型。3.根据权利要求1或2所述的方法,其中,所述步骤b包括-根据所述网页的相关信息,在所述特征文本库中进行匹配查询,以获得多个备选特征文本;-根据用户相关信息,对所述多个备选特征文本进行过滤,以获得所述特征文本。4.根据权利要求3所述的方法,其中,所述用户相关信息包括以下至少任一项 -用户偏好;-用户历史访问记录; -移动终端的IP地址。5.根据权利要求1或2所述的方法,其中,所述步骤d包括-根据所述特征文本节点及其相关节点中的特征节点内容,生成所述新网页。6.根据权利要求3所述的方法,其中,所述相关节点包括以下至少任一项 -所述特征文本节点在所述DOM树中的子树节点;-所述特征文本节点在所述DOM树中的相邻兄弟节点及其子树节点。7.根据权利要求1至6中任一项所述的方法,其中,所述步骤d包括-根据所述特征节点内容,并基于与所述网页所属的网站相对应网页模板,生成所述新网页。8.根据权利要求1至7中任一项所述的方法,其中,所述步骤d包括 -对所述特征节点内容进行预处理,以获得预处理节点内容;-根据所述预处理节点内容,生成所述新网页。9.根据权利要求8所述的方法,其中,所述预处理包括以下至少任一项 -对所述特征节点内容进行排序;-对所述特征节点内容进行过滤。10.根据权利要求1至9中任一项所述的方法,其中,该方法还包括 -获取用户通过移动终端输入的页面访问请求;其中,所述步骤a包括-根据所述页面访问请求,获取所述网页;其中,该方法还包括-将所述新网页提供给所述用户。11.一种用于处理网页内容的设备,其中,该设备包括 网页获取装置,用于获取待处理的网页;特征文本获取装置...

【专利技术属性】
技术研发人员:张建荣薛晶晶李伟刚秦玄铮黄胤人
申请(专利权)人:百度在线网络技术北京有限公司
类型:发明
国别省市:11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1