一种有效网页内容的抓取方法及装置制造方法及图纸

技术编号：6960590 阅读：326 留言：0更新日期：2012-04-11 18:40

本发明专利技术公开了一种有效网页内容的抓取方法及装置，所述方法包括以下步骤：步骤S1：导入超文本链接标示语言HTML网页；步骤S2：将所述HTML网页转换成相应的文档树结构；步骤S3：根据所述文档树结构找出有效内容的标题标签，将找出的标题标签内的文本内容作为标题；步骤S4：在所述文档树结构的标签中，按照与所述标题标签由小到大的标签距离依次查找文本标签，将包含有与正文有关的特定字符并具有大于预定长度的文本长度的文本标签作为正文文本标签，然后将所述正文文本标签的文本内容作为正文。本发明专利技术能够简单、方便地实现对通用的HTML结构网页进行有效信息的抽取。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及互联网信息处理领域，尤其涉及一种有效网页内容的抓取方法及装置。
技术介绍
目前互联网上存有目前人类所知的最大的信息库，其中绝大部分信息都是以 HTML (Hyper Text Mark-up Lanugage，超文本链接标记语言)格式网页存在。HTML被用来结构化信息——例如标题、段落和列表，能够丰富的表现文本，图片以及其他多媒体信息。结合HTML阅读工具“浏览器”人们能够很方便地查看在HTML结构中的信息。但是从信息记录方面，HTML网页包含了大量的用来结构化信息的标签，同时网页中可能包含很多无用的信息。并且，随着各种移动终端的蓬勃发展，移动终端对上网的需求越来越高，若直接通过移动终端访问HTML页面时，由于移动终端设备本身的性能限制，会使每次访问HTML的连接时间较长，速度较慢，并且由于大量无用信息的存在会导致数据传输流量较大，使用户获取网页的时间和费用都会较高，因而如何把有用信息从HTML格式网页中准确快速地抽取出来对移动终端设备来说变得非常重要。目前的文本信息抽取技术只能通过HTML标签信息对特定HTML标签内的内容进行获取，针对于目标处理网页需要事先考察网页HTML标签结构，事先定制抽取模板。而对于事先无法获知HTML结构的网页，文本信息抽取将无法进行。
技术实现思路
为了解决上述问题，本专利技术主要目的是提供一种有效网页内容的抓取方法及装置，使其能够简单、方便地实现对通用HTML结构的网页进行有效信息的抽取。为了实现上述目的，本专利技术提供了一种有效网页内容的抓取方法，所述方法包括以下步骤步骤Sl 导入超文本标示语言HTML网页；...

【技术保护点】
１．一种有效网页内容的抓取方法，其特征在于，所述方法包括以下步骤：步骤Ｓ１：导入超文本链接标示语言ＨＴＭＬ网页；步骤Ｓ２：将所述ＨＴＭＬ网页转换成相应的文档树结构；步骤Ｓ３：根据所述文档树结构找出有效内容的标题标签，将找出的标题标签内的文本内容作为标题；步骤Ｓ４：在所述文档树结构的（ｂｏｄｙ）标签中，按照与所述标题标签由小到大的标签距离依次查找文本标签，将包含有与正文有关的特定字符并具有大于预定长度的文本长度的文本标签作为正文文本标签，然后将所述正文文本标签的文本内容作为正文。

【技术特征摘要】

【专利技术属性】
技术研发人员：贾海禄，
申请(专利权)人：北京迅捷英翔网络科技有限公司，
类型：发明
国别省市：11

全部详细技术资料下载我是这个专利的主人