【技术实现步骤摘要】
一种基于网页链接的网页信息解析方法
[0001]本专利技术属于网页信息解析
,具体涉及一种基于网页链接的网页信息解析方法。
技术介绍
[0002]在网上冲浪过程中,用户在输入网页链接后,在网页链接可访问的基础上,可直接进行网页的访问,然后解析出网页包含的一些基本信息,以返回给用户进行使用;目前,市场上进行网页解析的主要的产品有:HtmlParse、BeautifulSoup、Cl icky、Piwik、ShinyStat、SeeVolution和StatCounter等,其中,网页解析可以在客户端,也可以在服务端侧进行,运行在客户端时,不依赖于服务器的运行,但是不能提供更多的扩展服务,比如解析缓存、性能加速等,而运行在服务端时,则可以使用所有功能。
[0003]网页解析时,需要考虑以下几点:采集数据的完整性、采集数据的稳定性、采集数据的速度、采集数据突破网站封锁的能力和网页解析智能性,其中,数据的完整性,保证了返回给用户的是完整而有效的信息;稳定性和速度,保证了用户的使用体验;而突破网站封锁的能力,以及网页智能 ...
【技术保护点】
【技术特征摘要】
1.一种基于网页链接的网页信息解析方法,其特征在于,包括:接收用户终端发送的网页链接,并访问所述网页链接,得到HTML网页内容;基于所述HTML网页内容,并利用多种网页解析算法,构建出所述网页链接的多种DOM树,其中,每种网页解析算法分别对应一DOM树;对每种DOM树中的每个节点进行解析处理,得到每种DOM树中每个节点的解析结果,并对多种DOM树中的同一节点的解析结果进行汇总处理,以在将多种DOM树中的所有同一节点的解析结果均汇总处理后,得到网页链接的网页解析结果,其中,任一DOM树中的任一节点的解析结果包括标题、图标、节点关键字、节点描述和/或节点内容,且节点内容包括多媒体内容;将所述网页解析结果发送至所述用户终端,以便在发送后,完成所述网页链接的信息解析。2.根据权利要求1所述的方法,其特征在于,基于所述HTML网页内容,并利用多种网页解析算法,构建出所述网页链接的多种DOM树,包括:采用DOM解析算法、JDOM解析算法和DOM4J解析算法,分别对所述HTML网页内容进行节点树构建处理,以构建出所述网页链接基于所述DOM解析算法对应的DOM树、所述网页链接基于所述JDOM解析算法对应的DOM树以及所述网页链接基于所述DOM4J解析算法对应的DOM树。3.根据权利要求1所述的方法,其特征在于,对每种DOM树中的每个节点进行解析处理,得到每种DOM树中每个节点的解析结果,包括:获取多种HTML版本标准规范;对于任一DOM树的任一节点,按照每种HTML版本标准规范,对所述任一节点进行解析处理,得到所述任一节点在每种HTML版本标准规范下的预解析结果;对所述任一节点在每种HTML版本标准规范下的预解析结果进行融合处理,得到所述任一节点的解析结果。4.根据权利要求3所述的方法,其特征在于,若所述任一节点在每种HTML版本标准规范下的预解析结果均为解析失败,则所述方法还包括:将所述任一节点的节点内容处理为字符串,并将所述字符串作为该任一节点的解析结果。5.根据权利要求1所述的方法,其特征在于,所述方法还包括:判断所述网页解析结果中是否包含有多媒体信息;若是,则判断所述多媒体信息的容量是否小...
【专利技术属性】
技术研发人员:李铭,熊学武,韦利东,
申请(专利权)人:上海泛微软件有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。