一种基于网页链接的网页信息解析方法技术

技术编号:37292362 阅读:26 留言:0更新日期:2023-04-21 03:23
本发明专利技术公开了一种基于网页链接的网页信息解析方法,本发明专利技术采用多种网页解析算法同时对网页链接对应的HTML内容进行网页解析,并对不同网页解析算法对应的解析结果进行汇总分析,如此,可保证解析的全面性,从而得到完整的网页信息,同时,本发明专利技术得到的解析结果包含有多媒体资源,并可直接生成下载链接,基于此,可为多媒体资源的下载提供接口,提高了使用的便捷性;更进一步的,采用多种HTML版本标准规范进行网页解析,实现了不同HTML版本的兼容性,并同时配合异常处理机制,提高了整个解析过程的容错性;另外,本发明专利技术支持用户自定义解析规则的设置,可满足定制化使用场景;由此,本发明专利技术解决了传统技术所存在的弊端,适用于大规模应用与推广。用与推广。用与推广。

【技术实现步骤摘要】
一种基于网页链接的网页信息解析方法


[0001]本专利技术属于网页信息解析
,具体涉及一种基于网页链接的网页信息解析方法。

技术介绍

[0002]在网上冲浪过程中,用户在输入网页链接后,在网页链接可访问的基础上,可直接进行网页的访问,然后解析出网页包含的一些基本信息,以返回给用户进行使用;目前,市场上进行网页解析的主要的产品有:HtmlParse、BeautifulSoup、Cl icky、Piwik、ShinyStat、SeeVolution和StatCounter等,其中,网页解析可以在客户端,也可以在服务端侧进行,运行在客户端时,不依赖于服务器的运行,但是不能提供更多的扩展服务,比如解析缓存、性能加速等,而运行在服务端时,则可以使用所有功能。
[0003]网页解析时,需要考虑以下几点:采集数据的完整性、采集数据的稳定性、采集数据的速度、采集数据突破网站封锁的能力和网页解析智能性,其中,数据的完整性,保证了返回给用户的是完整而有效的信息;稳定性和速度,保证了用户的使用体验;而突破网站封锁的能力,以及网页智能解析,则是产品的核心本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于网页链接的网页信息解析方法,其特征在于,包括:接收用户终端发送的网页链接,并访问所述网页链接,得到HTML网页内容;基于所述HTML网页内容,并利用多种网页解析算法,构建出所述网页链接的多种DOM树,其中,每种网页解析算法分别对应一DOM树;对每种DOM树中的每个节点进行解析处理,得到每种DOM树中每个节点的解析结果,并对多种DOM树中的同一节点的解析结果进行汇总处理,以在将多种DOM树中的所有同一节点的解析结果均汇总处理后,得到网页链接的网页解析结果,其中,任一DOM树中的任一节点的解析结果包括标题、图标、节点关键字、节点描述和/或节点内容,且节点内容包括多媒体内容;将所述网页解析结果发送至所述用户终端,以便在发送后,完成所述网页链接的信息解析。2.根据权利要求1所述的方法,其特征在于,基于所述HTML网页内容,并利用多种网页解析算法,构建出所述网页链接的多种DOM树,包括:采用DOM解析算法、JDOM解析算法和DOM4J解析算法,分别对所述HTML网页内容进行节点树构建处理,以构建出所述网页链接基于所述DOM解析算法对应的DOM树、所述网页链接基于所述JDOM解析算法对应的DOM树以及所述网页链接基于所述DOM4J解析算法对应的DOM树。3.根据权利要求1所述的方法,其特征在于,对每种DOM树中的每个节点进行解析处理,得到每种DOM树中每个节点的解析结果,包括:获取多种HTML版本标准规范;对于任一DOM树的任一节点,按照每种HTML版本标准规范,对所述任一节点进行解析处理,得到所述任一节点在每种HTML版本标准规范下的预解析结果;对所述任一节点在每种HTML版本标准规范下的预解析结果进行融合处理,得到所述任一节点的解析结果。4.根据权利要求3所述的方法,其特征在于,若所述任一节点在每种HTML版本标准规范下的预解析结果均为解析失败,则所述方法还包括:将所述任一节点的节点内容处理为字符串,并将所述字符串作为该任一节点的解析结果。5.根据权利要求1所述的方法,其特征在于,所述方法还包括:判断所述网页解析结果中是否包含有多媒体信息;若是,则判断所述多媒体信息的容量是否小...

【专利技术属性】
技术研发人员:李铭熊学武韦利东
申请(专利权)人:上海泛微软件有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1