一种基于网页链接的网页信息解析方法技术

技术编号：37292362 阅读：26 留言：0更新日期：2023-04-21 03:23

本发明专利技术公开了一种基于网页链接的网页信息解析方法，本发明专利技术采用多种网页解析算法同时对网页链接对应的HTML内容进行网页解析，并对不同网页解析算法对应的解析结果进行汇总分析，如此，可保证解析的全面性，从而得到完整的网页信息，同时，本发明专利技术得到的解析结果包含有多媒体资源，并可直接生成下载链接，基于此，可为多媒体资源的下载提供接口，提高了使用的便捷性；更进一步的，采用多种HTML版本标准规范进行网页解析，实现了不同HTML版本的兼容性，并同时配合异常处理机制，提高了整个解析过程的容错性；另外，本发明专利技术支持用户自定义解析规则的设置，可满足定制化使用场景；由此，本发明专利技术解决了传统技术所存在的弊端，适用于大规模应用与推广。用与推广。用与推广。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于网页链接的网页信息解析方法

[0001]本专利技术属于网页信息解析
，具体涉及一种基于网页链接的网页信息解析方法。

技术介绍

[0002]在网上冲浪过程中，用户在输入网页链接后，在网页链接可访问的基础上，可直接进行网页的访问，然后解析出网页包含的一些基本信息，以返回给用户进行使用；目前，市场上进行网页解析的主要的产品有：HtmlParse、BeautifulSoup、Cl icky、Piwik、ShinyStat、SeeVolution和StatCounter等，其中，网页解析可以在客户端，也可以在服务端侧进行，运行在客户端时，不依赖于服务器的运行，但是不能提供更多的扩展服务，比如解析缓存、性能加速等，而运行在服务端时，则可以使用所有功能。
[0003]网页解析时，需要考虑以下几点：采集数据的完整性、采集数据的稳定性、采集数据的速度、采集数据突破网站封锁的能力和网页解析智能性，其中，数据的完整性，保证了返回给用户的是完整而有效的信息；稳定性和速度，保证了用户的使用体验；而突破网站封锁的能力，以及网页智能...

【技术保护点】

【技术特征摘要】
1.一种基于网页链接的网页信息解析方法，其特征在于，包括：接收用户终端发送的网页链接，并访问所述网页链接，得到HTML网页内容；基于所述HTML网页内容，并利用多种网页解析算法，构建出所述网页链接的多种DOM树，其中，每种网页解析算法分别对应一DOM树；对每种DOM树中的每个节点进行解析处理，得到每种DOM树中每个节点的解析结果，并对多种DOM树中的同一节点的解析结果进行汇总处理，以在将多种DOM树中的所有同一节点的解析结果均汇总处理后，得到网页链接的网页解析结果，其中，任一DOM树中的任一节点的解析结果包括标题、图标、节点关键字、节点描述和/或节点内容，且节点内容包括多媒体内容；将所述网页解析结果发送至所述用户终端，以便在发送后，完成所述网页链接的信息解析。2.根据权利要求1所述的方法，其特征在于，基于所述HTML网页内容，并利用多种网页解析算法，构建出所述网页链接的多种DOM树，包括：采用DOM解析算法、JDOM解析算法和DOM4J解析算法，分别对所述HTML网页内容进行节点树构建处理，以构建出所述网页链接基于所述DOM解析算法对应的DOM树、所述网页链接基于所述JDOM解析算法对应的DOM树以及所述网页链接基于所述DOM4J解析算法对应的DOM树。3.根据权利要求1所述的方法，其特征在于，对每种DOM树中的每个节点进行解析处理，得到每种DOM树中每个节点的解析结果，包括：获取多种HTML版本标准规范；对于任一DOM树的任一节点，按照每种HTML版本标准规范，对所述任一节点进行解析处理，得到所述任一节点在每种HTML版本标准规范下的预解析结果；对所述任一节点在每种HTML版本标准规范下的预解析结果进行融合处理，得到所述任一节点的解析结果。4.根据权利要求3所述的方法，其特征在于，若所述任一节点在每种HTML版本标准规范下的预解析结果均为解析失败，则所述方法还包括：将所述任一节点的节点内容处理为字符串，并将所述字符串作为该任一节点的解析结果。5.根据权利要求1所述的方法，其特征在于，所述方法还包括：判断所述网页解析结果中是否包含有多媒体信息；若是，则判断所述多媒体信息的容量是否小...

【专利技术属性】
技术研发人员：李铭，熊学武，韦利东，
申请(专利权)人：上海泛微软件有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人