一种Ajax网页内容的抓取方法及系统技术方案

技术编号:3896301 阅读:913 留言:0更新日期:2012-04-11 18:40
一种Ajax网页内容的抓取方法,其特征在于,包括: 获取网页代码信息; 提取所述网页代码信息中的JavaScript信息; 解析所述JavaScript信息,确定所述网页代码中包含Ajax调用的函数; 触发所确定的包含Ajax调用的函数,获得由所述包含Ajax调用的函数生成的网页内容。

【技术实现步骤摘要】

本专利技术涉及网络
,特别是涉及一种Ajax网页内容的抓取方法及 系统。
技术介绍
Ajax ( Asynchronous JavaScript and XML, 异步JavaScript和XML )是一种创建交互式网页应用的网页开发技术。对于传统的网页,如果页面上的部 分内容进行了更新,则用户需要刷新整个页面之后才能看到更新后的内容。 而对于Ajax网页,用户可以在不刷新整个页面的情况下,^l去获耳又更新部分 的内容。这样,对于网络侧设备,能够避免重复传输那些没有改变过的信息, 从而节省网络带宽资源,减轻服务器的负担;而对于用户而言,能够有效减 少浏览网页过程中的等待时间,提升了用户体验。搜索引擎是一种能够搜集互联网信息,并对信息进行组织和处理、为用 户提供检索服务的系统,目前已经成为用户上网必不可少的辅助工具之一。 搜索引擎的一个重要组成部分是网络爬虫,它能够自动抓取网页内容,为搜 索51擎提供实时更新的数据。现有的网络爬虫能够较好地支持传统的网页, 但是对于Ajax网页中由Ajax动态生成的内容,网络爬虫无法有效地抓取。这 些Ajax网页中的动态内容也就无法被搜索引擎所本文档来自技高网...

【技术保护点】
一种Ajax网页内容的抓取方法,其特征在于,包括: 获取网页代码信息; 提取所述网页代码信息中的JavaScript信息; 解析所述JavaScript信息,确定所述网页代码中包含Ajax调用的函数; 触发所确定的包含Ajax调用的函数,获得由所述包含Ajax调用的函数生成的网页内容。

【技术特征摘要】

【专利技术属性】
技术研发人员:毛雯
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1