网页中多媒体地址的获取方法和装置制造方法及图纸

技术编号:9528776 阅读:71 留言:0更新日期:2014-01-02 18:14
本发明专利技术提出一种网页中多媒体地址的获取方法和装置,其中该方法包括:云端服务器抓取多媒体网页;所述云端服务器建立所述多媒体网页的文件对象模型DOM,并根据所述DOM执行所述多媒体网页中的脚本指令以生成多媒体播放插件;所述云端服务器启动虚拟机,并在所述虚拟机中运行所述多媒体播放插件以模拟多媒体的播放事件;以及所述云端服务器通过所述播放事件获取所述多媒体的多媒体地址。根据本发明专利技术实施例方法,可覆盖的多媒体站点数目大大增加,且对于不同的多媒体站点具有通用性,提高了获取多媒体地址的效率,提升了用户体验。

【技术实现步骤摘要】
网页中多媒体地址的获取方法和装置
本专利技术涉及互联网
,尤其涉及一种网页中多媒体地址的获取方法和装置。
技术介绍
随着多媒体技术的迅速发展,用户对多媒体的需求也不断的提升,比如用户有时不满足于仅在网页上浏览或者观看,希望将所需要的多媒体文件下载到终端设备中,因此,需要获取多媒体的多媒体地址。在网页中提取多媒体地址时,目前,主要通过抓取主链、分析关键字,然后使用人工策略的方式来提取多媒体地址,但是,主要存在以下问题:(1)采用人工策略的方式来提取多媒体地址,所支持的多媒体站点的数目较少,目前,仅支持几个主要的多媒体大站;(2)由于不同的多媒体站点所采用的算法不同,采用人工策略的方式来提取多媒体地址,对于不同的多媒体站点不具有通用性;(3)当多媒体站点的算法更换后,提取多媒体地址所使用的人工策略也需要随之修改,影响技术方案的执行效率且具有滞后性。
技术实现思路
本专利技术旨在至少解决上述技术问题之一。为此,本专利技术的第一个目的在于提出一种网页中多媒体地址的获取方法。该方法通过在虚拟机中模拟多媒体的播放事件来获取多媒体地址,使覆盖的多媒体站点数目大大增加,且对于不同的多媒体站点具有通用性,提升了用户体验。本专利技术的第二个目的在于提出一种网页中多媒体地址的获取装置。为了实现上述目的,本专利技术第一方面实施例的网页中多媒体地址的获取方法包括以下步骤:云端服务器抓取多媒体网页;所述云端服务器建立所述多媒体网页的文件对象模型DOM,并根据所述DOM执行所述多媒体网页中的脚本指令以生成多媒体播放插件;所述云端服务器启动虚拟机,并在所述虚拟机中运行所述多媒体播放插件以模拟多媒体的播放事件;以及所述云端服务器通过所述播放事件获取所述多媒体的多媒体地址。根据本专利技术实施例的网页中多媒体地址的获取方法,云端服务器在虚拟机中模拟多媒体的播放事件来获取多媒体地址,至少具有以下有益效果:(1)可覆盖的多媒体站点数目大大增加;(2)对于不同的多媒体站点具有通用性;(3)不需要随着多媒体站点算法的更换而更新,只需要模拟一次播放事件,提高了获取多媒体地址的效率,提升了用户体验。为了实现上述目的,本专利技术第二方面实施例的网页中多媒体地址的获取装置包括:多媒体网页抓取模块,用于抓取多媒体网页;播放插件生成模块,用于建立所述多媒体网页的文件对象模型DOM,并根据所述DOM执行所述多媒体网页中的脚本指令以生成多媒体播放插件;播放事件模拟模块,用于启动虚拟机,并在所述虚拟机中运行所述多媒体播放插件以模拟多媒体的播放事件;以及多媒体地址获取模块,用于通过所述播放事件获取所述多媒体的多媒体地址。根据本专利技术实施例的网页中多媒体地址的获取装置,在虚拟机中模拟多媒体的播放事件来获取多媒体地址,至少具有以下有益效果:(1)可覆盖的多媒体站点数目大大增加;(2)对于不同的多媒体站点具有通用性;(3)不需要随着多媒体站点算法的更换而更新,只需要模拟一次播放事件,提高了获取多媒体地址的效率,提升了用户体验。本专利技术附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本专利技术的实践了解到。附图说明本专利技术上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中,图1是根据本专利技术一个实施例的网页中多媒体地址的获取方法的流程图;图2是根据本专利技术一个实施例的网页中多媒体地址的获取方法的流程图;图3是根据本专利技术一个实施例的模拟播放事件的流程图;图4是根据本专利技术一个实施例的网页中多媒体地址的获取装置的结构示意图;图5是根据本专利技术一个实施例的网页中多媒体地址的获取装置的结构示意图。具体实施方式下面详细描述本专利技术的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本专利技术,而不能理解为对本专利技术的限制。相反,本专利技术的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。在本专利技术的描述中,需要理解的是,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。在本专利技术的描述中,需要说明的是,除非另有明确的规定和限定,术语“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本专利技术中的具体含义。此外,在本专利技术的描述中,除非另有说明,“多个”的含义是两个或两个以上。流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本专利技术的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本专利技术的实施例所属
的技术人员所理解。为了解决目前提取多媒体地址时现有技术存在的覆盖站点数目少、通用性差、滞后性等问题,本专利技术提出一种网页中多媒体地址的获取方法和装置。下面参考附图描述根据本专利技术实施例的网页中多媒体地址的获取方法和装置。一种网页中多媒体地址的获取方法,包括以下步骤:云端服务器抓取多媒体网页;云端服务器建立多媒体网页的文件对象模型DOM,并根据DOM执行多媒体网页中的脚本指令以生成多媒体播放插件;云端服务器启动虚拟机,并在虚拟机中运行多媒体播放插件以模拟多媒体的播放事件;以及云端服务器通过播放事件获取多媒体的多媒体地址。图1是根据本专利技术一个实施例的网页中多媒体地址的获取方法的流程图。如图1所示,网页中多媒体地址的获取方法包括以下步骤:S101,云端服务器抓取多媒体网页。例如,首先通过网络爬虫抓取网页,其中,网络爬虫是通过网页的链接地址来寻找网页的。然后根据预先设定的参数或者标识信息从抓取的网页中筛选出多媒体网页。其中,多媒体包括视频、音频等采用流式传输方式在互联网播放的媒体格式。S102,云端服务器建立多媒体网页的文件对象模型DOM(DocumentObjectModel),并根据DOM执行多媒体网页中的脚本指令以生成多媒体播放插件。具体地,云端服务器根据抓取到的多媒体网页建立该多媒体网页的文件对象模型DOM,并模拟浏览器的解析过程根据DOM执行多媒体网页中的脚本指令以生成多媒体播放插件。其中,脚本指令是指由脚本语言写成的控制指令,例如,由JavaScrip(一种由Netscape的LiveScript发展而来的原型化继承的面向对象的动态类型的区分大小写的客户端脚本语言)脚本语言编写的脚本指令。S103,云端服务器启动虚拟机,并在虚拟机中运行多媒体播放插件以模拟多媒体的播放事件。具体地,模拟多媒体的播放事件是指在虚拟机中运行多媒体播放插件,该过程并不需要将多媒体真正的播放出来,只要模拟该多媒体在浏览器中播放时所传递的参数即可,其目的是获取所需要的有效信息,例如,获取程序运行中的参数或者属性等信息。在本专利技术的一个实施例中,虚拟机可以是swf(shockwaveflash,动画设计软件Flash的专用格式)虚拟机,它用于解析swf文件,执行其中的A本文档来自技高网
...
网页中多媒体地址的获取方法和装置

【技术保护点】
一种网页中多媒体地址的获取方法,其特征在于,包括:云端服务器抓取多媒体网页;所述云端服务器建立所述多媒体网页的文件对象模型DOM,并根据所述DOM执行所述多媒体网页中的脚本指令以生成多媒体播放插件;所述云端服务器启动虚拟机,并在所述虚拟机中运行所述多媒体播放插件以模拟多媒体的播放事件;以及所述云端服务器通过所述播放事件获取所述多媒体的多媒体地址。

【技术特征摘要】
1.一种网页中多媒体地址的获取方法,其特征在于,包括:云端服务器抓取多媒体网页;所述云端服务器建立所述多媒体网页的文件对象模型DOM,并根据所述DOM执行所述多媒体网页中的脚本指令以生成多媒体播放插件;所述云端服务器启动虚拟机,并在所述虚拟机中运行所述多媒体播放插件以模拟多媒体的播放事件;以及所述云端服务器通过所述播放事件获取所述多媒体的多媒体地址。2.根据权利要求1所述的方法,其特征在于,所述在所述虚拟机中运行所述多媒体播放插件以模拟多媒体的播放事件具体包括:S1、获取所述多媒体播放插件的配置参数;S2、当所述虚拟机进入运行状态后,所述虚拟机根据所述配置参数实例化网络数据流组件NetStream;以及S3、所述虚拟机调用所述NetStream的播放方法NetStream.play以模拟所述播放事件。3.根据权利要求2所述的方法,其特征在于,所述云端服务器通过所述播放事件获取所述多媒体的多媒体地址具体包括:S4、在调用所述NetStream的播放方法NetStream.play的同时记录所述NetStream.play被调用时的参数,其中,记录的所述NetStream.play被调用时的参数为所述多媒体地址。4.根据权利要求2所述的方法,其特征在于,所述虚拟机调用所述NetStream的播放方法NetStream.play以模拟所述播放事件具体包括:S31、所述虚拟机调用所述NetStream.play;S32、所述NetStream.play发送网络请求以获取所述多媒体的元信息;S33、当所述NetStream获取所述元信息后,所述NetStream先后发送元信息事件和播放完成事件至所述虚拟机;S34、所述虚拟机根据所述元信息事件和所述播放完成事件判断所述多媒体文件是否被正确模拟;S35、如果被正确模拟,则修改所述NetStream中的属性参数;S36、所述虚拟机监听所述多媒体是否播放完毕;S37、如果未播放完毕,则根据修改后的所述NetStream的属性参数继续执行步骤S31;以及S38、如果播放完毕,则获取记录的所述NetStream.play被调用时的参数为所述多媒体地址。5.根据权利要求4所述的方法,其特征在于,所述虚拟机监听所述多媒体是否播放完毕,具体包括:判断所述虚拟机是否进入闲置状态;如果进入闲置状态,则进一步判断记录的所述NetStream.play被调用时的参数的个数是否大于0;以及如果大于0,则所述虚拟机监听所述多媒体播放完毕。6.根据权利要求4-5任一项所述的方法,其特征在于,所述元信息包括时长、预设帧数、总字数。7.根据权利要求5所述的方法,其特征在于,所述闲置状态为所述虚拟机的多媒体帧数等于所述元信息的预设帧数时的状态。8.根据权利要求6所述的方法,其特征在于,当所述虚拟机接收到所述播放完成事件时,获取所述播放完成事件中的播放时长,如果所述播放时长和所述元信息事件中的所述元信息的时长一致,则确定所述多媒...

【专利技术属性】
技术研发人员:梁涛
申请(专利权)人:百度在线网络技术北京有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1