一种视频数据内容下载方法以及装置制造方法及图纸

技术编号:12198857 阅读:84 留言:0更新日期:2015-10-14 11:14
本发明专利技术提供一种视频数据内容收集方法,其中该方法包括:爬取热点网页中预设数量的视频标签信息;根据所述标签信息解析所述视频的元数据信息,并将所述元数据信息保存至本地数据库;定期遍历所述本地数据库,若检测到有下载异常视频,根据所述下载异常视频的元数据信息下载并保存所述视频的数据内容,同时更新所述视频的元数据信息。本发明专利技术可实现对各个主流视频网站热点视频数据内容的下载。

【技术实现步骤摘要】

本专利技术涉及数据搜索
,尤其涉及一种视频数据内容下载方法以及装置
技术介绍
随着互联网的逐步普及,越来越多的人接触到互联网。网络视频作为互联网应用中重要的一员,凭借其娱乐性、学习性已经成为用户接收网络数据不可或缺的一部分。而视频网站作为网络视频的主要载体,用户基本是通过它来在线观看各种各样的网络视频的,比如通过优酷网来观看最新上映的电影、通过搜狐网来追美剧、通过乐视网来观看最新的综艺节目等等。由于观看人群的兴趣不同,品味不同,最终会导致不同的视频会有不同的点击量,点击量大的自然而然就成为了热点视频。在这一背景下,则需要一种针对视频网站热点视频数据的收集系统,专门用来解析各个视频网站的热点视频,将热点视频保存到本地磁盘中,将热点视频元数据信息保存到本地数据库中。有了这些本地数据库集中保存的大量数据,可以对外提供各种各样的有价值的服务。然而,现有技术中对主流视频网站热点视频信息的收集却通常只能收集到一些基本信息,并不能将热点视频的数据内容下载到本地。
技术实现思路
有鉴于此,本专利技术提供了一种视频数据内容下载方法以及装置来解决上述问题。本专利技术提供一种视频数据内容收集方法,其中包括:爬取热点网页中预设数量的视频标签信息;根据所述标签信息解析所述视频的元数据信息,并将所述元数据信息保存至本地数据库;定期遍历所述本地数据库,若检测到有下载异常视频,根据所述下载异常视频的元数据信息下载并保存所述视频的数据内容,同时更新所述视频的元数据信息。本专利技术还一种视频数据内容收集装置,其中包括:标签信息爬取单元,用于爬取热点网页中预设数量的视频标签信息;元数据解析单元,用于根据所述标签信息解析所述视频的元数据信息,并将所述元数据信息保存至本地数据库; 数据内容下载单元,用于定期遍历所述本地数据库,若检测到有下载异常视频,根据所述下载异常视频的元数据信息下载并保存所述视频的数据内容,同时更新所述视频的元数据信息。本专利技术提供的视频数据内容下载方法以及装置,通过将获取的标签信息以及元数据信息保存至本地数据库,并在定期遍历所述本地数据库检测到有下载异常视频时,根据所述下载异常视频的元数据信息下载所述视频的数据内容,并将所述数据内容保存至存储模块,进而实现对各个主流视频网站热点视频数据内容的下载。【附图说明】图1是本专利技术实施例中视频数据内容下载装置逻辑结构示意图;图2是本专利技术实施例中视频数据内容下载方法流程框图;图3是本专利技术实施例中视频数据内容下载方法流程框图。【具体实施方式】本专利技术提供了一种视频数据内容下载方法以及装置,通过爬取热点网页中预设数量的视频标签信息,根据所述标签信息解析所述视频的元数据信息,并将所述标签信息以及元数据信息保存至本地数据库。在定期遍历所述本地数据库时,若检测到有下载异常视频,则根据所述下载异常视频的元数据信息下载所述视频的数据内容,并将所述数据内容保存至存储模块,同时更新所述视频的元数据信息。请参考图1,本专利技术提供的视频数据内容下载装置的基本硬件环境包括CPU、内存、非易失性存储器以及其他硬件,其从本质上说其是一个逻辑装置,在本实施方式中,该视频数据收集装置在逻辑层面上包括:标签信息爬取单元、元数据解析单元以及数据内容下载单元,请参考图2,该装置在运行过程中执行如下处理流程:步骤201,标签信息爬取单元爬取热点网页中预设数量的视频标签信息;步骤202,元数据解析单元根据所述标签信息解析所述视频的元数据信息,并将所述元数据信息保存至本地数据库。现有的不同主流视频网站其视频类型侧重点不同,有的视频网站侧重于电影、电视剧、综艺等,有的视频网站侧重于原创、资讯、记录片等。所有主流视频网站会对其自身网络视频资源的点击量按其规则进行排序,并且会将这些数据公布在其网站页面上,该页面可以称之为热点页面。所以针对不同的主流视频网站,需要预先统计出它们各自侧重的视频类型,通过对不同主流视频网站的相应热点页面按特定规则进行解析,即可爬取该视频网站不同视频类型下的指定数量的热点视频。本专利技术实施例提供的视频数据内容下载装置通过对不同视频网站下相应的热点页面进行解析,以根据不同的视频类型爬取该视频类型下预设数量的热点视频的标签信息,该视频标签信息可以包括视频名称、视频类型以及视频链接等基本信息。在爬取出热点视频的标签信息后,根据该热点视频的标签信息解析热点视频的元数据信息,该元数据信息包括视频播放URL、视频下载URL、视频标识符、视频清晰度(标清、高清、超清等)、视频片段数量、视频片段下载状态、视频源网站(优酷、土豆、乐视等)、视频类型(电视剧、电影、综艺等)、视频title、视频时长、视频关键字、视频大小、视频摘要图片、视频描述等信息。不同的主流视频网站,其与播放器进行元数据信息交互的规律也是不同的,如果要解析某个主流视频网站下的某个热点视频的元数据信息,首先逆向出该视频网站与播放器的元数据信息交互规律,然后再依据该交互规律构造相应的http请求即可获取到指定热点视频的元数据信息,最后将获取到的视频标签信息与元数据信息均保存至本地数据库内。本专利技术实施例中该视频数据内容收集装置还包括数据内容下载单元,请参考图3,所述数据内容下载单元在执行过程中具体包括以下步骤:步骤301,定期遍历所述本地数据库;步骤302,检测是否有下载异常视频;步骤303,在检测到有下载异常视频时,根据所述下载异常视频的元数据信息下载并保存所述视频的数据内容;步骤304,更新所述视频的元数据信息的视频片段下载状态。具体地,本专利技术实施例结合附图2以及附图3对本专利技术做进一步地说明。本专利技术提供的视频数据内容下载装置在执行步骤201以及步骤202的同时,会定期或者周期性地遍历所述本地数据库,并根据元数据信息的视频片段下载状态检测本地数据库内是否有未下载或者下载未完成的下载异常视频,并在检测到有下载异常视频时,重新解析其元数据信息中的视频播放URL,并根据该视频播放URL获取其视频下载URL,使用该下载URL下载所述视频数据内容,并将下载的视频数据内容保存至存储模块,同时为了避免热点视频的重复下载,在将下载的视频数据内容保存至本地数据库后要更新所述视频的元数据信息的视频片段下载状态,以进一步实现对于各个主流视频网站热点视频数据内容的收集。在本专利技术优选地实施方式中,由于视频下载URL具有时效性,若在视频下载过程中未对视频下载URL的时效性做处理,当视频下载URL时效性过期后就会导致热点视频下载失败。因此在定期遍历所述本地数据库后检测到有未下载或者下载未完成的下载异常视频时,为了避免使用失效的视频下载URL下载数据,在查找到所述下载异常视频元数据信息中视频播放URL后,通过重新解析所述视频播放URL以获取所述可供下载的视频下载URL,并对该视频下载URL的时效性进行处理后,根据所述视频下载URL进行数据内容下载。进一步地,根据预设视频网站优先级遍历所述本地数据库,若检测到下载异常视频时,查找所述下载异常视频的视频播放URL ;解析所述视频播放URL以获取所述下当前第1页1 2 本文档来自技高网...

【技术保护点】
一种视频数据内容收集方法,其特征在于,包括:爬取热点网页中预设数量的视频标签信息;根据所述标签信息解析所述视频的元数据信息,并将所述元数据信息保存至本地数据库;定期遍历所述本地数据库,若检测到有下载异常视频,根据所述下载异常视频的元数据信息下载并保存所述视频的数据内容,同时更新所述视频的元数据信息。

【技术特征摘要】

【专利技术属性】
技术研发人员:饶志涛
申请(专利权)人:杭州迪普科技有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1