一种基于浏览器的视频获取方法及系统技术方案

技术编号:23450233 阅读:18 留言:0更新日期:2020-02-28 23:27
本发明专利技术属于互联网技术领域,特别涉及一种基于浏览器的视频获取方法及系统。所述视频获取方法包括:获得非视频网络地址数据,根据所述非视频网络地址,下载网络页面中的视频数据;对完成下载的所述视频数据进行去重复化处理,并进行保存。实现对静态页面和动态页面中视频的下载。

A video acquisition method and system based on Browser

【技术实现步骤摘要】
一种基于浏览器的视频获取方法及系统
本专利技术属于互联网
,特别涉及一种基于浏览器的视频获取方法及系统。
技术介绍
近年来随着计算机技术、网络技术和多媒体技术的飞速发展,媒体获取、传输和发布方式发生了巨大的变革,云计算、多媒体都得到了广泛的应用。越来越多用户已经可以方便地实现网络视频通信,订阅和播放网络上的多媒体数据。这些应用使得对网络多媒体的安全监控成为必然。多媒体安全涵盖了政治、经济、技术、文化、人身等多个层面。由于多媒体内容信息安全所占据的主导地位,在很大程度上其他的安全形态都由它延伸出来。但多媒体网络节点分散、强动态变化等特性使得其不易管理和安全性较差,因此,开展违规视频检测与分析将具有重要的意义。在对互联网中的视频进行检测前,需要对互联网中的视频数据进行获取。由于互联网中存在巨量的网络地址数据,其中包含着大量的视频网络地址数据,其对应的视频数据量大、类型多,并且不同网站的实现技术也不同。部分不同视频网络地址数据,还对应着相同的视频数据。多数网站已经应用反爬虫系统。因此,大批量自动下载互联网中的视频数据难度较大。
技术实现思路
针对上述问题,本专利技术提供了一种基于浏览器的视频获取方法,所述视频获取方法包括:获得非视频网络地址数据;根据所述非视频网络地址数据,使用浏览器自动化测试方法抓取网络页面中的视频网络地址数据;根据所述视频网络地址数据下载视频数据、保存视频数据。进一步地,所述下载视频数据包括:对所述视频网络地址数据进行IO流处理;通过所述IO流,下载网页中的视频数据。进一步地,使用浏览器自动化测试方法抓取包括:调用ChromeOptions设置渲染方式;调用ChromeDriver加载浏览器,获取视频网络地址。进一步地,所述抓取网络页面中的视频网络地址数据还包括:抓取所述网络页面中视频网络地址数据,抓取所述网络页面的链接网络页面中的视频网络地址数据。进一步地,对下载的视频进行去重复视频操作。进一步地,若抓取所述网络页面中的视频网络地址数据失败,则自动重新抓取;自动重新抓取次数超过重爬阈值,则停止抓取;将所述网络页面对应的网络地址数据保存至数据库服务器中,等待再次被调取执行。进一步地,若所述下载视频数据失败,则自动重新下载;自动下载次数超过重下阈值,则停止下载;将所述视频数据对应的视频网络地址数据保存至数据库服务器中,等待再次被调取执行。进一步地,所述抓取页面中的视频网络地址数据和所述下载视频数据为自动执行。进一步地,所述视频获取方法还包括:自动登录网站;登录后抓取网络页面中的视频网络地址数据;登录后下载视频数据。本专利技术还提供一种基于浏览器的视频获取系统,其特征在于,所述视频获取系统包括:任务生成单元,用于根据获得的非网络地址数据,生成视频抓取任务;视频抓取单元,用于执行所述视频抓取任务,抓取网页中的视频网络地址;视频下载单元,根据所述的视频网络地址,下载网页中的视频数据;数据库服务器,用于对完成去重复化处理的视频数据进行保存,对未完成网页抓取任务对应的网络地址数据进行保存,对下载视频数据失败对应的视频网络地址数据进行保存。进一步地,所述视频获取系统还包括:视频去重单元,用于对下载的视频数据进行去重复化处理;网络地址数据整理单元,用于对网络地址数据和视频网络地址数据进行整理;登录单元,用于自动登录网站。本专利技术可以对海量的视频数据实现下载,处理能力强、系统可靠。可以根据实际需要,适应性的自动登录系统进行下载,实现对静态页面和动态页面中视频的下载。本专利技术的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本专利技术而了解。本专利技术的目的和其他优点可通过在说明书、权利要求书以及附图中所指出的结构来实现和获得。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1示出了本专利技术实施例的一种基于浏览器的视频获取方法的流程示意图;图2示出了本专利技术实施例的一种基于浏览器的视频获取系统的结构示意图。具体实施方式为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地说明,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。本专利技术公开了一种基于浏览器的视频获取方法,如图1所示,所述方法的具体步骤如下:步骤一、获得非视频网络地址数据。具体的,获得非视频网络地址数据步骤如下:步骤1.1、获得网络地址数据;示例性的,获取网络地址数据方法有多种。可以使用且不限于以下方式获取。方法一:互联网数据中心(InternetDataCenter,IDC)访问日志会自动记录普通大众用户浏览访问的URL(UniformResoureLocator,统一资源定位符),所述URL数据即为网络地址数据。从互联网数据中心获得日志文件,可以提取网络地址数据。方法二:互联网(Internet)是一组全球信息资源的总汇,是一个全球计算机互联网络。万维网(WorldWideWeb,WWW)是Internet上集文本、声音、图像、视频等多媒体信息于一身的全球信息资源网络,是Internet上的重要组成部分。万维网使用超文件标记语言(HyperTextMarkupLanguage,HTML),使用超文件标记语言的文本为超文本。超文本中不仅含有文本信息,还包括图形、声音、图像、视频等多媒体信息。超文本中还含着指向其它超文本的链接,这种链接称为超链接(HyperLinks)。通过访问互联网上的某一页面,收集其中所有超链接。根据收集的超链接,打开新的页面,再收集新的页面中的超链接。这样循环收集下去,直到收集的超链接数目达到要求。收集的所述超链接组合,即为网络地址数据。方法三:域名系统(DomainNameSystem,DNS)上记录着大量网址信息。通过收集域名系统中网址信息,对该地址所对应的网站进行所有超链接抓取。所述网址信息组合,即是网络地址数据;收集的超链接组合,是更详细的网络地址数据。方法四:全国互联网安全管理服务平台上记录着大量的网址信息。通过收集平台上的网址信息,对该地址所对应的网站进行超链接抓取。所述网址信息组合,即是网络地址数据;收集的超链接组合,是更详细的网络地址数据。步骤1.2、找出网络地址数据中的视频网络地址数据并记录,剩下地本文档来自技高网...

【技术保护点】
1.一种基于浏览器的视频获取方法,其特征在于,所述视频获取方法包括:/n获得非视频网络地址数据;/n根据所述非视频网络地址数据,使用浏览器自动化测试方法抓取网络页面中的视频网络地址数据;/n根据所述视频网络地址数据下载视频数据、保存视频数据。/n

【技术特征摘要】
1.一种基于浏览器的视频获取方法,其特征在于,所述视频获取方法包括:
获得非视频网络地址数据;
根据所述非视频网络地址数据,使用浏览器自动化测试方法抓取网络页面中的视频网络地址数据;
根据所述视频网络地址数据下载视频数据、保存视频数据。


2.根据权利要求1所述的视频获取方法,其特征在于,所述下载视频数据包括:
对所述视频网络地址数据进行IO流处理;
通过所述IO流,下载网页中的视频数据。


3.根据权利要求1所述的视频获取方法,其特征在于,
所述使用浏览器自动化测试方法抓取包括:
调用ChromeOptions设置渲染方式;
调用ChromeDriver加载浏览器,获取视频网络地址。


4.根据权利要求3所述的视频获取方法,其特征在于,所述抓取网络页面中的视频网络地址数据还包括:
抓取所述网络页面中视频网络地址数据,抓取所述网络页面的链接网络页面中的视频网络地址数据。


5.根据权利要求1所述的视频获取方法,其特征在于,所述下载视频数据还包括:
对下载的视频进行去重复视频操作。


6.根据权利要求1所述的视频获取方法,其特征在于,
若抓取所述网络页面中的视频网络地址数据失败,则自动重新抓取;
自动重新抓取次数超过重爬阈值,则停止抓取;
将所述网络页面对应的网络地址数据保存至数据库服务器中,等待再次被调取执行。

...

【专利技术属性】
技术研发人员:夏光升孙涛
申请(专利权)人:天津市国瑞数码安全系统股份有限公司
类型:发明
国别省市:天津;12

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1