The invention discloses an automatic audio and video downloading system based on keywords, which comprises an application layer, a service layer and a data layer. The application layer comprises a system task configuration module, a system task download module, a system task monitoring module and a result statistics module. The data layer includes a crawler task database, a system configuration database, an audio and video file system library and a keyword database. The invention uses multiple computer devices to build clusters, adopts distributed and load balancing strategies, and can crawl and download related audio and video on the Internet based on user-provided keywords.
【技术实现步骤摘要】
一种基于关键字的音视频自动下载系统
本专利技术涉及音视频下载领域,尤其涉及一种基于关键字的音视频自动下载系统。
技术介绍
近年来,随着互联网技术的快速发展以及网络宽带的不断增加,对音视频的获取已成为大众生活中必不可少的休闲方式。与此同时,对音视频的搜索、解析和下载技术的要求也日益增加。当用户需要下载某些关键字的音视频时,他们需要依次在优酷、爱奇艺、搜狐视频等视频网站搜索,然后进行下载操作。然而,当用户想要在这些音视频网站上执行音视频下载任务时,往往都需要事先安装相应音视频网站的客户端软件,且安装过多的客户端软件会为用户生活诸多不便。因此,用户希望有一种方法在不安装客户端软件的情况下高效下载不同音视频网站的音视频。最为传统方法是通过下载软件进行下载,如迅雷、快车、FreeDownloadManager等,这些下载软件需要用户手动获取音视频的下载链接。然而,许多音视频网站不会将这些音视频的下载链接显式地提供给用户,给音视频自动下载带来了困难。此外,这些传统的下载软件并不能为用户提供关键字搜索功能。一些互联网音视频下载系统将下载链接提取和音视频下载结合起来,允许用提交音 ...
【技术保护点】
1.一种基于关键字的音视频自动下载系统,其特征在于,包括应用层、服务层和数据层;所述应用层包括:系统任务配置模块,用于用户填写音视频的关键字信息或音视频链接,以及指定音视频下载的目标网站;系统任务下发模块,用于将用户配置的任务信息提交给服务层,以供服务层进行音视频搜索、爬取和下载等操作;系统任务监测模块,用于监测系统任务下发模块下发任务的状态信息,并允许用户对任务进行查询操作;结果统计模块,用于对已完成的任务进行状态统计,对已下载的音视频的关键字信息进行统计操作;所述服务层包括:音视频关键字搜索模块,用于根据用户给出的关键词在指定网站抓取音视频数据;音视频链接自动解析模块, ...
【技术特征摘要】
1.一种基于关键字的音视频自动下载系统,其特征在于,包括应用层、服务层和数据层;所述应用层包括:系统任务配置模块,用于用户填写音视频的关键字信息或音视频链接,以及指定音视频下载的目标网站;系统任务下发模块,用于将用户配置的任务信息提交给服务层,以供服务层进行音视频搜索、爬取和下载等操作;系统任务监测模块,用于监测系统任务下发模块下发任务的状态信息,并允许用户对任务进行查询操作;结果统计模块,用于对已完成的任务进行状态统计,对已下载的音视频的关键字信息进行统计操作;所述服务层包括:音视频关键字搜索模块,用于根据用户给出的关键词在指定网站抓取音视频数据;音视频链接自动解析模块,用于根据音视频关键字搜索模块获取的音视频链接或用户提交的音视频链接解析出音视频的源地址;音视频资源自动下载模块,用于根据解析出的音视频源地址对其进行下载操作;相关音视频发现模块,用于对关键字信息出现的频率进行统计,并挖掘音视频网站中出现且与用户提交的关键字信息相关的新词,辅助用户下载与其提交的关键字信息相关的音视频;所述数据层包括:爬虫任务数据库,用于存储所述音视频关键字搜索模块抓取的音视频数据;系统配置数据库,用于存储所述音视频链接自动解析模块解析的音视频源地址信息;音视频文件系统库,用于存储所述音视频资源自动下载模块的任务执行日志文件和下载的音视频文件;关键字数据库,用于存储用户输入的关键字信息及所述相关音视频发现模块挖掘的新词。2.根据权利要求1所述的基于关键字的音视频自动下载系统,其特征在于,所述音视频关键字搜索模块运用Scrapy爬虫框架,包括:ScrapyEngine,用于控制整个系统的数据处理流程,并进行事务处理的触发;Scheduler,用于接受从ScrapyEngine发送的请求,并排序列入队列,在ScrapyEngine再次发出请求时返还给ScrapyEngine;Spiders,用于用户自定义用来解析网页并抓取制定URL返回的内容的类,每个Spiders都能处理一个域名或一组域名;Downloader,用于抓取网页并将网页内容并返还给Spiders;ItemPipeline,用于负责处理Spiders从网页中抽取的内容,存储内容、验证内容的有效性和清除不需要的信息;DownloaderMiddleware,是位于ScrapyEngine和Downloader之间的钩子框架,用于处理ScrapyEngine与Downloader之间的请求及响应;SpiderMiddleware,是介于ScrapyEngine和Spiders之间的钩子框架,用于处理Spiders的响应输入和请求输出;SchedulerMiddleware,是介于ScrapyEngine和Scheduler之间的中间件,用于处理从ScrapyEngine发送到Scheduler的请求和响应;Redis,为一个支持网络的日志型数据库,用于存储来自ItemPipeline的项目。3.根据权利要求2所述的基于关键字的音视频自动下载系统,其特征在于,所述的音视频关键字搜索模块采用特定的爬取策略:多个Slaver从Master获取任务,然后从网络上进行数据抓取;所述Slaver在数据抓取过程中能够获得数据的点击量信息,并将其存储至爬虫任务数据库中,同时会生成新任务,并将新任务回抛给Master;所述Master将其存入Redis数据库,可用于将Sl...
【专利技术属性】
技术研发人员:王勇,刘飞,任德志,邓美林,
申请(专利权)人:电子科技大学,
类型:发明
国别省市:四川,51
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。