一种多线程泛媒体资源可视化采集框架和方法技术

技术编号:39409857 阅读:8 留言:0更新日期:2023-11-19 16:01
本发明专利技术提供一种多线程泛媒体资源可视化采集框架,包括控制器

【技术实现步骤摘要】
一种多线程泛媒体资源可视化采集框架和方法


[0001]本专利技术涉及泛媒体资源采集
,具体涉及一种多线程泛媒体资源可视化采集框架和一种多线程泛媒体资源可视化采集方法


技术介绍

[0002]在数字化时代,数字资源作为一种重要的信息载体,已经成为人们获取知识和信息的主要途径之一

图书馆作为数字资源的收集

整理

保存和服务的机构,面临着海量

多样

动态的数字资源的挑战,尤其是泛媒体资源,由于其语言特点

文化背景

数据规模等因素,给图书馆的采集工作带来了更多的困难和需求

因此,如何有效地采集泛媒体资源,是图书馆数字化建设和服务的重要课题

[0003]传统的图书馆采集泛媒体资源的方式,主要依靠人工检索

筛选

下载

整理等步骤,这种方式不仅效率低下,而且质量难以保证,容易出现遗漏

重复

错误等问题

随着互联网技术和人工智能技术的发展,利用计算机程序自动化地采集泛媒体资源,已经成为一种可行和必要的方式

通过编写数据爬虫程序,可以实现对目标网站或平台的泛媒体资源的快速

准确

全面的采集,并且可以根据采集需求进行定制化和优化

[0004]然而,目前已有的数据爬虫框架,大多存在功能单一

效率低下

定制能力不足等问题;有些采集框架支持二次开发,但开发过程较为繁琐,需要具有较高的编程能力;有的只支持中文或英文等大语种的采集,泛媒体资源的采集能力较弱或缺乏

另一方面,自行开发数据采集程序,需要具备一定的编程基础和网络知识,对于图书馆工作人员来说,可能存在较大的门槛和难度

因此,有必要开发一个基于多线程机制的数字资源可视化采集框架应用项目,旨在为图书馆提供一个简单易用

高效稳定

支持泛媒体资源采集解决方案


技术实现思路

[0005]本专利技术为解决上述技术问题,提供了一种多线程泛媒体资源可视化采集框架和一种多线程泛媒体资源可视化采集方法

[0006]本专利技术采用的技术方案如下:
[0007]一种多线程泛媒体资源可视化采集框架,包括:控制器

线程池

下载器

解析器

代理池

存储器

分析处理器和数据可视化工具,所述线程池

所述下载器

所述解析器

所述代理池

所述存储器

所述分析处理器和所述数据可视化工具与所述控制器通信连接,其中,所述控制器用于管理和调度所述线程池

所述下载器

所述解析器和所述代理池,以及用于提供用户界面进行交互,从用户界面输入任务;所述解析器用于接受所述控制器的调度指令并对用户界面输入的任务进行解析,并提取所需的信息,然后将解析的结果发送到所述线程池的任务队列里面等待处理;所述线程池自动检测任务队列里面是否有等待处理的任务,当检测到有等待处理的任务时,所述线程池接受所述控制器的调度指令进行创建线程并启动线程任务,直至所有待处理的任务执行完毕;所述下载器接受所述控制器的调度指令,并根据所述线程池启动的线程任务下载泛媒体资源并传输到所述存储器,所述下
载器支持多线程下载和断点续传;所述代理池用于向所述下载器和所述解析器提供代理
IP
,并自动检测代理
IP
的可用性和速度,定期更新代理
IP
资源,防止所述下载器和所述解析器被封禁或限制;所述分析处理器用于对下载的泛媒体资源的内容进行数据分析

数据清洗和数据归档处理;所述可视化展示工具对经过所述分析处理器处理的数据进行多维度可视化展示,所述可视化展示工具支持用户对数据进行交互和探索

[0008]进一步地,所述解析器全部内容解析完成,且任务队列为空时,所述线程池结束运行,或所述控制器发出停止

暂停或取消命令时,所述线程池停止运行

[0009]进一步地,所述线程池包括
daemon
线程
、PageAnalysis
线程
、TaskManager
线程和
Worker
线程,其中,所述
daemon
线程实时监控所述
PageAnalysis
线程

所述
TaskManager
线程和所述
Worker
线程以及所述线程池的运行状态和采集结果,并处理各种异常情况,所述
daemon
线程将运行状态和采集结果发送给控制器,并显示在用户界面上;所述
PageAnalysis
线程用于解析任务,所述
TaskManager
线程用于管理线程池,安排
Worker
线程执行队列任务,所述
Worker
线程根据
TaskManager
线程从队列中分配的任务,从网络爬取相应的内容

[0010]一种多线程泛媒体资源可视化采集方法,包括以下步骤:
[0011]通过所述控制器的用户界面输入任务;
[0012]所述控制器调度所述解析器对用户界面输入的任务进行解析,并将解析的结果发送到所述线程池的任务队列里面,等待处理;
[0013]当所述线程池检测到任务队列里面存在待处理的任务时,所述控制器调度所述线程池进行创建线程并启动线程任务;
[0014]所述控制器调度所述下载器,根据启动的线程任务下载泛媒体资源并传输到所述存储器进行存储,当一个线程任务完成时,再从任务队列中获取下一个线程任务来执行,直至任务队列中所有的待处理任务处理完毕;
[0015]所述分析处理器对下载的泛媒体资源的内容进行数据分析

数据清洗

数据归档处理,处理后经过所述可视化展示工具进行多维度可视化展示

[0016]本专利技术的有益效果:
[0017]本专利技术多线程泛媒体资源可视化采集框架和方法,基于
Python
语言和
QT
框架的多线程可视化采集框架,通过图形界面和交互操作,实现数据爬虫程序的配置

运行

监控和管理,并且支持泛媒体资源的采集

存储和数据分析,通过多线程技术提高了本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种多线程泛媒体资源可视化采集框架,其特征在于,包括:控制器

线程池

下载器

解析器

代理池

存储器

分析处理器和数据可视化工具,所述线程池

所述下载器

所述解析器

所述代理池

所述存储器

所述分析处理器和所述数据可视化工具与所述控制器通信连接,其中,所述控制器用于管理和调度所述线程池

所述下载器

所述解析器和所述代理池,以及用于提供用户界面进行交互,从用户界面输入任务;所述解析器用于接受所述控制器的调度指令并对用户界面输入的任务进行解析,并提取所需的信息,然后将解析的结果发送到所述线程池的任务队列里面等待处理;所述线程池自动检测任务队列里面是否有等待处理的任务,当检测到有等待处理的任务时,所述线程池接受所述控制器的调度指令进行创建线程并启动线程任务,直至所有待处理的任务执行完毕;所述下载器接受所述控制器的调度指令,并根据所述线程池启动的线程任务下载泛媒体资源并传输到所述存储器,所述下载器支持多线程下载和断点续传;所述代理池用于向所述下载器和所述解析器提供代理
IP
,并自动检测代理
IP
的可用性和速度,定期更新代理
IP
资源,防止所述下载器和所述解析器被封禁或限制;所述分析处理器用于对下载的泛媒体资源的内容进行数据分析

数据清洗和数据归档处理;所述可视化展示工具对经过所述分析处理器处理的数据进行多维度可视化展示,所述可视化展示工具支持用户对数据进行交互和探索
。2.
根据权利要求1所述的多线程泛媒体资源可视化采集框架,其特征在于,所述解析器全部内容解析完成,且任务队列为空时,所述线程池结束运行,或所述控制器发出停止

暂停或...

【专利技术属性】
技术研发人员:韩毅
申请(专利权)人:吉林外国语大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1