【技术实现步骤摘要】
一种屏幕截图式大数据采集方法
[0001]本专利技术涉及数据的处理和管理;具体涉及一种基于屏幕截图的高效实时大数据采集方法。
技术介绍
[0002]目前,随着大数据和人工智能技术的蓬勃发展,数据的采集和管理成为了很多公司和组织面临的一项重要问题,传统的数据采集方式效率低下,并且需要进行人工修改审核,耗费大量时间和人力,在互联网时代,许多数据都以图形或表格的形式呈现,因此如何高效、稳定地提取和保存图形或表格类型的数据成为新的挑战。
技术实现思路
[0003]本专利技术针对上述问题,提供一种屏幕截图式大数据采集方法,解决了传统数据采集方式效率低下,耗费大量时间和人力的问题。
[0004]本专利技术采用的技术方案为:包括以下步骤:获取适用特定字段特征的预训练CRNN模型;定时截取屏幕,获取动态数据的截屏图像;利用opencv图像处理算法分割出表格数据区域,进一步分割出单元格区域图像;使用预训练CRNN模型对单元格区域图像进行文字识别;文本结构化处理;通过访问Redis服务器筛选出新数据;持久化存储截屏识别文 ...
【技术保护点】
【技术特征摘要】
1.一种屏幕截图式大数据采集方法,其特征在于,包括以下步骤:获取适用特定字段特征的预训练CRNN模型;定时截取屏幕,获取动态数据的截屏图像;利用opencv图像处理算法分割出表格数据区域,进一步分割出单元格区域图像;使用预训练CRNN模型对单元格区域图像进行文字识别;文本结构化处理;通过访问Redis服务器筛选出新数据;持久化存储截屏识别文本数据。2.根据权利要求1所述的屏幕式大数据采集方法,其特征在于,所述获取使用特定字段特征的预训练CRNN模型包括:在synthetic Chinese string dataset 中文识别数据集上训练得到一个预训练CRNN模型,然后使用该模型为固定特征提取器应用于单元格图像文字识别的任务中。3.根据权利要求1所述的屏幕式大数据采集方法,其特征在于,所述定时截取屏幕,获取动态数据的截屏图像包括:统计数据更新频率,使用对数据库中记录的更新频率、单位实际更新数据的条目进行统计分析;统计分析;;其中,n≥1,n为可调系数;设定系统变量,设定定时更新间隔变量和缓存数据条目数变量;定时截取屏幕和数据,由计算机程序定时截取显示屏幕中动态更新的图标数据;利用Python在应用系统线程中启动一个子线程,负责按照设定的定时更新间隔变量后周期性地执行截取屏幕上实时更新的图表数据任务,并将截屏图像传递给处理层;所述定时截取屏幕数据的工作处理流程为:通过win32gui.EnumWindows()函数获取电脑所有已启动应用窗口的句柄;使用...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。