System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本申请涉及数据处理,特别是涉及一种工业领域的非结构化数据采集方法、系统、设备和介质。
技术介绍
1、随着物联网技术的快速发展,越来越多的设备与传感器被部署到各个工业领域中,产生了大量的非结构化数据,这些数据包括但不限于文本、图像、音频和视频等形式,其特点是数据格式不统一、内容复杂多样且数据采集难度极大。
2、目前,大多数传统采集方法无法同时有效的支持多种格式数据来源,往往需要针对某种特定格式定制化数据采集,并且存在过多的人工操作情况,尤其在大规模非结构化数据采集过程中,数据安全传输与完整难以得到保证,这些采集系统难以满足工业领域的数据增长需求,同时存在诸多缺陷也严重限制了工业领域大规模非结构化数据采集的高效性与扩展性。
技术实现思路
1、基于此,有必要针对上述技术问题,提供一种能够进行多样化非结构化工业数据采用的工业领域的非结构化数据采集方法、系统、设备和介质。
2、一种工业领域的非结构化数据采集方法,所述方法包括:
3、在注册管理界面录入工业领域的多个业务系统信息并保存至注册表中即为注册系统,在文件管理界面指定注册系统且录入多个相关的非结构化文件的配置信息并保存至文件表中;
4、在任务调度单元中,采用任务时间预测模型以及任务取数频率模型分别对每一个注册系统的任务下发时间进行预测和任务执行频率进行决策;
5、在远程数据采集单元中,根据由所述任务调度单元预测得到的各注册系统的任务下发时间和任务执行频率,采用采集权限控制模型以
6、在异常报警单元中,采用异常文件报警模型对所述非结构化文件进行异常判断,并对判断为新增文件、丢失文件以及错位文件的异常文件进行报警推送;
7、在异常录入单元中,采用异常文件录入模型对判断为异常文件的非结构化文件进行数据录入。
8、在其中一实施例中,在注册管理界面录入工业领域的多个业务系统信息并保存至注册表中即为注册系统,在文件管理界面指定注册系统且录入多个相关的非结构化文件的配置信息并保存至文件表中之后,还包括:
9、在数据建模单元中,采用注册系统数据模型对业务系统基础注册特征进行数据建模,采用异常文件数据模型对非结构化异常文件特征进行数据建模。
10、在其中一实施例中,在所述任务时间预测模型中:
11、将所述注册系统对应的历史数据作为样本矩阵,采用延时样本抽样模型对所述样本矩阵中的延迟时长进行随机抽样,得到延迟随机抽样数据;
12、采用延时聚类训练模型对所述延迟随机抽样数据进行模型训练,得到多个聚类中心簇值;
13、采用延时分类判定模型对所述多个聚类中心簇值进行分类判定,并得到判定为延迟正常类的聚类中心簇值;
14、根据所述判定为延迟正常类的聚类中心簇值进行任务时间预估,得到所述任务下发时间。
15、在其中一实施例中,在所述任务取数频率模型中,根据任务频率规则确定各所述注册系统的任务执行频率,其中,所述任务执行频率包括按天取数、按周取数、按月取数、按季取数和按年取数。
16、在其中一实施例中,在所述远程数据采集单元中:
17、基于所述采集权限控制模型判定当前时间点是否拥有任务权限;
18、当获得任务权限后基于轮询方式调用远程取数脚本,并基于采集时间策略模型填充脚本配置中日期变量,同时获取每次远程取数的返回结果;
19、当在权限控制范围内返回结果为空时,设置短暂休眠后进行下一轮任务调用,当返回结果非空时将远程源文件包存储到本地目录,任务执行判定为成功;
20、当在权限范围内未获取到远程源文件包时,任务终止执行并判定为失败;
21、对本地源文件包中的非结构化数据文件进行解压,得到解压后的非结构化数据文件。
22、在其中一实施例中,在所述异常文件报警模型中:
23、获取由所述远程数据采集单元得到的非结构化数据文件,并从所述文件表中提取相关的文件配置信息;
24、将所述非结构化数据文件与文件配置信息进行比较,进行新增文件和丢失文件的判定;
25、对所述非结构化文件进行解析,得到每行数据的末尾标志位,通过判定末尾标志位是否属于正常类定义范围,若不属于则判定为错位文件;
26、对判断为异常文件的非结构化文件进行基础特征提取,并将提取得到的基础特征进行报警信息推送。
27、本申请还提供了一种工业领域的非结构化数据采集系统,所述装置包括:
28、业务系统注册模块,用于在注册管理界面录入工业领域的多个业务系统信息并保存至注册表中即为注册系统,在文件管理界面指定注册系统且录入多个相关的非结构化文件的配置信息并保存至文件表中;
29、任务调度模块,用于在任务调度单元中,采用任务时间预测模型以及任务取数频率模型分别对每一个注册系统的任务下发时间进行预测和任务执行频率进行决策;
30、远程数据采集模块,用于在远程数据采集单元中,根据由所述任务调度单元预测得到的各注册系统的任务下发时间和任务执行频率,采用采集权限控制模型以及采集时间策略模型对各注册系统下发的非结构化文件进行采集;
31、异常报警模块,用于在异常报警单元中,采用异常文件报警模型对所述非结构化文件进行异常判断,并对判断为新增文件、丢失文件以及错位文件的异常文件进行报警推送;
32、异常录入模块,用于在异常录入单元中,采用异常文件录入模型对判断为异常文件的非结构化文件进行数据录入。
33、一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
34、在注册管理界面录入工业领域的多个业务系统信息并保存至注册表中即为注册系统,在文件管理界面指定注册系统且录入多个相关的非结构化文件的配置信息并保存至文件表中;
35、在任务调度单元中,采用任务时间预测模型以及任务取数频率模型分别对每一个注册系统的任务下发时间进行预测和任务执行频率进行决策;
36、在远程数据采集单元中,根据由所述任务调度单元预测得到的各注册系统的任务下发时间和任务执行频率,采用采集权限控制模型以及采集时间策略模型对各注册系统下发的非结构化文件进行采集;
37、在异常报警单元中,采用异常文件报警模型对所述非结构化文件进行异常判断,并对判断为新增文件、丢失文件以及错位文件的异常文件进行报警推送;
38、在异常录入单元中,采用异常文件录入模型对判断为异常文件的非结构化文件进行数据录入。
39、一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
40、在注册管理界面录入工业领域的多个业务系统信息并保存至注册表中即为注册系统,在文件管理界面指定注册系统且录入多个相关的非结构化文件的配置本文档来自技高网...
【技术保护点】
1.一种工业领域的非结构化数据采集方法,其特征在于,所述方法包括:
2.根据权利要求1所述的非结构化数据采集方法,其特征在于,在注册管理界面录入工业领域的多个业务系统信息并保存至注册表中即为注册系统,在文件管理界面指定注册系统且录入多个相关的非结构化文件的配置信息并保存至文件表中之后,还包括:
3.根据权利要求2所述的非结构化数据采集方法,其特征在于,在所述任务时间预测模型中:
4.根据权利要求3所述的非结构化数据采集方法,其特征在于,在所述任务取数频率模型中,根据任务频率规则确定各所述注册系统的任务执行频率,其中,所述任务执行频率包括按天取数、按周取数、按月取数、按季取数和按年取数。
5.根据权利要求4所述的非结构化数据采集方法,其特征在于,在所述远程数据采集单元中:
6.根据权利要求5所述的非结构化数据采集方法,其特征在于,在所述异常文件报警模型中:
7.一种工业领域的非结构化数据采集系统,其特征在于,所述装置包括:
8.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。
...【技术特征摘要】
1.一种工业领域的非结构化数据采集方法,其特征在于,所述方法包括:
2.根据权利要求1所述的非结构化数据采集方法,其特征在于,在注册管理界面录入工业领域的多个业务系统信息并保存至注册表中即为注册系统,在文件管理界面指定注册系统且录入多个相关的非结构化文件的配置信息并保存至文件表中之后,还包括:
3.根据权利要求2所述的非结构化数据采集方法,其特征在于,在所述任务时间预测模型中:
4.根据权利要求3所述的非结构化数据采集方法,其特征在于,在所述任务取数频率模型中,根据任务频率规则确定各所述注册系统的任务执行频率,其中,所述任务执行频率包括按天取数、按周取数、按月取数、按...
【专利技术属性】
技术研发人员:刘洋,贺群雄,涂平,梁春峰,曹林,张林宇,刘准,仇亚龙,李志超,彭中益,王斯政,廖佳佳,刘博,金剑,王晓辉,梁爽,
申请(专利权)人:中电工业互联网有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。