System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种元数据的采集方法及系统技术方案_技高网

一种元数据的采集方法及系统技术方案

技术编号:40597871 阅读:3 留言:0更新日期:2024-03-12 22:01
本申请提供一种元数据的采集方法及系统,属于数据采集和处理技术领域。所述方法包括:按照当前的采集周期,采集数据源的元数据;根据采集到的元数据,检测所述元数据是否发生变更;在所述元数据发生变更的情况下,获取所述元数据的周期调整指标,所述周期调整指标包括元数据的变更次数和每次变更发生的时间;根据所述元数据的周期调整指标,更新所述元数据的采集周期;按照更新后的采集周期,采集所述数据源的元数据。本申请能够根据元数据的变更情况以及查询次数等因素,动态调整元数据采集周期计划,提高了元数据的采集效率,并且,动态调整使得采集周期更加合理及时,从而能够为客户提供更加精确的元数据信息。

【技术实现步骤摘要】

本申请涉及数据采集和处理,特别是指一种元数据的采集方法及系统


技术介绍

1、数据源的元数据是数据中的数据,例如,一本书的isbn(条形码)可以认为是书的元数据。但是,在实际的数据采集和处理中,数据源的元数据并非一成不变的。在某些场景下,元数据可能发生变化,甚至是频繁变化。

2、为了能够采集变更后的元数据,现有技术的一种方案是通过定时器进行定期采集变更后的元数据。具体的采集周期通常是人为设置。这种人为设置采集周期的做法,由于依赖于人工设置,因此存在着效率低下的问题。另外,人为设置周期具有很大的随意性,且需要依赖于操作人员的个人经验,难以及时准确地获得更新的元数据。


技术实现思路

1、本申请要解决的技术问题是提供一种元数据的采集方法及系统,用以解决现有技术难以及时准确地获得更新的元数据的问题。

2、为解决上述技术问题,本申请的实施例提供技术方案如下:

3、一方面,本申请实施例提供一种元数据的采集方法,包括:

4、按照当前的采集周期,采集数据源的元数据;

5、根据采集到的元数据,检测所述元数据是否发生变更;

6、在所述元数据发生变更的情况下,获取所述元数据的周期调整指标,所述周期调整指标包括元数据的变更次数和每次变更发生的时间;

7、根据所述元数据的周期调整指标,更新所述元数据的采集周期;

8、按照更新后的采集周期,采集所述数据源的元数据。

9、本申请的可选实施例中,获取所述元数据的周期调整指标,包括:通过查询所述数据源的数据源日志,获取最近一个第一采集周期内所述元数据的变更次数和每次变更发生的时间。

10、本申请的可选实施例中,根据所述元数据的周期调整指标,更新所述元数据的采集周期,包括:

11、根据每次变更发生的时间,确定每次变更所属的时间区间,并统计每个时间区间内的变更次数,其中,所述采集周期被划分为多个连续且互不重叠的时间区间;

12、对所有时间区间内的变更次数进行加权平均计算,得到所述采集周期内所述元数据的加权变更次数,其中,每个时间区间内的变更次数的权重,与该时间区间距离当前时间的时间间隔负相关;

13、根据所述加权变更次数调整当前的第一采集周期,得到第二采集周期。

14、本申请的可选实施例中,在得到所述第二采集周期之后,所述方法还包括:

15、计算所述元数据对应的数据集的查询频次的增长幅度;

16、在所述增长幅度超过预设阈值的情况下,按照预设算法减小所述第二采集周期,得到第三采集周期。

17、本申请的可选实施例中,计算所述元数据对应的数据集的查询频次的增长幅度,包括:

18、获取所述数据集在t1内的第一查询次数以及在t2内的第二查询次数,其中,t1表示距当前时间最近的一个采集周期,t2表示与t1相邻的一个采集周期;计算第一查询次数与第二查询次数的比值,得到所述增长幅度。

19、本申请的可选实施例中,还包括:

20、在增加新数据源的元数据采集的情况下,计算已有数据源的元数据的采集周期的平均值,作为该新数据源的元数据的采集周期。

21、另一方面,本申请实施例还提供了一种元数据的采集系统,包括:

22、第一采集模块,用于按照当前的采集周期,采集数据源的元数据;

23、检测模块,用于根据采集到的元数据,检测所述元数据是否发生变更;

24、获取模块,用于在所述元数据发生变更的情况下,获取所述元数据的周期调整指标,所述周期调整指标包括元数据的变更次数和每次变更发生的时间;

25、更新模块,用于根据所述元数据的周期调整指标,更新所述元数据的采集周期;

26、第二采集模块,用于按照更新后的采集周期,采集所述数据源的元数据。

27、本申请的可选实施例中,所述获取模块,还用于通过查询所述数据源的数据源日志,获取最近一个第一采集周期内所述元数据的变更次数和每次变更发生的时间。

28、本申请的可选实施例中,所述更新模块,还用于根据每次变更发生的时间,确定每次变更所属的时间区间,并统计每个时间区间内的变更次数,其中,所述采集周期被划分为多个连续且互不重叠的时间区间;对所有时间区间内的变更次数进行加权平均计算,得到所述采集周期内所述元数据的加权变更次数,其中,每个时间区间内的变更次数的权重,与该时间区间距离当前时间的时间间隔负相关;根据所述加权变更次数调整当前的第一采集周期,得到第二采集周期。

29、本申请的可选实施例中,所述更新模块,还用于在得到所述第二采集周期之后,计算所述元数据对应的数据集的查询频次的增长幅度;在所述增长幅度超过预设阈值的情况下,按照预设算法减小所述第二采集周期,得到第三采集周期。

30、本申请的可选实施例中,所述更新模块,还用于获取所述数据集在t1内的第一查询次数以及在t2内的第二查询次数,其中,t1表示距当前时间最近的一个采集周期,t2表示与t1相邻的一个采集周期;计算第一查询次数与第二查询次数的比值,得到所述增长幅度。

31、本申请的可选实施例中,还包括:

32、配置模块,用于在增加新数据源的元数据采集的情况下,计算已有数据源的元数据的采集周期的平均值,作为该新数据源的元数据的采集周期。

33、本申请实施例还提供了一种元数据的采集系统,包括:

34、处理器;和存储器,在所述存储器中存储有计算机程序指令,

35、其中,在所述计算机程序指令被所述处理器运行时,使得所述处理器执行如上所述的元数据的采集方法中的步骤。

36、本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器运行时,使得所述处理器执行如上所述的元数据的采集方法中的步骤。

37、本申请的实施例具有以下有益效果:

38、本申请能够根据元数据的变更情况以及查询次数等因素,动态调整元数据采集周期计划,在充分利用元数据采集平台功能的同时,提高了数据源元数据的采集效率,同时,动态调整使得采集周期更加合理及时,从而能够为客户提供更加精确的元数据信息。

本文档来自技高网...

【技术保护点】

1.一种元数据的采集方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,获取所述元数据的周期调整指标,包括:通过查询所述数据源的数据源日志,获取最近一个第一采集周期内所述元数据的变更次数和每次变更发生的时间。

3.根据权利要求2所述的方法,其特征在于,根据所述元数据的周期调整指标,更新所述元数据的采集周期,包括:

4.根据权利要求3所述的方法,其特征在于,在得到所述第二采集周期之后,所述方法还包括:

5.根据权利要求4所述的方法,其特征在于,计算所述元数据对应的数据集的查询频次的增长幅度,包括:

6.根据权利要求1至5任一项所述的方法,其特征在于,还包括:

7.一种元数据的采集系统,其特征在于,包括:

8.根据权利要求7所述的系统,其特征在于,

9.根据权利要求8所述的系统,其特征在于,

10.根据权利要求9所述的系统,其特征在于,

11.根据权利要求10所述的系统,其特征在于,

12.根据权利要求7至11任一项所述的系统,其特征在于,还包括:

...

【技术特征摘要】

1.一种元数据的采集方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,获取所述元数据的周期调整指标,包括:通过查询所述数据源的数据源日志,获取最近一个第一采集周期内所述元数据的变更次数和每次变更发生的时间。

3.根据权利要求2所述的方法,其特征在于,根据所述元数据的周期调整指标,更新所述元数据的采集周期,包括:

4.根据权利要求3所述的方法,其特征在于,在得到所述第二采集周期之后,所述方法还包括:

5.根据权利要求4所述的方法,其特...

【专利技术属性】
技术研发人员:刘锋
申请(专利权)人:株式会社日立制作所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1