System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 数据获取方法、装置、电子设备和计算机可读介质制造方法及图纸_技高网

数据获取方法、装置、电子设备和计算机可读介质制造方法及图纸

技术编号:41282682 阅读:3 留言:0更新日期:2024-05-11 09:32
本公开的实施例公开了数据获取方法、装置、电子设备和计算机可读介质。该方法的一具体实施方式包括:获取数据获取信息;从目标存储数据库中获取目标数据集;对目标数据集执行至少一次数据截取操作,得到至少一个数据子集;对于每个数据子集,执行第一确定步骤:确定数据重要程度信息、数据影响程度信息;生成数据质量评分;响应于确定数据质量评分大于或等于第一数值,将数据子集确定为候选数据子集;筛选出对应数据质量评分处于前目标数目个候选数据子集,得到候选数据子集组;生成实际待获取数据集;将实际待获取数据集发送至数据存储设备。该实施方式可以在确定数据不会泄露的前提下,精准地获取所需的高质量数据集。

【技术实现步骤摘要】

本公开的实施例涉及计算机,具体涉及数据获取方法、装置、电子设备和计算机可读介质


技术介绍

1、目前,在大数据时代中,数据集成为当前各个企业的宝贵资产,如果获取有效数据集成为当前企业的重点发展方向。对于数据集的获取,通常采用的方式为:通过直接收集或购买的方式,来获取相关数据集。

2、然而,专利技术人发现,当采用上述方式,经常会存在如下技术问题一:

3、所需数据集的体量一般较大,直接收集的方式存在收集时间长,且所收集的数据往往不够完整,导致所收集的数据集的质量较差。除此之外,通过购买的方式,所购买的数据集与所需数据集可能存在较大偏差,导致所得到的数据集的质量同样较差,大大影响后续业务的精准进行。

4、在采用技术方案来解决上述技术问题一的过程中,往往又会伴随着如下技术问题二:如何精准地生成针对上述数据子集的数据质量评分。针对上述技术问题二,常规的解决方案一般是:直接将数据子集等相关信息直接输入至数据质量评分生成模型,以生成数据质量评分。然而,上述常规解决方案依然存在如下问题:不能有效地针对数据质量评分生成模型的输出结果进行有效评估,导致所输出的数据质量评分不够精准。

5、该
技术介绍
部分中所公开的以上信息仅用于增强对本专利技术构思的背景的理解,并因此,其可包含并不形成本国的本领域普通技术人员已知的现有技术的信息。


技术实现思路

1、本公开的内容部分用于以简要的形式介绍构思,这些构思将在后面的具体实施方式部分被详细描述。本公开的内容部分并不旨在标识要求保护的技术方案的关键特征或必要特征,也不旨在用于限制所要求的保护的技术方案的范围。

2、本公开的一些实施例提出了数据获取方法、装置、电子设备和计算机可读介质,来解决以上
技术介绍
部分提到的技术问题中的一项或多项。

3、第一方面,本公开的一些实施例提供了一种数据获取方法,包括:获取在目标数据获取平台中所输入的数据获取信息,其中,上述数据获取信息包括:数据量信息、数据范围信息和数据领域信息;根据上述数据领域信息,从目标存储数据库中获取目标数据集;根据上述数据量信息和上述数据范围信息,对上述目标数据集执行至少一次数据截取操作,得到至少一个数据子集;对于上述至少一个数据子集中的每个数据子集,执行以下第一确定步骤:确定上述数据子集对应的数据重要程度信息、数据影响程度信息;根据上述数据重要程度信息、上述数据影响程度信息,利用数据质量评分生成模型,生成针对上述数据子集的数据质量评分;响应于确定上述数据质量评分大于或等于第一数值,将上述数据子集确定为候选数据子集;从所得到的至少一个候选数据子集中筛选出对应数据质量评分处于前目标数目个候选数据子集,得到候选数据子集组;根据上述候选数据子集组,生成针对上述数据获取信息的实际待获取数据集;通过异步传输的方式,将上述实际待获取数据集发送至上述目标数据获取平台所连接的、用户所插入的数据存储设备。

4、第二方面,本公开的一些实施例提供了一种数据获取装置,包括:第一获取单元,被配置成获取在目标数据获取平台中所输入的数据获取信息,其中,上述数据获取信息包括:数据量信息、数据范围信息和数据领域信息;第二获取单元,被配置成根据上述数据领域信息,从目标存储数据库中获取目标数据集;截取单元,被配置成根据上述数据量信息和上述数据范围信息,对上述目标数据集执行至少一次数据截取操作,得到至少一个数据子集;执行单元,被配置成对于上述至少一个数据子集中的每个数据子集,执行以下第一确定步骤:确定上述数据子集对应的数据重要程度信息、数据影响程度信息;根据上述数据重要程度信息、上述数据影响程度信息,利用数据质量评分生成模型,生成针对上述数据子集的数据质量评分;响应于确定上述数据质量评分大于或等于第一数值,将上述数据子集确定为候选数据子集;筛选单元,被配置成从所得到的至少一个候选数据子集中筛选出对应数据质量评分处于前目标数目个候选数据子集,得到候选数据子集组;生成单元,被配置成根据上述候选数据子集组,生成针对上述数据获取信息的实际待获取数据集;发送单元,被配置成通过异步传输的方式,将上述实际待获取数据集发送至上述目标数据获取平台所连接的、用户所插入的数据存储设备。

5、第三方面,本公开的一些实施例提供了一种电子设备,包括:一个或多个处理器;存储装置,其上存储有一个或多个程序,当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现如第一方面中任一实现方式描述的方法。

6、第四方面,本公开的一些实施例提供了一种计算机可读介质,其上存储有计算机程序,其中,程序被处理器执行时实现如第一方面中任一实现方式描述的方法。

7、本公开的上述各个实施例具有如下有益效果:通过本公开的一些实施例的数据获取方法可以在确定数据不会泄露的前提下,精准地获取所需的高质量数据集。具体来说,造成相关的数据集不够高质量的原因在于:所需数据集的体量一般较大,直接收集的方式存在收集时间长,且所收集的数据往往不够完整,导致所收集的数据集的质量较差。除此之外,通过购买的方式,所购买的数据集与所需数据集可能存在较大偏差,导致所得到的数据集的质量同样较差,大大影响后续业务的精准进行基于此,本公开的一些实施例的数据获取方法,首先,获取在目标数据获取平台中所输入的数据获取信息。其中,上述数据获取信息包括:数据量信息、数据范围信息和数据领域信息。在这里,所获取的数据获取信息中的数据量信息、数据范围信息和数据领域信息以用于后续高质量的数据集获取。然后,根据上述数据领域信息,从目标存储数据库中获取目标数据集,以作为基础数据集,来获取后续高质量的数据集。接着,根据上述数据量信息和上述数据范围信息,对上述目标数据集执行至少一次数据截取操作,得到至少一个数据子集,以通过多次数据截取的方式,来精准获取高质量的数据集。再接着,对于上述至少一个数据子集中的每个数据子集,执行以下第一确定步骤:第一步,确定上述数据子集对应的数据重要程度信息、数据影响程度信息。在这里,通过确定数据重要程度信息和数据影响程度信息,以作为确定数据质量的相关指标信息,以确定每个数据子集对应的数值质量,以便于后续确定出精准的高质量数据集。第二步,根据上述数据重要程度信息、上述数据影响程度信息,利用数据质量评分生成模型,可以精准地生成针对上述数据子集的数据质量评分,以用于表征数据子集的数据质量程度。第三步,响应于确定上述数据质量评分大于或等于第一数值,将上述数据子集确定为候选数据子集。进一步,从所得到的至少一个候选数据子集中筛选出对应数据质量评分处于前目标数目个候选数据子集,得到候选数据子集组,以便于初步筛选出质量相对高的目标数目个候选数据子集,以进行后续的数据集适合度更为精准确定。进而,根据上述候选数据子集组,可以精准地生成针对上述数据获取信息的实际待获取数据集,以作为精准的、高质量的数据集。最后,通过异步传输的方式,将上述实际待获取数据集发送至上述目标数据获取平台所连接的、用户所插入的数据存储设备。综上,通过数据获取信息包括的数据量信息、数据范围信息和数据本文档来自技高网...

【技术保护点】

1.一种数据获取方法,包括:

2.根据权利要求1所述的方法,其中,所述根据所述数据领域信息,从目标存储数据库中获取目标数据集,包括:

3.根据权利要求1所述的方法,其中,在所述响应于确定所述数据质量评分大于或等于第一数值,将所述数据子集确定为候选数据子集之后,所述方法还包括:

4.根据权利要求3所述的方法,其中,所述数据获取信息还包括:数据获取目的信息和数据占用大小;以及

5.根据权利要求4所述的方法,其中,所述根据所述第一数据属性序列、所述第二数据属性序列和所述数据占用大小,生成针对所述数据子集的调整数据子集,包括:

6.根据权利要求1所述的方法,其中,所述根据所述数据领域信息,从目标存储数据库中获取目标数据集,包括:

7.根据权利要求6所述的方法,其中,所述目标数据集通过以下步骤获取:

8.一种数据获取装置,包括:

9.一种电子设备,包括:

10.一种计算机可读介质,其上存储有计算机程序,其中,所述程序被处理器执行时实现如权利要求1-7中任一所述的方法。

【技术特征摘要】

1.一种数据获取方法,包括:

2.根据权利要求1所述的方法,其中,所述根据所述数据领域信息,从目标存储数据库中获取目标数据集,包括:

3.根据权利要求1所述的方法,其中,在所述响应于确定所述数据质量评分大于或等于第一数值,将所述数据子集确定为候选数据子集之后,所述方法还包括:

4.根据权利要求3所述的方法,其中,所述数据获取信息还包括:数据获取目的信息和数据占用大小;以及

5.根据权利要求4所述的方法,其中,所述根据所述第一数据属性序列、...

【专利技术属性】
技术研发人员:王艺星葛殿永
申请(专利权)人:朴道征信有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1