数据抽取方法、装置、计算机设备和存储介质制造方法及图纸

技术编号:22688818 阅读:9 留言:0更新日期:2019-11-30 03:31
本申请涉及一种数据抽取方法、装置、计算机设备和存储介质。所述方法包括:获取携带有待抽取数据标识的数据抽取任务;根据所述数据抽取任务获取与所述待抽取数据标识对应的待抽取数据;从所述待抽取数据中分页抽取中间数据,所述中间数据中包括错误标识数据;统计所述错误标识数据所对应的多种特征信息;计算在所述中间数据中所述特征信息分别对应的数据错误率,将所述数据错误率大于第一阈值的特征信息标记为目标特征;根据所述目标特征生成抽取条件;根据所述抽取条件从所述待抽取数据中进行抽取,得到符合所述抽取条件的目标数据。采用本方法能够提高数据抽取的准确性。

Data extraction method, device, computer equipment and storage medium

The application relates to a data extraction method, a device, a computer device and a storage medium. The method comprises the following steps: acquiring the data extraction task carrying the identification of the data to be extracted; acquiring the data to be extracted corresponding to the identification of the data to be extracted according to the data extraction task; extracting the intermediate data from the data to be extracted in pages, the intermediate data including the error identification data; making statistics of the multiple feature information corresponding to the error identification data; calculating the data in the The data error rate corresponding to the feature information in the intermediate data respectively marks the feature information whose data error rate is greater than the first threshold as the target feature; generates the extraction condition according to the target feature; extracts from the data to be extracted according to the extraction condition to obtain the target data meeting the extraction condition. This method can improve the accuracy of data extraction.

【技术实现步骤摘要】
数据抽取方法、装置、计算机设备和存储介质
本申请涉及计算机
,特别是涉及一种数据抽取方法、装置、计算机设备和存储介质。
技术介绍
随着计算机技术的发展,计算机可以处理大量的数据。为了保证得到的数据的正确性,用户通常需要对得到的数据进行检查。由于数据的海量增加,依次检查全部的数据非常耗费时间成本和工作资源。因此,出现了对数据的抽检方式。通过对抽取出的部分数据进行检查,以此来评估全部数据的整体数据质量。在传统方式中,抽取数据的方式通常是针对全部的数据一次性随机抽取出部分数据用于检查。但是,这种方式抽取出的数据只是整体数据中的一部分,随机抽取得到的数据存在偶然性,并不能够准确的反映整体数据的数据质量。因此,为了抽取出的数据能够准确的反映整体数据的数据质量,如何准确的抽取数据成为目前需要解决的技术问题。
技术实现思路
基于此,有必要针对上述数据抽取不准确的技术问题,提供一种能够提高数据抽取准确性的数据抽取方法、装置、计算机设备和存储介质。一种数据抽取方法,所述方法包括:获取携带有待抽取数据标识的数据抽取任务;根据所述数据抽取任务获取与所述待抽取数据标识对应的待抽取数据;从所述待抽取数据中分页抽取中间数据,所述中间数据中包括错误标识数据;统计所述错误标识数据所对应的多种特征信息;计算在所述中间数据中所述特征信息分别对应的数据错误率,将所述数据错误率大于第一阈值的特征信息标记为目标特征;根据所述目标特征生成抽取条件;根据所述抽取条件从所述待抽取数据中进行抽取,得到符合所述抽取条件的目标数据。在其中一个实施例中,所述数据抽取任务中还携带了所述中间数据对应的配置信息,所述配置信息中包括数量占比;所述从所述待抽取数据中分页抽取中间数据包括:获取内存资源信息,根据所述内存资源信息确定数据容量条件;从所述待抽取数据中提取满足所述数据容量条件的原始数据;基于过滤条件对所述原始数据进行过滤,得到过滤后的数据;从所述过滤后的数据中按照所述数量占比进行随机抽取,得到中间数据;重复执行所述从所述待抽取数据中抽取满足所述数据容量条件的原始数据的步骤,直到遍历所有所述待抽取数据。在其中一个实施例中,所述配置信息中还包括属性信息;所述根据所述内存资源信息确定数据容量条件包括:根据所述属性信息确定每个属性对应的数据的内存占用空间;统计所述配置信息中所述中间数据包括的所有属性对应的数据的内存占用空间之和,得到所述中间数据对应的内存占用空间;计算所述内存资源信息中的内存资源空间与所述中间数据对应的内存占用空间的比值,生成数据容量条件。在其中一个实施例中,所述根据所述目标特征生成抽取条件包括:将不同特征类型的目标特征进行组合,得到多个组合条件;根据所述组合条件从所述中间数据中提取对应的测试数据;利用所述测试数据计算在所述中间数据中所述组合条件对应的数据错误率;将所述数据错误率大于第二阈值且包含的所述目标特征最多的组合条件标记为抽取条件。在其中一个实施例中,在所述根据所述抽取条件从所述待抽取数据中进行抽取,得到符合所述抽取条件的目标数据的步骤之后,所述方法还包括:将所述目标数据对应的数据量与所述中间数据对应的数据量进行比对;当所述目标数据对应的数据量大于所述中间数据对应的数据量时,则从所述目标数据中随机抽取所述中间数据对应数据量的目标数据。一种数据抽取装置,所述装置包括:任务获取模块,用于获取携带有待抽取数据标识的数据抽取任务;数据获取模块,用于根据所述数据抽取任务获取与所述待抽取数据标识对应的待抽取数据;数据抽取模块,用于从所述待抽取数据中分页抽取中间数据,所述中间数据中包括错误标识数据;特征信息统计模块,用于统计所述错误标识数据所对应的多种特征信息;目标特征标记模块,用于计算在所述中间数据中所述特征信息分别对应的数据错误率,将所述数据错误率大于第一阈值的特征信息标记为目标特征;抽取条件生成模块,用于根据所述目标特征生成抽取条件;所述数据抽取模块还用于根据所述抽取条件从所述待抽取数据中进行抽取,得到符合所述抽取条件的目标数据。在其中一个实施例中,所述数据抽取任务中还携带了所述中间数据对应的配置信息,所述配置信息中包括数量占比;所述数据抽取模块还用于获取内存资源信息,根据所述内存资源信息确定数据容量条件;从所述待抽取数据中提取满足所述数据容量条件的原始数据;基于过滤条件对所述原始数据进行过滤,得到过滤后的数据;从所述过滤后的数据中按照所述数据占比进行随机抽取,得到中间数据;重复执行所述从所述待抽取数据中抽取满足所述数据容量条件的原始数据的步骤,直到遍历所有所述待抽取数据。在其中一个实施例中,所述配置信息中还包括属性信息;所述数据抽取模块还用于根据所述属性信息确定每个属性对应的数据的内存占用空间;统计所述配置信息中所述中间数据包括的所有属性对应的数据的内存占用空间之和,得到所述中间数据对应的内存占用空间;计算所述内存资源信息中的内存资源空间与所述中间数据对应的内存占用空间的比值,生成数据容量条件。一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述数据抽取方法的步骤。一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述数据抽取方法步骤。上述数据抽取方法、装置、计算机设备和存储介质,根据得到的数据抽取任务获取待抽取数据,从待抽取数据中分页抽取出中间数据,统计中间数据中错误标识数据对应的多种特征信息。通过统计错误标识数据的特征信息,确定出错误率较高的目标特征,根据目标特征生成抽取条件,从待抽取数据中抽取符合抽取条件的目标数据。与传统方式相比,通过统计待抽取数据中的错误标识数据对应的多种特征信息,生成符合目标特征的抽取条件,按照抽取条件抽取出的目标数据能够准确的反映整体待抽取数据的数据质量,有效的提高了数据抽取的准确性。附图说明图1为一个实施例中数据抽取方法的应用环境图;图2为一个实施例中数据抽取方法的流程示意图;图3为一个实施例中根据目标特征生成抽取条件的步骤的流程示意图;图4为一个实施例中数据抽取装置的结构框图;图5为一个实施例中计算机设备的内部结构图。具体实施方式为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。本申请提供的数据抽取方法,可以应用于终端上,也可以应用于如图1所示的应用环境中。这里以应用于如图1所示的应用环境中为例。其中,终端102通过网络与服务器104进行通信。终端102可以向服务器104上传携带有待抽取数据标识的数据抽取请求,服务器根据接收到的数据抽取请求,生本文档来自技高网...

【技术保护点】
1.一种数据抽取方法,所述方法包括:/n获取携带有待抽取数据标识的数据抽取任务;/n根据所述数据抽取任务获取与所述待抽取数据标识对应的待抽取数据;/n从所述待抽取数据中分页抽取中间数据,所述中间数据中包括错误标识数据;/n统计所述错误标识数据所对应的多种特征信息;/n计算在所述中间数据中所述特征信息分别对应的数据错误率,将所述数据错误率大于第一阈值的特征信息标记为目标特征;/n根据所述目标特征生成抽取条件;/n根据所述抽取条件从所述待抽取数据中进行抽取,得到符合所述抽取条件的目标数据。/n

【技术特征摘要】
1.一种数据抽取方法,所述方法包括:
获取携带有待抽取数据标识的数据抽取任务;
根据所述数据抽取任务获取与所述待抽取数据标识对应的待抽取数据;
从所述待抽取数据中分页抽取中间数据,所述中间数据中包括错误标识数据;
统计所述错误标识数据所对应的多种特征信息;
计算在所述中间数据中所述特征信息分别对应的数据错误率,将所述数据错误率大于第一阈值的特征信息标记为目标特征;
根据所述目标特征生成抽取条件;
根据所述抽取条件从所述待抽取数据中进行抽取,得到符合所述抽取条件的目标数据。


2.根据权利要求1所述的方法,其特征在于,所述数据抽取任务中还携带了所述中间数据对应的配置信息,所述配置信息中包括数量占比;所述从所述待抽取数据中分页抽取中间数据包括:
获取内存资源信息,根据所述内存资源信息确定数据容量条件;
从所述待抽取数据中提取满足所述数据容量条件的原始数据;
基于过滤条件对所述原始数据进行过滤,得到过滤后的数据;
从所述过滤后的数据中按照所述数量占比进行随机抽取,得到中间数据;
重复执行所述从所述待抽取数据中抽取满足所述数据容量条件的原始数据的步骤,直到遍历所有所述待抽取数据。


3.根据权利要求2所述的方法,其特征在于,所述配置信息中还包括属性信息;所述根据所述内存资源信息确定数据容量条件包括:
根据所述属性信息确定每个属性对应的数据的内存占用空间;
统计所述配置信息中所述中间数据包括的所有属性对应的数据的内存占用空间之和,得到所述中间数据对应的内存占用空间;
计算所述内存资源信息中的内存资源空间与所述中间数据对应的内存占用空间的比值,生成数据容量条件。


4.根据权利要求1所述的方法,其特征在于,所述根据所述目标特征生成抽取条件包括:
将不同特征类型的目标特征进行组合,得到多个组合条件;
根据所述组合条件从所述中间数据中提取对应的测试数据;
利用所述测试数据计算在所述中间数据中所述组合条件对应的数据错误率;
将所述数据错误率大于第二阈值且包含的所述目标特征最多的组合条件标记为抽取条件。


5.根据权利要求1所述的方法,其特征在于,在所述根据所述抽取条件从所述待抽取数据中进行抽取,得到符合所述抽取条件的目标数据的步骤之后,所述方法还包括:
将所述目标数...

【专利技术属性】
技术研发人员:张国锐戴勇
申请(专利权)人:金蝶软件中国有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1