The application relates to a data extraction method, a device, a computer device and a storage medium. The method comprises the following steps: acquiring the data extraction task carrying the identification of the data to be extracted; acquiring the data to be extracted corresponding to the identification of the data to be extracted according to the data extraction task; extracting the intermediate data from the data to be extracted in pages, the intermediate data including the error identification data; making statistics of the multiple feature information corresponding to the error identification data; calculating the data in the The data error rate corresponding to the feature information in the intermediate data respectively marks the feature information whose data error rate is greater than the first threshold as the target feature; generates the extraction condition according to the target feature; extracts from the data to be extracted according to the extraction condition to obtain the target data meeting the extraction condition. This method can improve the accuracy of data extraction.
【技术实现步骤摘要】
数据抽取方法、装置、计算机设备和存储介质
本申请涉及计算机
,特别是涉及一种数据抽取方法、装置、计算机设备和存储介质。
技术介绍
随着计算机技术的发展,计算机可以处理大量的数据。为了保证得到的数据的正确性,用户通常需要对得到的数据进行检查。由于数据的海量增加,依次检查全部的数据非常耗费时间成本和工作资源。因此,出现了对数据的抽检方式。通过对抽取出的部分数据进行检查,以此来评估全部数据的整体数据质量。在传统方式中,抽取数据的方式通常是针对全部的数据一次性随机抽取出部分数据用于检查。但是,这种方式抽取出的数据只是整体数据中的一部分,随机抽取得到的数据存在偶然性,并不能够准确的反映整体数据的数据质量。因此,为了抽取出的数据能够准确的反映整体数据的数据质量,如何准确的抽取数据成为目前需要解决的技术问题。
技术实现思路
基于此,有必要针对上述数据抽取不准确的技术问题,提供一种能够提高数据抽取准确性的数据抽取方法、装置、计算机设备和存储介质。一种数据抽取方法,所述方法包括:获取携带有待抽取数据标识的数据抽取任务;根据所述数据抽取任务获取与所述待抽取数据标识对应的待抽取数据;从所述待抽取数据中分页抽取中间数据,所述中间数据中包括错误标识数据;统计所述错误标识数据所对应的多种特征信息;计算在所述中间数据中所述特征信息分别对应的数据错误率,将所述数据错误率大于第一阈值的特征信息标记为目标特征;根据所述目标特征生成抽取条件;根据所述抽取条件 ...
【技术保护点】
1.一种数据抽取方法,所述方法包括:/n获取携带有待抽取数据标识的数据抽取任务;/n根据所述数据抽取任务获取与所述待抽取数据标识对应的待抽取数据;/n从所述待抽取数据中分页抽取中间数据,所述中间数据中包括错误标识数据;/n统计所述错误标识数据所对应的多种特征信息;/n计算在所述中间数据中所述特征信息分别对应的数据错误率,将所述数据错误率大于第一阈值的特征信息标记为目标特征;/n根据所述目标特征生成抽取条件;/n根据所述抽取条件从所述待抽取数据中进行抽取,得到符合所述抽取条件的目标数据。/n
【技术特征摘要】
1.一种数据抽取方法,所述方法包括:
获取携带有待抽取数据标识的数据抽取任务;
根据所述数据抽取任务获取与所述待抽取数据标识对应的待抽取数据;
从所述待抽取数据中分页抽取中间数据,所述中间数据中包括错误标识数据;
统计所述错误标识数据所对应的多种特征信息;
计算在所述中间数据中所述特征信息分别对应的数据错误率,将所述数据错误率大于第一阈值的特征信息标记为目标特征;
根据所述目标特征生成抽取条件;
根据所述抽取条件从所述待抽取数据中进行抽取,得到符合所述抽取条件的目标数据。
2.根据权利要求1所述的方法,其特征在于,所述数据抽取任务中还携带了所述中间数据对应的配置信息,所述配置信息中包括数量占比;所述从所述待抽取数据中分页抽取中间数据包括:
获取内存资源信息,根据所述内存资源信息确定数据容量条件;
从所述待抽取数据中提取满足所述数据容量条件的原始数据;
基于过滤条件对所述原始数据进行过滤,得到过滤后的数据;
从所述过滤后的数据中按照所述数量占比进行随机抽取,得到中间数据;
重复执行所述从所述待抽取数据中抽取满足所述数据容量条件的原始数据的步骤,直到遍历所有所述待抽取数据。
3.根据权利要求2所述的方法,其特征在于,所述配置信息中还包括属性信息;所述根据所述内存资源信息确定数据容量条件包括:
根据所述属性信息确定每个属性对应的数据的内存占用空间;
统计所述配置信息中所述中间数据包括的所有属性对应的数据的内存占用空间之和,得到所述中间数据对应的内存占用空间;
计算所述内存资源信息中的内存资源空间与所述中间数据对应的内存占用空间的比值,生成数据容量条件。
4.根据权利要求1所述的方法,其特征在于,所述根据所述目标特征生成抽取条件包括:
将不同特征类型的目标特征进行组合,得到多个组合条件;
根据所述组合条件从所述中间数据中提取对应的测试数据;
利用所述测试数据计算在所述中间数据中所述组合条件对应的数据错误率;
将所述数据错误率大于第二阈值且包含的所述目标特征最多的组合条件标记为抽取条件。
5.根据权利要求1所述的方法,其特征在于,在所述根据所述抽取条件从所述待抽取数据中进行抽取,得到符合所述抽取条件的目标数据的步骤之后,所述方法还包括:
将所述目标数...
【专利技术属性】
技术研发人员:张国锐,戴勇,
申请(专利权)人:金蝶软件中国有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。