【技术实现步骤摘要】
数据抽取方法及装置
本专利技术涉及数据挖掘
,具体涉及一种数据抽取方法及装置。
技术介绍
在基于大数据建模的过程中,需要对大数据进行数据挖掘,抽取需要的数据组成的数据集,并基于组成的数据集进行建模。数据挖掘是指从一个大量的数据中通过算法搜索隐藏于其中信息的过程。在数据挖掘过程中,根据数据挖掘目的或实际业务需求,需要使用不同的数据挖掘算法,得到符合数据挖掘目的或实际业务需求的数据集。现有的数据挖掘采用的是编写并执行SQL脚本,得到需要的结果数据集,然后查看结果数据集是否满足要求,若不满足,再次修改并执行SQL脚本,如此反复直到结果数据集满足要求。但是,为了获得目标结果数据集,需要不断地修改SQL脚本,导致挖掘数据的效率低下,而且每次SQL脚本执行后的结果无法重复利用,进而每次编辑的SQL脚本不能复用,变相的降低了挖掘数据的效率。
技术实现思路
针对现有技术中的问题,本专利技术提供一种数据抽取方法及装置,能够有效提高数据挖掘的效率,进而提高基于挖掘数据建立的模型的准确性。为解决上 ...
【技术保护点】
1.一种数据抽取方法,其特征在于,包括:/n获取目标数据集以及确定该目标数据集对应的目标数据抽取操作规则;其中,所述目标数据抽取操作规则包括:至少两个预设的数据抽取操作步骤;/n基于所述至少两个预设的数据抽取操作步骤对所述目标数据集进行提取处理得到至少两个预设的数据抽取操作步骤各自对应的数据集合;/n对至少两个预设的数据抽取操作步骤各自对应的数据集合进行集合运算,得到结果数据集,以应用该结果数据集获取对应的数据抽取信息。/n
【技术特征摘要】
1.一种数据抽取方法,其特征在于,包括:
获取目标数据集以及确定该目标数据集对应的目标数据抽取操作规则;其中,所述目标数据抽取操作规则包括:至少两个预设的数据抽取操作步骤;
基于所述至少两个预设的数据抽取操作步骤对所述目标数据集进行提取处理得到至少两个预设的数据抽取操作步骤各自对应的数据集合;
对至少两个预设的数据抽取操作步骤各自对应的数据集合进行集合运算,得到结果数据集,以应用该结果数据集获取对应的数据抽取信息。
2.根据权利要求1所述的数据抽取方法,其特征在于,在所述得到结果数据集之后,还包括:
将所述结果数据集进行存储以及对所述结果数据集进行预览的可视化处理。
3.根据权利要求2所述的数据抽取方法,其特征在于,在所述得到结果数据集之后,还包括:
存储所述目标数据抽取操作规则至数据表中的历史数据抽取操作规则;其中,所述存储表用于存储预设的数据抽取操作步骤以及历史数据抽取操作规则;
相对应的,所述确定该目标数据集对应的目标数据抽取操作规则,包括:
在所述数据表中确定至少两个预设的数据抽取操作步骤构成所述目标数据集对应的目标数据抽取操作规则,或者,在所述数据表中确定历史数据抽取操作规则为所述目标数据集对应的目标数据抽取操作规则。
4.根据权利要求1所述的数据抽取方法,其特征在于,所述集合运算包括:交集、并集、相对补集、绝对补集和差集中至少一种。
5.一种数据抽取装置,其特征在于,包括:
获取单元,用于获取目标数据集以及确定该目标数据集对应的目标数据抽取操作规则;其中,所述目标数据抽取操作规则包括:至少两个预...
【专利技术属性】
技术研发人员:杨卫乾,陆登强,袁进威,林晓光,马吉甫,
申请(专利权)人:中国建设银行股份有限公司,建信金融科技有限责任公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。