【技术实现步骤摘要】
用于不同类型数据仓库的数据检索装置及方法
本专利技术涉及数据检索
,尤其涉及不同类型数据仓库的数据检索装置及方法。
技术介绍
当前许多大数据公司都使用一些数据仓库来进行大数据计算相关业务。例如利用阿里云的大数据计算服务MaxCompute,并在其可视化平台DataWorks上进行一站式的数据同步、业务流程设计、数据开发、管理和运维功能。其中许多任务会对数据进行分区存储,比如按天分区存储数据,但是由于数据仓库的种类和数据来源的不同等原因导致存储的数据表字段类型、格式等都存在许多差异,且在这个过程中还伴随着脏数据的产生,从数据仓库检索和下载数据过程中往往没有一个通用型和可扩展的模型可以解决这个问题。
技术实现思路
本专利技术的目的在于提供用于不同类型数据仓库的数据检索装置及方法,可以灵活、高效且可扩展地对不同数据仓库的数据进行检索和下载。实现上述目的的技术方案是:一种用于不同类型数据仓库的数据检索装置,包括:用于对不同类型数据仓库的数据配置定时检索或实时检索的检索方式选择模块;< ...
【技术保护点】
1.一种用于不同类型数据仓库的数据检索装置,其特征在于,包括:/n用于对不同类型数据仓库的数据配置定时检索或实时检索的检索方式选择模块;/n根据选定的检索方式以及需要检索的数据仓库的配置信息,提供相应数据仓库的数据检索接口的查询下载模块;/n利用数据检索接口对相应数据仓库中的大数据量进行分段,建立并发任务的分段并发任务模块;/n在所述分段并发任务模块进行并发任务下载数据的过程中,对数据进行轮询,并判断数据是否完整的轮询模块;/n根据相应数据仓库中大数据的种类和大数据的分区层次进行数据分类的分类模块;以及/n用于对分类后的数据中预设类型的特殊业务字段进行数据清洗和规则匹配的清洗匹配模块。/n
【技术特征摘要】
1.一种用于不同类型数据仓库的数据检索装置,其特征在于,包括:
用于对不同类型数据仓库的数据配置定时检索或实时检索的检索方式选择模块;
根据选定的检索方式以及需要检索的数据仓库的配置信息,提供相应数据仓库的数据检索接口的查询下载模块;
利用数据检索接口对相应数据仓库中的大数据量进行分段,建立并发任务的分段并发任务模块;
在所述分段并发任务模块进行并发任务下载数据的过程中,对数据进行轮询,并判断数据是否完整的轮询模块;
根据相应数据仓库中大数据的种类和大数据的分区层次进行数据分类的分类模块;以及
用于对分类后的数据中预设类型的特殊业务字段进行数据清洗和规则匹配的清洗匹配模块。
2.根据权利要求1所述的用于不同类型数据仓库的数据检索装置,其特征在于,将需要检索的数据仓库的相关连接配置信息以数据字典表的形式配置,或在配置文件中进行配置,所述查询下载模块提供数据检索的统一API接口。
3.根据权利要求1所述的用于不同类型数据仓库的数据检索装置,其特征在于,所述分段并发任务模块利用java线程池对大数据量进行批量并发下载。
4.根据权利要求1所述的用于不同类型数据仓库的数据检索装置,其特征在于,所述轮询模块在轮询过...
【专利技术属性】
技术研发人员:杨燊,谢赟,葛兵,韩欣,
申请(专利权)人:上海德拓信息技术股份有限公司,
类型:发明
国别省市:上海;31
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。