一种支持多数据源的数据抽取转换加载系统技术方案

技术编号:39493404 阅读:11 留言:0更新日期:2023-11-24 11:19
本发明专利技术属于数据获取技术领域,且公开了一种支持多数据源的数据抽取转换加载系统,包括有数据源连接

【技术实现步骤摘要】
一种支持多数据源的数据抽取转换加载系统


[0001]本专利技术属于数据获取
,具体为一种支持多数据源的数据抽取转换加载系统


技术介绍

[0002]在进行医疗软件开发时通常需要大量的业务数据,并且由于历史原因这些业务数据会存在于不同的业务系统中,给软件开发数据的快速提取

分析处理带来了极大困难,随着医疗互联网平台发展的逐渐成熟,越来越多的医院将分散的数据接入医疗互联网平台统一管理,在对多数据源的数据进行获取时,现有的数据抽取转换加载系统数据一致性和准确性可能难以保障,特别是在数据转换过程中容易出现问题,并且不同数据源的安全性和权限管理可能不一致,容易出现数据泄露和权限绕过等风险,随着系统不断发展和扩展,系统的维护可能变得困难,在处理大规模数据时,系统可扩展性可能受限,需要对其进行改进


技术实现思路

[0003]本专利技术的目的在于提供一种支持多数据源的数据抽取转换加载系统,以解决上述
技术介绍
中提出的问题

[0004]为了实现上述目的,本专利技术提供如下技术方案:一种支持多数据源的数据抽取转换加载系统,包括有数据源连接

数据抽取

数据转换

数据加载

数据调度和监控

数据质量管理

安全性和权限管理

灵活性和可扩展性

错误处理和恢复机制和日志记录和审计;
[0005]所述数据源连接包括:关系型数据库
、NoSQL
数据库

文件存储和
API

Web
服务;所述数据抽取包括:增量抽取

并行抽取

数据采样

增强的过滤和选择

连接查询和错误处理和重试;
[0006]所述数据转换包括:数据清洗和处理

数据规范化

数据合并和拆分

数据聚合

数据转码和映射和数据派生;所述数据加载包括:并行加载

分布式加载

数据索引和优化和数据分级加载;
[0007]所述数据调度和监控包括:灵活调度

并发调度

任务优先级管理和任务状态跟踪;所述数据质量管理包括:数据校验规则

数据准确性检测

异常数据检测

数据重复性检测和数据合法性验证;
[0008]所述安全性和权限管理包括:身份验证和授权

角色和权限组

数据加密和细粒度权限控制;所述灵活性和可扩展性包括:可插拔组件

配置驱动

自定义脚本;
[0009]所述错误处理和恢复机制包括:错误分类和优先级

异常捕获和处理

错误日志和通知

自动恢复尝试和错误跟踪和追溯;所述日志记录和审计包括:全面的操作日志

异常日志

安全审计日志

任务执行日志

数据变更审计和敏感操作告警

[0010]优选地,所述关系型数据库包括
MySQL、PostgreSQL、Oracle

SQLserver
,所述
NoSQL
数据库包括
MongoDB、Cassandra

Redis
,所述文件存储包括
CSV、JSON

XML
,所述
API

Web
服务包括
API
与远程数据源,
[0011]所述关系型数据库,系统能够通过
JDBC
连接
、ODBC
连接,以及数据库特定的连接驱动程序进行数据连接;所述
NoSQL
数据库,系统能够通过数据库特定的连接库或驱动程序进行数据连接;所述文件存储,系统能够通过文件路径

文件格式

分隔符等配置进行数据连接;所述
API

Web
服务,系统能够通过
API
端点

身份验证令牌和参数进行数据连接

[0012]优选地,所述数据清洗和处理,系统能够对各种数据进行清洗,如去除重复数据

处理缺失值和修复错误数据,并且还能够进行数据格式转换,如日期格式转换

单位转换等;所述数据规范化,系统能够将不同数据源中的数据规范化为统一的格式和单位;所述数据合并和拆分,系统能够对需要联合多个数据源的场景,支持数据合并操作;
[0013]所述数据聚合,系统支持数据聚合操作,如求和

计数和平均值;所述数据转码和映射,系统能够在不同数据源之间进行数据转码和映射;所述数据派生,系统允许用户根据现有字段派生出新的字段

[0014]优选地,所述并行加载,系统支持并行加载数据;所述分布式加载,系统在大规模数据加载场景下,支持分布式加载机制,将负载分散到多个节点上;所述数据索引和优化,系统对于目标数据存储,支持数据索引和优化;所述数据分级加载,系统对于大型数据集,支持分级加载,先加载重要数据,再逐步加载其他数据

[0015]优选地,所述灵活调度,系统支持多种调度策略,如定时调度

事件触发调度和依赖关系调度;所述并发调度,系统支持并发执行多个任务;所述任务优先级管理,系统支持设置任务的优先级;所述任务状态跟踪,系统在调度过程中,实时跟踪任务的执行状态,包括等待

运行中和完成;
[0016]所述数据校验规则,系统支持定义各种数据校验规则,如数据完整性

数据格式和范围检查;所述数据准确性检测,系统支持通过比对不同数据源的数据,检测数据之间的准确性和一致性;所述异常数据检测,系统引入异常检测技术,自动识别和标记异常数据;所述数据重复性检测,系统检测重复数据,确保数据不重复存储或加载;所述数据合法性验证,系统对于枚举型数据,支持验证数据是否合法

[0017]优选地,所述身份验证和授权,系统支持多种身份验证方式,如用户名密码

单点登录和双因素认证;所述角色和权限组,系统支持将用户分配到不同的角色和权限组;所述数据加密,系统在数据传输和存储过程中,支持数据加密;所述细粒度权限控制,系统允许管理员定义细粒度的权限,控制用户对不同数据源

任务和功能的访问和操作权限

[0018]优选地,所述可插拔组件,系统持本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种支持多数据源的数据抽取转换加载系统,其特征在于:包括有数据源连接

数据抽取

数据转换

数据加载

数据调度和监控

数据质量管理

安全性和权限管理

灵活性和可扩展性

错误处理和恢复机制和日志记录和审计;所述数据源连接包括:关系型数据库
、NoSQL
数据库

文件存储和
API

Web
服务;所述数据抽取包括:增量抽取

并行抽取

数据采样

增强的过滤和选择

连接查询和错误处理和重试;所述数据转换包括:数据清洗和处理

数据规范化

数据合并和拆分

数据聚合

数据转码和映射和数据派生;所述数据加载包括:并行加载

分布式加载

数据索引和优化和数据分级加载;所述数据调度和监控包括:灵活调度

并发调度

任务优先级管理和任务状态跟踪;所述数据质量管理包括:数据校验规则

数据准确性检测

异常数据检测

数据重复性检测和数据合法性验证;所述安全性和权限管理包括:身份验证和授权

角色和权限组

数据加密和细粒度权限控制;所述灵活性和可扩展性包括:可插拔组件

配置驱动

自定义脚本;所述错误处理和恢复机制包括:错误分类和优先级

异常捕获和处理

错误日志和通知

自动恢复尝试和错误跟踪和追溯;所述日志记录和审计包括:全面的操作日志

异常日志

安全审计日志

任务执行日志

数据变更审计和敏感操作告警
。2.
根据权利要求1所述的一种支持多数据源的数据抽取转换加载系统,其特征在于:所述关系型数据库包括
MySQL、PostgreSQL、Oracle

SQLserver
,所述
NoSQL
数据库包括
MongoDB、Cassandra

Redis
,所述文件存储包括
CSV、JSON

XML
,所述
API

Web
服务包括
API
与远程数据源,所述关系型数据库,系统能够通过
JDBC
连接
、ODBC
连接,以及数据库特定的连接驱动程序进行数据连接;所述
NoSQL
数据库,系统能够通过数据库特定的连接库或驱动程序进行数据连接;所述文件存储,系统能够通过文件路径

文件格式

分隔符配置进行数据连接;所述
API

Web
服务,系统能够通过
API
端点

身份验证令牌和参数进行数据连接
。3.
根据权利要求1所述的一种支持多数据源的数据抽取转换加载系统,其特征在于:所述数据清洗和处理,系统能够对各种数据进行清洗,如去除重复数据

处理缺失值和修复错误数据,并且还能够进行数据格式转换,如日期格式转换

单位转换;所述数据规范化,系统能够将不同数据源中的数据规范化为统...

【专利技术属性】
技术研发人员:张洁贾云飞
申请(专利权)人:南京健云科技有限公司
类型:发明
国别省市:

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1