【技术实现步骤摘要】
一种支持多数据源的数据抽取转换加载系统
[0001]本专利技术属于数据获取
,具体为一种支持多数据源的数据抽取转换加载系统
。
技术介绍
[0002]在进行医疗软件开发时通常需要大量的业务数据,并且由于历史原因这些业务数据会存在于不同的业务系统中,给软件开发数据的快速提取
、
分析处理带来了极大困难,随着医疗互联网平台发展的逐渐成熟,越来越多的医院将分散的数据接入医疗互联网平台统一管理,在对多数据源的数据进行获取时,现有的数据抽取转换加载系统数据一致性和准确性可能难以保障,特别是在数据转换过程中容易出现问题,并且不同数据源的安全性和权限管理可能不一致,容易出现数据泄露和权限绕过等风险,随着系统不断发展和扩展,系统的维护可能变得困难,在处理大规模数据时,系统可扩展性可能受限,需要对其进行改进
。
技术实现思路
[0003]本专利技术的目的在于提供一种支持多数据源的数据抽取转换加载系统,以解决上述
技术介绍
中提出的问题
。
[0004]为了实现上述目的,本专利技术提供如下技术方案:一种支持多数据源的数据抽取转换加载系统,包括有数据源连接
、
数据抽取
、
数据转换
、
数据加载
、
数据调度和监控
、
数据质量管理
、
安全性和权限管理
、
灵活性和可扩展性
、
错误处理和恢复机制和日志记录和审计;
[0005]所述数据 ...
【技术保护点】
【技术特征摘要】
1.
一种支持多数据源的数据抽取转换加载系统,其特征在于:包括有数据源连接
、
数据抽取
、
数据转换
、
数据加载
、
数据调度和监控
、
数据质量管理
、
安全性和权限管理
、
灵活性和可扩展性
、
错误处理和恢复机制和日志记录和审计;所述数据源连接包括:关系型数据库
、NoSQL
数据库
、
文件存储和
API
与
Web
服务;所述数据抽取包括:增量抽取
、
并行抽取
、
数据采样
、
增强的过滤和选择
、
连接查询和错误处理和重试;所述数据转换包括:数据清洗和处理
、
数据规范化
、
数据合并和拆分
、
数据聚合
、
数据转码和映射和数据派生;所述数据加载包括:并行加载
、
分布式加载
、
数据索引和优化和数据分级加载;所述数据调度和监控包括:灵活调度
、
并发调度
、
任务优先级管理和任务状态跟踪;所述数据质量管理包括:数据校验规则
、
数据准确性检测
、
异常数据检测
、
数据重复性检测和数据合法性验证;所述安全性和权限管理包括:身份验证和授权
、
角色和权限组
、
数据加密和细粒度权限控制;所述灵活性和可扩展性包括:可插拔组件
、
配置驱动
、
自定义脚本;所述错误处理和恢复机制包括:错误分类和优先级
、
异常捕获和处理
、
错误日志和通知
、
自动恢复尝试和错误跟踪和追溯;所述日志记录和审计包括:全面的操作日志
、
异常日志
、
安全审计日志
、
任务执行日志
、
数据变更审计和敏感操作告警
。2.
根据权利要求1所述的一种支持多数据源的数据抽取转换加载系统,其特征在于:所述关系型数据库包括
MySQL、PostgreSQL、Oracle
和
SQLserver
,所述
NoSQL
数据库包括
MongoDB、Cassandra
和
Redis
,所述文件存储包括
CSV、JSON
和
XML
,所述
API
与
Web
服务包括
API
与远程数据源,所述关系型数据库,系统能够通过
JDBC
连接
、ODBC
连接,以及数据库特定的连接驱动程序进行数据连接;所述
NoSQL
数据库,系统能够通过数据库特定的连接库或驱动程序进行数据连接;所述文件存储,系统能够通过文件路径
、
文件格式
、
分隔符配置进行数据连接;所述
API
与
Web
服务,系统能够通过
API
端点
、
身份验证令牌和参数进行数据连接
。3.
根据权利要求1所述的一种支持多数据源的数据抽取转换加载系统,其特征在于:所述数据清洗和处理,系统能够对各种数据进行清洗,如去除重复数据
、
处理缺失值和修复错误数据,并且还能够进行数据格式转换,如日期格式转换
、
单位转换;所述数据规范化,系统能够将不同数据源中的数据规范化为统...
【专利技术属性】
技术研发人员:张洁,贾云飞,
申请(专利权)人:南京健云科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。