【技术实现步骤摘要】
海量数据下基于ETL的尽职调查数据分析系统及方法
本专利技术涉及数据统计分析
,特别涉及一种海量数据下基于ETL的尽职调查数据分析系统及方法。
技术介绍
在数据检索与分析场景中,为了满足日常业务的查询与分析需求,往往需要调查目标公司的财务状况、经营管理、法律关系等方面,以全面了解、评估目标企业所面临的投资机会与风险。由于数据量的庞大,且涉及多方面专业知识,目前输出的检索结果质量参差不齐。在数据处理的相关技术实现方面,需要将数据通过传统ETL(ExtractTransformLoad)过程,抽取、转换、加载到相似的关系型目标数据仓库中进行分析处理。但是由于数据量和计算能力的限制,过往系统对数据的处理往往相对较为简单,检索的速度也相对较为缓慢。随着大数据时代的到来,数据分析处理的场景不再限于传统关系型数据库。现今大部分获得的数据,具有数据量大,更新频繁,结构多样等特点。且在查询数据时,存在时效性、有效性、可用性和快速检索等要求。
技术实现思路
本专利技术的目的就是解决现有技术的不足,面向多数据源 ...
【技术保护点】
1.一种海量数据下基于ETL的尽职调查数据分析系统,其特征在于,所述系统包括数据获取单元、数据筛选单元、数据清洗单元、数据计算单元、异常数据处理单元、数据导入单元、数据调控单元、数据服务单元、目标数据仓库;/n所述数据获取单元,用于从多个数据源获取原始数据;/n所述数据筛选单元,将来自于所述数据获取单元的原始数据根据设定字段进行关联性筛选,通过筛选的数据进入所述数据清洗单元;/n所述数据清洗单元,对经过关联性筛选的数据进行数据清洗,舍去不完整数据和错误数据,并对重复数据进行处理;经所述数据清洗单元处理后的数据进入所述数据导入单元;/n所述数据计算单元,从所述目标数据仓库中提 ...
【技术特征摘要】
1.一种海量数据下基于ETL的尽职调查数据分析系统,其特征在于,所述系统包括数据获取单元、数据筛选单元、数据清洗单元、数据计算单元、异常数据处理单元、数据导入单元、数据调控单元、数据服务单元、目标数据仓库;
所述数据获取单元,用于从多个数据源获取原始数据;
所述数据筛选单元,将来自于所述数据获取单元的原始数据根据设定字段进行关联性筛选,通过筛选的数据进入所述数据清洗单元;
所述数据清洗单元,对经过关联性筛选的数据进行数据清洗,舍去不完整数据和错误数据,并对重复数据进行处理;经所述数据清洗单元处理后的数据进入所述数据导入单元;
所述数据计算单元,从所述目标数据仓库中提取财务数据,根据所述财务数据计算财务指标和风险指标,计算结果经所述数据导入单元存储于所述目标数据仓库中;
所述异常数据处理单元,用于处理数据清洗过程中遇到的不符合设定规则的数据;
所述数据导入单元,根据数据储存及索引策略,将所述数据获取单元得到的原始数据、经过数据清洗后的数据、及数据计算单元的计算结果数据储存在所述目标数据仓库中;
所述目标数据仓库,根据数据储存策略存储经所述数据导入单元导入的数据;
所述数据调控单元,根据数据查询需求对存储于所述目标数据仓库中的数据进行处理解析,并将结果反馈给所述数据服务单元;
所述数据服务单元,针对用户查询,将经过所述数据调控单元处理后的数据提供给终端。
2.如权利要求1所述的海量数据下基于ETL的尽职调查数据分析系统,其特征在于,所述系统还包括系统管理单元、日志记录单元和数据更新调度单元;
所述系统管理单元,用于监控管理所述数据获取单元、数据筛选单元、数据清洗单元、数据计算单元、异常数据处理单元、数据导入单元、数据调控单元、数据服务单元、目标数据仓库的运行状态,包括监控数据源的获取进度、目标数据仓库的集群负载情况、接口状态和网络连接情况;
所述日志记录单元,包括执行过程日志、错误日志和系统日志;
所述数据更新调度单元,根据数据类型对目标数据仓库进行更新。
3.如权利要求1所述的海量数据下基于ETL的尽职调查数据分析系统,其特征在于,所述数据源包括数据库数据、文档数据、网络数据、消息数据;其中第三方下载来的csv数据属于文档数据,网络数据使用网络爬虫获取,通过消息队列方式推送的数据属于消息数据。
4.如权利要求1所述的海量数据下基于ETL的尽职调查数据分析系统,其特征在于,所述数据清洗单元对不完整数据和错误数据的清洗规则包括:
定义为非空的字段传入空值,该信息舍去;
不符合设定逻辑规则的数据舍去。
5.如权利要求1所述的海量数据下基于ETL的尽职调查数据分析系统,其特征在于,所述数据清洗单元对重复数据的清洗规则包括:
数据获取单元的原始数据经过所述数据筛选单元筛选,筛选出部分字段后,删除之后筛选出的同一字段中完全重复的信息;
公司改名称后该公司其他信息保持不变的2条数据,保留公司基本信息变更后的数据,变更前的数据作为历史数据保留在所述目标数据...
【专利技术属性】
技术研发人员:李振,鲁宾宾,曹书凯,张晨,
申请(专利权)人:民生科技有限责任公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。