一种人力资源数据仓库搭建方法技术

技术编号:36770400 阅读:14 留言:0更新日期:2023-03-08 21:42
本发明专利技术涉及计算机技术领域,公开了一种人力资源数据仓库搭建方法。一种人力资源数据仓库搭建方法包括:步骤1,从多个系统中采集原始数据,并记录采集时间,形成带有时间标记的数据源;步骤2,在数据缓冲层从数据源中抽取数据,每个数据源分别对应一个数据缓冲层数据库;步骤3,将数据进行清洗和转化,得到业务明细数据,并将业务明细数据写入到相应的贴源层中进行存储;步骤4,按维度对业务明细数据进行整合并存储到数据仓库层的数据库中;步骤5,在数据应用层根据需求进行计算和整合,并将数据分别存入Hive数据库和MySQL数据库中。本发明专利技术能够将企业的人力资源情况进行整合,并能够高效的进行人力资源相关的分析。效的进行人力资源相关的分析。效的进行人力资源相关的分析。

【技术实现步骤摘要】
一种人力资源数据仓库搭建方法


[0001]本专利技术涉及计算机
,具体涉及一种人力资源数据仓库搭建方法。

技术介绍

[0002]数据仓库是一种结构化的数据环境,是面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理决策。
[0003]而现有的人力资源数据仓库通常是以花名册、通讯录、业绩表等分布式存在,当有对应的业务需求时,再从多个表中调度有用信息进行处理,工作效率低,且不利于整体掌握人力资源状况,管理人员不易理清人力架构,也不利于人力应用需求的扩展。

技术实现思路

[0004]本专利技术意在提供一种人力资源数据仓库搭建方法,以将企业的人力资源情况进行整合,并能够高效的进行人力资源相关的分析。
[0005]为达到上述目的,本专利技术采用如下技术方案:一种人力资源数据仓库搭建方法,包括:
[0006]步骤1,从多个系统中采集原始数据,并记录采集时间,形成带有时间标记的数据源;
[0007]步骤2,在数据缓冲层从数据源中抽取数据,每个数据源分别对应一个数据缓冲层数据库;
[0008]步骤3,将数据进行清洗和转化,得到业务明细数据,并将业务明细数据写入到相应的贴源层中进行存储;
[0009]步骤4,按维度对业务明细数据进行整合并存储到数据仓库层的数据库中;
[0010]步骤5,在数据应用层根据需求进行计算和整合,并将数据分别存入Hive数据库和MySQL数据库中。
[0011]本方案的原理及优点是:实际应用时,人力资源信息存在于多个分散的系统当中,首先从多个系统中采集原始数据,并记录采集时间,形成带有时间标记的数据源;人力资源数据会随时间更新,记录下时间利于形成人力资源的时间序列,并通过时间维度对人力资源信息进行管理;然后在数据缓冲层从数据源中抽取数据,每个数据源分别对应一个数据缓冲层数据库,定位临时数据,为贴源层进行服务;接着将数据进行清洗和转化,得到业务明细数据,并将业务明细数据写入到相应的贴源层中进行存储,实现业务明细数据的全量保留,便于对历史数据的查询;其次是按维度对业务明细数据进行整合并存储到数据仓库层的数据库中,根据实际需求,将获取到的贴源层的数据按主题维度进行分析和整合,便于多个主题的人力资源的应用;在数据应用层根据需求进行计算和整合,并将数据分别存入Hive数据库和MySQL数据库中,便于上层应用程序访问。
[0012]优选的,作为一种改进,所述多系统包括业务系统和补录系统;业务系统包括人力系统、EPR系统、营销系统、客服系统、财务系统。
[0013]技术效果:从多个系统中获取人力资源相关的数据,数据覆盖面广,内容更全面,为后续处理奠定数据基础。
[0014]优选的,作为一种改进,所述步骤1还包括:
[0015]步骤11,为各个系统采集的数据量、数据使用频率、重要程度、数据变更频率赋予比重,根据不同系统获得的比重设置不同的数据源采集频率;
[0016]步骤12,比较各个系统当前数据采集与上一次数据采集原始数据变化量是否超过阈值;
[0017]步骤13,当变化量超过阈值时,向管理人员发出提示。
[0018]技术效果:由于外部环境因素,如就业形式严峻、业务季节性爆发等,导致各个系统中的数据产生波动,而数据采集的频率也需要随着变动才能保证在避免过度采集资源导致浪费的同时还保证了及时性和准确性。
[0019]优选的,作为一种改进,所述原始数据还包括外部数据和非结构数据。
[0020]技术效果:通过获取外部数据和非结构数据,能够增加数据完整度和系统数据可用性。
[0021]优选的,作为一种改进,所述步骤2中抽取数据包括2种方式,分别是在系统中配置数据接入任务和使用JDBC直接连接数据表。
[0022]技术效果:根据实际抽取表格的数量能够进行抽取方式的选择,提高可用性。
[0023]优选的,作为一种改进,所述步骤3还包括:
[0024]步骤31,将年龄、性别、学历、专业类别、专业等级、工作年限、岗位、考勤、业绩情况、薪酬、在职状态等进行权重赋值,并加权得到综合值;
[0025]步骤32,将每个人的业务明细数据按照综合值大小进行0~3的等比转换;
[0026]步骤33,将转换后的值作为存储年限。
[0027]技术效果:如果对所有人的信息都长期存取,会加重内存负担,根据权重赋值决定存储时长,在为存储减负的同时,也能保证重要人员的信息的长久保留。
[0028]优选的,作为一种改进,所述清洗和转换采取拉链、流水表两种形式。
[0029]技术效果:对垃圾数据、不规范数据进行清洗转换,使数据标准化,避免后续处理中出现误差。
[0030]优选的,作为一种改进,所述数据仓库层包括数据明细层、数据汇总层和公共维度层。
[0031]优选的,作为一种改进,贴源层全部采用ORC存储格式,且根据缓冲层数据抽取情况划分为四种存储模式,包括:每日全量抽取

存储历史数据;全量抽取

不存储历史数据;增量抽取

存储历史数据;增量抽取

不存储历史数据。
[0032]技术效果:由于贴源层对所有人的业务明细数据进行存储,数据量庞大,采用ORC存储格式能够提高查询性能和降低磁盘空间的占用。
[0033]优选的,作为一种改进,数据仓库层采用ORC格式存储业务明细数据,步骤4还包括:
[0034]步骤41,对比找出变更的数据;
[0035]步骤42,采用拉链表存储变更的数据。
[0036]技术效果:采用拉链表,不仅支持历史数据查询,且空间占用小,提高运行效率。
附图说明
[0037]图1为本专利技术实施例的流程示意图。
具体实施方式
[0038]下面通过具体实施方式进一步详细说明:
[0039]实施例如附图1所示:
[0040]一种人力资源数据仓库搭建方法,包括:
[0041]步骤1,从多个系统中采集原始数据,并记录采集时间,形成带有时间标记的数据源;
[0042]多系统包括业务系统和补录系统;业务系统包括人力系统、EPR系统、营销系统、客服系统、财务系统;补录系统的数据包括excel文档数据和帆软上报系统数据;除此之外,还包括外部数据和非结构数据,其中外部数据是通过爬虫爬取的房产信息和网站舆情数据等数据,非结构数据是图纸设计文档、工程文档、流程文件等数据,获取外部数据和非结构数据,能够增加数据完整度和系统数据可用性;从多个系统中获取人力资源相关的数据,数据覆盖面广,内容更全面,为后续处理奠定数据基础。
[0043]由于外部环境因素,如就业形式严峻、业务季节性爆发等,导致各个系统中的数据产生波动,而数据采集的频率也需要随着变动才能保证在避免过度采集资源导致浪费的同时还保证了及时性和准确性,因此,步骤1还包括:
[0044]步骤11,为各个系统采集的数据量、数据使本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种人力资源数据仓库搭建方法,其特征在于,包括:步骤1,从多个系统中采集原始数据,并记录采集时间,形成带有时间标记的数据源;步骤2,在数据缓冲层从数据源中抽取数据,每个数据源分别对应一个数据缓冲层数据库;步骤3,将数据进行清洗和转化,得到业务明细数据,并将业务明细数据写入到相应的贴源层中进行存储;步骤4,按维度对业务明细数据进行整合并存储到数据仓库层的数据库中;步骤5,在数据应用层根据需求进行计算和整合,并将数据分别存入Hive数据库和MySQL数据库中。2.根据权利要求1所述的一种人力资源数据仓库搭建方法,其特征在于:所述多系统包括业务系统和补录系统;业务系统包括人力系统、EPR系统、营销系统、客服系统、财务系统。3.根据权利要求1所述的一种人力资源数据仓库搭建方法,其特征在于,所述步骤1还包括:步骤11,为各个系统采集的数据量、数据使用频率、重要程度、数据变更频率赋予比重,根据不同系统获得的比重设置不同的数据源采集频率;步骤12,比较各个系统当前数据采集与上一次数据采集原始数据变化量是否超过阈值;步骤13,当变化量超过阈值时,向管理人员发出提示。4.根据权利要求1所述的一种人力资源数据仓库搭建方法,其特征在于:所述原始数据还包括外部数据和非结构数据。5.根据权利要求1所述的一种人力资源数据仓库搭建方法,其特征在于:所述步骤2中抽取数据包括2种方式,分别是在系统中配置数据接入任务和使用JDBC直接连接数据表。6.根据权利要求1所述的一种人...

【专利技术属性】
技术研发人员:王婕妤魏庆麟
申请(专利权)人:珠海华发新科技投资控股有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1