工作效能数据指标的管理系统和方法技术方案

技术编号:39657140 阅读:8 留言:0更新日期:2023-12-09 11:26
本发明专利技术提供了一种工作效能数据指标的管理系统和方法,包括:数据采集加工分为离线条线和实时条线;对于离线条线,业务数据由开源工具批量采集并存储于分布式文件系统中,通过批处理引擎加工清理处理,进行数仓分层和建模,最后得到业务分析所需数据;对于实时条线,数据由采集组件采集流数据并存储于消息中间件,通过实时计算引擎进行流处理,并将结果数据存储于开源数据库;对于离线条线和实时条线,最后的结果数据进行合并,得到完整

【技术实现步骤摘要】
工作效能数据指标的管理系统和方法


[0001]本专利技术涉及数据管理
,具体地,涉及一种工作效能数据指标的管理系统和方法


技术介绍

[0002]现有项目管理平台对过程数据均支持采集和统计,可跟踪特定数据作为度量指标

然而,数据均为独立统计计算,无内在结构化关联性,关键影响指标需人工分析判断

并且,目前指标结构体系仅能体外构建和分析判断

[0003]专利文献
CN114048960A(
申请号:
CN202111219264.2)
公开了一种基于
SIS
系统的综合能源指标对标管理系统,包括数据采集存储系统

实时性能计算系统

模型模拟计算系统和数据结果展示系统,实时性能计算系统

模型模拟计算系统和数据结果展示系统均与数据采集存储系统连接

然而该专利无法完全解决上述技术问题


技术实现思路

[0004]针对现有技术中的缺陷,本专利技术的目的是提供一种工作效能数据指标的管理系统和方法

[0005]根据本专利技术提供的工作效能数据指标的管理系统,包括:
[0006]数据采集加工分为离线条线和实时条线;
[0007]对于离线条线,业务数据由开源工具批量采集并存储于分布式文件系统中,通过批处理引擎加工清理处理,进行数仓分层和建模,最后得到业务分析所需数据;
[0008]对于实时条线,数据由采集组件采集流数据并存储于消息中间件,通过实时计算引擎进行流处理,并将结果数据存储于开源数据库;
[0009]对于离线条线和实时条线,最后的结果数据进行合并,得到完整

全面准确的数据

[0010]优选的,数据分析查询引擎选用
impala

presto
,通过
impala
直接查询
hdfs
数据,通过
presto
进行跨库业务数据关联查询

[0011]优选的,数据采集包括:
[0012]离线采集:对于内部关系型数据库,离线采集基于
sqoop
进行封装,通过简单配置快速抽取各关系型数据库数据;
[0013]实时采集:关系型数据库通过
CDC
工具或者
flume
采集流数据,并由
kafka
消息中间件接收数据,便于后续
flink
的流数据处理

[0014]优选的,数仓分层为:
[0015]贴源层:数据用于维持源系统原貌,根据业务使用需要或加载测试需要,改变部分源表,将其按历史表形式存放;根据需求保留源系统表的全量数据;
[0016]整合层:整合多个数据源,并按照主题进行划分;在定义主题的过程中,提供相关业务概念的规范定义;保留最细粒度的业务数据,并保留尽可能长的历史;
[0017]汇总层:提炼多种应用的需求共性,设计相对通用的实体对象;包括多种数据粒度,进行逐层加工

统计

汇总;通过降范式

预连接

适当冗余的方式提供更高的查询效率;
[0018]应用层:数据模型面向特定应用,按需定制,其形态随应用不同而变化

[0019]优选的,采用商用产品
FineBI
,基于清洗加工完成的数据通过托拉拽式的操作,进行数据自助分析,具体为:设定数据归属板块;设定该板块下数据间的关联关系,设定跨板块的数据间关联关系;跟踪关联数据的实际值影响分析

[0020]优选的,对采集的数据进行
KMO
检验,用于检查变量间的相关性和偏相关性,取值在0~1之间,越接近于1,变量间的相关性越强,偏相关性越弱,计算公式为:
[0021][0022]其中,
rii
表示简单相关系数,表示偏相关系数;当时,
KMO≈1
;当时,
KMO≈0

KMO
的取值介于0和1之间

[0023]优选的,对采集的数据进行
Bartlett
检验,用于检验相关阵中各变量间的相关性,是否为单位阵,即检验各个变量是否各自独立,计算公式为:
[0024]‑
((n

1)

(2*p

5)/6)*log(det(R))
[0025]其中,
n
是观测值的数量,
p
是变量的数量,
R
是相关矩阵

[0026]优选的,验证相关性通过后,将相关变量
x
与项目设定结果指标
y
传入对应模型计算相关性;
[0027]采用肯德尔
Kendall
算法,
Kendall
秩相关系数是一个非参数性质的秩统计参数,用来度量两个有序变量之间单调关系强弱的相关系数,取值范围是
[
‑1,
1],绝对值越大,表示单调相关性越强,取值为0时表示完全不相关;
Kendall
秩相关系数定义在一致对和分歧对的概念上,一致对
c
,是两个变量取值的相对关系一致;分歧对
d
,是指它们的相对关系不一致;计算公式为:
[0028][0029]其中,
c
在计算的时候只算
a
i

a
j

b
i

b
j
的对数,
d
只算
a
i

a
j

b
i

b
j
的对数,其中
i

j

t
x
、t
y
分别表示变量
x、y
取值中序号相同的样本对数排除共同平局的部分;
[0030]通过
x
值对
x

y
进行排序,如果
x

y
相关,则它们将具有相同的相对秩次顺序;对于每个
y
i
,计算
y
j

y
i
的数量和
y
j

y
i
的数量;计算中序号相同的样本对数排除共同平局的部分
t
c
,通过
t
c
计算出对应的
t
x
...

【技术保护点】

【技术特征摘要】
1.
一种工作效能数据指标的管理系统,其特征在于,包括:数据采集加工分为离线条线和实时条线;对于离线条线,业务数据由开源工具批量采集并存储于分布式文件系统中,通过批处理引擎加工清理处理,进行数仓分层和建模,最后得到业务分析所需数据;对于实时条线,数据由采集组件采集流数据并存储于消息中间件,通过实时计算引擎进行流处理,并将结果数据存储于开源数据库;对于离线条线和实时条线,最后的结果数据进行合并,得到完整

全面准确的数据
。2.
根据权利要求1所述的工作效能数据指标的管理系统,其特征在于,数据分析查询引擎选用
impala

presto
,通过
impala
直接查询
hdfs
数据,通过
presto
进行跨库业务数据关联查询
。3.
根据权利要求1所述的工作效能数据指标的管理系统,其特征在于,数据采集包括:离线采集:对于内部关系型数据库,离线采集基于
sqoop
进行封装,通过简单配置快速抽取各关系型数据库数据;实时采集:关系型数据库通过
CDC
工具或者
flume
采集流数据,并由消息中间件接收数据,便于后续分布式计算框架
flink
的流数据处理
。4.
根据权利要求1所述的工作效能数据指标的管理系统,其特征在于,数仓分层为:贴源层:数据用于维持源系统原貌,根据业务使用需要或加载测试需要,改变部分源表,将其按历史表形式存放;根据需求保留源系统表的全量数据;整合层:整合多个数据源,并按照主题进行划分;在定义主题的过程中,提供相关业务概念的规范定义;保留最细粒度的业务数据,并保留尽可能长的历史;汇总层:提炼多种应用的需求共性,设计相对通用的实体对象;包括多种数据粒度,进行逐层加工

统计

汇总;通过降范式

预连接

适当冗余的方式提供更高的查询效率;应用层:数据模型面向特定应用,按需定制,其形态随应用不同而变化
。5.
根据权利要求1所述的工作效能数据指标的管理系统,其特征在于,采用商用产品
FineBI
,基于清洗加工完成的数据通过托拉拽式的操作,进行数据自助分析,具体为:设定数据归属板块;设定该板块下数据间的关联关系,设定跨板块的数据间关联关系;跟踪关联数据的实际值影响分析
。6.
根据权利要求1所述的工作效能数据指标的管理系统,其特征在于,对采集的数据进行
KMO
检验,用于检查变量间的相关性和偏相关性,取值在0~1之间,越接近于1,变量间的相关性越强,偏相关性越弱,计算公式为:其中,
r
ij
表示简单相关系数,表示偏相关系数;当时,
KMO≈1
;当时,
KMO≈0

KMO
的取值介于0和1之间
。7.
根据权利要求6所述的工作效能数据指标的管理系统,其特征在于,对采集的数据进行
Bartlett
检验,用于检验相关阵中各变量间的相关性,是否为单位阵,即检验各个变量是
否各自独立,计算公式为:

((n

1)

(2*p

5)/6)*log(det(R))
其中,
n
是观测值的数量,
p
是变量的数量,
R
是相关矩阵
。8.
根据权利要求7所述的工作效能数据指标的管理系统,其特征在于,验证相...

【专利技术属性】
技术研发人员:言真黄超
申请(专利权)人:上海秉玉软件技术服务有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1