数据仓库的指标检测方法、装置和系统制造方法及图纸

技术编号:25123075 阅读:25 留言:0更新日期:2020-08-05 02:51
本申请公开了一种数据仓库的指标检测方法、装置和系统。其中,该方法包括:如果检测到数据仓库中存在需要判重的指标,获取需要判重的指标的实体样本,并获取全量指标数据源,其中,实体样本用于记录需要判重的指标及对应的实体,全量指标数据源为预先设置的指标库中的所有指标及对应的实体;使用迭代碰撞分析模型,对实体样本和全量指标数据源进行迭代碰撞处理,识别出需要判重的指标是否为重复指标。本申请解决了数据仓库中不同的特征数据库(例如指标库、风险特征库、用户画像特征库和风险模型特征库等)存在指标重复,现有技术中采用正向逻辑检测的方法来检测重复指标,导致检测指标重复的效率低且准确率低的技术问题。

【技术实现步骤摘要】
数据仓库的指标检测方法、装置和系统
本申请涉及数据处理领域,具体而言,涉及一种数据仓库的指标检测方法、装置和系统。
技术介绍
目前的数据仓库中包含多种不同的特征数据库,例如指标库、风险特征库、用户画像特征库和风险模型特征库等,为了解决不用特征数据库中存在指标重复的问题,现有技术中提供了两种方法,一种方法为通过规范指标命名,确定指标的唯一性;另一种方法为通过文本分析及血缘,来分析指标的计算逻辑的相似性。目前这两种方法均是采用正向逻辑检测的方法,但是,由于命名规范性无法系统管控,而且血缘分析涉及多级血缘,识别率有限,导致检测指标重复的效率低且准确率低。针对上述的问题,目前尚未提出有效的解决方案。
技术实现思路
本申请实施例提供了一种数据仓库的指标检测方法、装置和系统,以至少解决数据仓库中不同的特征数据库(例如指标库、风险特征库、用户画像特征库和风险模型特征库等)存在指标重复,现有技术中采用正向逻辑检测的方法来检测重复指标,导致检测指标重复的效率低且准确率低的技术问题。根据本申请实施例的一个方面,提供了一种数据仓库本文档来自技高网...

【技术保护点】
1.一种数据仓库的指标检测方法,包括:/n如果检测到数据仓库中存在需要判重的指标,获取所述需要判重的指标的实体样本,并获取全量指标数据源,其中,所述实体样本用于记录所述需要判重的指标及对应的实体,所述全量指标数据源为预先设置的指标库中的所有指标及对应的实体;/n使用迭代碰撞分析模型,对所述实体样本和所述全量指标数据源进行迭代碰撞处理,识别出所述需要判重的指标是否为重复指标。/n

【技术特征摘要】
1.一种数据仓库的指标检测方法,包括:
如果检测到数据仓库中存在需要判重的指标,获取所述需要判重的指标的实体样本,并获取全量指标数据源,其中,所述实体样本用于记录所述需要判重的指标及对应的实体,所述全量指标数据源为预先设置的指标库中的所有指标及对应的实体;
使用迭代碰撞分析模型,对所述实体样本和所述全量指标数据源进行迭代碰撞处理,识别出所述需要判重的指标是否为重复指标。


2.根据权利要求1所述的方法,其中,使用迭代碰撞分析模型,对所述实体样本和所述全量指标数据源进行迭代碰撞处理,识别出所述需要判重的指标是否为重复指标,包括:
将所述实体样本和所述全量指标数据源进行迭代碰撞分析,得到至少一个第一指标;
获取所述至少一个第一指标中与所述需要判重的指标匹配成功的至少一个第二指标;
对所述第二指标进行二次验证,如果验证成功,则确定所述需要判重的指标为重复指标。


3.根据权利要求2所述的方法,其中,将所述实体样本和所述全量指标数据源进行迭代碰撞分析,得到至少一个第一指标,包括:
在所述实体样本以第一矩阵的形式存储的情况下,对所述实体样本进行分层抽样处理,得到抽样得到的第二矩阵;
在所述全量指标数据源以第三矩阵的形式存储的情况下,从所述全量指标数据源中抽取出与所述第二矩阵中具有相同实体的指标,生成第四矩阵;
将所述第二矩阵中每个实体与所述第四矩阵中相应实体进行迭代碰撞分析,得到所述至少一个第一指标。


4.根据权利要求3所述的方法,其中,在对所述实体样本进行分层抽样处理,得到抽样得到的第二矩阵之前,所述方法还包括:
对所述实体样本中所述需要判重的指标的指标值进行分布分析处理,得到所述实体样本的指标分布;
基于所述实体样本的指标分布对所述实体样本进行分层抽样处理,得到所述第二矩阵,其中,所述第二矩阵的指标分布与所述实体样本的指标分布一致。


5.根据权利要求3所述的方法,其中,将所述第二矩阵中每个实体与所述第四矩阵中相应实体进行迭代碰撞分析,得到所述至少一个第一指标,包括:
获取所述需要判重的指标的指标类型;
在所述指标类型为字符的情况下,对所述第二矩阵中每个实体对应的指标和所述第四矩阵中相应实体对应的指标进行文本相似度处理,得到所述第一指标;
在所述指标类型为数值的情况下,对所述第二矩阵中每个实体对应的指标的指标值和所述第四矩阵中相应实体对应的指标的指标值进行精度转换处理,并基于转换后的第二矩阵和转换后的第四矩阵,得到所述第一指标。


6.根据权利要求5所述的方法,其中,对所述第二矩阵中每个实体对应的指标和所述第四矩阵中相应实体对应的指标进行文本相似度处理,得到所述第一指标,包括:
对所述第二矩阵中每个实体对应的指标和所述第四矩阵中相应实体对应的指标进行向量化处理,得到第一向量矩阵和第二向量矩阵;
获取所述第一向量矩阵中每个实体对应的指标与所述第二向量矩阵中相应实体对应的指标的相似度;
获取所述第二向量矩阵中相似度大于相似度阈值的指标,得到所述第一指标。


7.根据权利要求5所述的方法,其中,对所述第二矩阵中每个实体对应的指标的指标值和所述第四矩阵中相应实体对应的指标的指标值进行精度转换处理,包括:
获取所述需要判重的指标的精度阈值;
基于所述精度阈值,对所述第二矩阵中每个实体对应的指标的指标值和所述第四矩阵中相应实体对应的指标的指标值进行精度转换处理。


8.根据权利要求5所述的方法,其中,基于转换后的第二矩阵和转换后的第四矩阵,得到所述第一指标,包括:
基于所述转换后的第二矩阵中每个实体对应的指标的指标值,以及所述转换后的第四矩阵中相应实体对应的指标的指标值,判断所述转换后的第二矩阵中每个实体对应的指标和所述转换后的第四矩阵中相应实体对应的指标是否一致;
如果一致,则确定所述转换后的第四矩阵中相应的指标为所述第一指标。


9.根据权利要求3所述的方法,其中,获取所述至少一个第一指标中与所述需要判重的指标匹配成功的至少一个第二指标,包括:
基于所述第一指标及对应的实体,以及所述第二矩阵中实体的总数量,得到所述至少一个第一指标与所述需要判重的指标的相似度;
按照所述相似度从大到小的顺序对所述至少一个第一指标进行排序;
获取指标排序参数N;
获取排序后的至少一个第一指标中的前N个指标,得到所述第二指标。


10.根据权利要求2所述的方法,其中,对所述第二指标进行二次验证包括如下至少之一:
对所述第二指标和所述需要判重的指标进行血缘分析,判断所述第二指标与所述需要判重的指标是否一致,如果一致,则确定验证成功;
对所述第二指标和所述需要判重的指标进行逻辑分析,判断所述第二指标的口径与所述需要判重的指标的口径是否一致,如果一致,则确定验证成功。


11.一种数据仓库的指标检测装置,包括:
获取模块,用于如果检测到数据仓库中存在需要判重的指标,获取所述需要判重的指标的实体样本,并获取全量指标数据源,其中,所述实体样本用于记录所述需...

【专利技术属性】
技术研发人员:朱成生王榕俞飞江
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛;KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1