【技术实现步骤摘要】
血缘分析方法、装置、电子设备及计算机可读存储介质
本申请涉及网上交易
,尤其涉及一种血缘分析方法、装置、电子设备及计算机可读存储介质。
技术介绍
现有技术中,在进行血缘分析时,有几种常规分析方式,如直接读取元数据库及通过SQL解析提取加工规则和表间映射关系等方式,对于上述两种方式,原理上全部依赖于技术元数据,如此处理应用范围窄、开发成本高,具有如下几个缺陷:开发复杂度极高:传统的分析模式依赖于底层元数据的完善度和脚本的标准度。现实中指标的加工经过复杂的数据链条,且数据源基本都是异构的。异构数据库的SQL语句会有差别,故SQL解析引擎开发的工作量极高,需要针对不同的计算引擎单独开发。精细度不足:血缘关系分析时只能分析到表级和字段级影响,无法做到记录集的血缘分析。譬如APP端交易量和PC端交易量两个指标,两个指标都是通过同表同字段加工而成,传统的字段级分析方法无法再做精细化分析。应用面固化:传统的血缘分析方案因为是基于技术元数据的分析,所以使用人员和表现形式通常仅对于技术人员使用,应用领域也局限于数 ...
【技术保护点】
1.一种血缘分析方法,其特征在于,包括:/n对多个指标的名称进行语义相似度分析,确定所述多个指标的名称相似度;/n对所述多个指标进行维度分析,确定所述多个指标的维度相似度;/n基于所述多个指标的名称、名称相似度、维度、维度相似度以及度量相关性构建所述多个指标的血缘分析视图,以使得根据构建的所述血缘分析视图进行针对所述多个指标中任一指标的血缘分析。/n
【技术特征摘要】
1.一种血缘分析方法,其特征在于,包括:
对多个指标的名称进行语义相似度分析,确定所述多个指标的名称相似度;
对所述多个指标进行维度分析,确定所述多个指标的维度相似度;
基于所述多个指标的名称、名称相似度、维度、维度相似度以及度量相关性构建所述多个指标的血缘分析视图,以使得根据构建的所述血缘分析视图进行针对所述多个指标中任一指标的血缘分析。
2.如权利要求1所述的方法,其特征在于,所述对多个指标的名称进行语义分析,确定所述多个指标的名称相似度,包括:
根据所述多个指标中任一指标的名称进行语义分析,得到所述任一指标的语义特征向量;
根据任意两个语义特征向量计算其对应夹角的余弦值;
根据所述余弦值确定所述任一指标的名称相似度。
3.如权利要求1所述的方法,其特征在于,所述对所述多个指标进行维度分析,确定所述多个指标的维度相似度,包括:
基于所述多个指标中任一指标的名称及维度构建维度宽表;
对所述维度宽表中的数据进行维度拼接,得到维度拼接文档;
基于预设的开发词袋模型对所述维度拼接文档进行处理,得到分词向量;
根据所述分词向量进行相似度计算,得到任一指标对应的维度相似度。
4.如权利要求1所述的方法,其特征在于,所述对所述多个指标进行维度分析,确定所述多个指标的维度相似度,包括:
基于所述多个指标中任一指标的名称及维度构建维度宽表;
根据预设的默认值对所述维度宽表中的空值进行填充处理;
对所述维度宽表中填充于空值位置的默认值及非空值进行编码,生成对应的文本向量;
基于欧氏距离计算方法对所述文本向量以及维度数量进行计算,得到任一指标对应的维度相似度。
5.如权利要求1所述的方法,其特征在于,所述基于所述多个指标的名称、名称相似度、维度、维度相似度以及度量相关性构建所述多个指标的血缘分析视图,根据构建的所述血缘分析视图进行针对所述多个指标中任一指标的血缘分析,包括:
选...
【专利技术属性】
技术研发人员:张兴思,
申请(专利权)人:中信银行股份有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。