一种自适应数据结构的列相关关系发现装置及方法制造方法及图纸

技术编号:33125823 阅读:30 留言:0更新日期:2022-04-17 00:35
本发明专利技术公开了一种自适应数据结构的列相关关系发现装置及方法,属于数据处理技术领域,解决了现有技术中对于新的数据处理较慢以及数据分析依靠数据使用者的知识面、经验和阅历导致分析不准确的问题,包括用于采集数据的数据采集装置以及用于储存的基准样本库,数据采集装置连接有用于对数据进行字段解析的数据处理器,数据处理器连接有用于对数据进行处理和修正的格式修正装置,格式修正装置连接有用于对采集的数据进行指标和数据计算的数据分析装置,数据分析装置连接有用于传输数据的数据传输器。无需占用持久化存储空间,减少存储空间的浪费,可兼容各种可分析形式的关系型数据,还能避免因知识局限而发生变量相关关系的遗漏。的遗漏。的遗漏。

【技术实现步骤摘要】
一种自适应数据结构的列相关关系发现装置及方法


[0001]本专利技术属于数据处理
,具体属于一种自适应数据结构的列相关关系发现装置及方法。

技术介绍

[0002]传统的数据使用、处理和分析方案通常为BI工具,BI工具通过简单的拖拉点拽方式完成对于数据的查询和筛选,将数据使用方所需使用的数据进行可视化展示,但这一方案使用前需明确所使用数据的文件名字、字段名称、字段类型、字段长度、数据行列数等数据结构,根据不同的数据结构使用相对应的数据分析方法和数据分析工具。这一方案对于这种关系型数据的处理只能解决查询问题、筛选问题、可视化展示问题,不能解决数据分析的难题。这一工具对于关系型数据的处理存在如下缺点:
[0003]1.定制化数据处理需求:BI工具在进行数据处理和分析前,都必须明确所使用数据的文件名字、字段名称、字段类型、字段长度、数据行列数等数据结构,根据不同的数据结构定制化的进行数据清洗、数据筛选和数据处理,再选择所适用分析方法来计算数据特征,从而进行指标挑选和关系确定,这意味着传统的数据分析和使用工具只能定制化的完成数据处理和分析工本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种自适应数据结构的列相关关系发现装置,其特征在于,包括用于采集数据的数据采集装置以及用于储存的基准样本库,所述数据采集装置连接有用于对数据进行字段解析的数据处理器,所述数据处理器连接有用于对数据进行处理和修正的格式修正装置,所述格式修正装置连接有用于对采集的数据进行指标和数据计算的数据分析装置,所述数据分析装置连接有用于传输数据的数据传输器。2.根据权利要求1所述的一种自适应数据结构的列相关关系发现装置,其特征在于,所述数据处理器包括:数据拆分器:对输入数据的每一列进行自适应分箱;数据解析器:对分箱后的每一列和每一组的数据进行逐行遍历并根据基准样本库判断每一列和每一组的字段类型;数据汇总器:根据数据解析器的输出,将每一列和每一组的识别结果汇总。3.根据权利要求1所述的一种自适应数据结构的列相关关系发现装置,其特征在于,所述数据分析装置连接有用于清理原始数据的数据清理器。4.一种基于权利要求1至3之一所述自适应数据结构的列相关关系装置的发现方法,其特征在于,包括如下步骤:步骤1.数据使用方在数据采集装置上输入数据,并通过数据采集装置将数据传输给数据处理器;步骤2.数据处理器对输入的数据进行字段解析,并确定字段类型;步骤3.通过格式修正装置将初步解析好的数据进行处理和修正;步骤4.通过数据分析装置对步骤3中得到的数据进行指标和数据计算;步骤5.数据传输器将步骤4处理后的数据结果传输给数据使用方,供数据使用方下载和导入其他软件使用。5.根据权利要求4所述的一种基于自适应数据结构的列相关关系装置的发现方法,其特征在于,所述步骤2的具体步骤为:步骤2.1:数据拆分器根据资源使用情况和数据量测算情况,对输入数据的每一列进行自适应分箱;步骤2.2:数据解析器对每一列和每一组的数据进行逐行遍历,根据装置所设定的基准样本库判断每一列和每一组...

【专利技术属性】
技术研发人员:何刚常晋源龚晓岑黄志林王萍
申请(专利权)人:四川新网银行股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1