一种多源数据颗粒化融合及指标分类分层处理方法技术

技术编号:27656201 阅读:27 留言:0更新日期:2021-03-12 14:18
本发明专利技术公开了一种多源数据颗粒化融合及指标分类分层处理方法,通过将表格中大量多样冗余的指标进行分类,并建立存储库,再通过将多种形式的表格统一为标准表格、识别标题区域和数值区域、分别提取数值的相关属性信息,从而形成颗粒化、标准化的数据;然后通过构建指标索引结构,依据用户的个性化选择,以电子表格形式呈现数值项、以及与数值相对应的指标及层级、指标分类描述及层级、指标与指标分类描述的应用场景和其它隐含属性,实现对二维表格数据的准确表达。本发明专利技术能够将多源数据进行归一化处理、存储,从而使指标名称唯一性、层级关系多源性、指标分类描述多源性以及应用场景多源性,为多源数据的灵活、多样、快速呈现提供了基础。

【技术实现步骤摘要】
一种多源数据颗粒化融合及指标分类分层处理方法
本专利技术属于大数据处理
,特别是一种多源数据颗粒化融合及指标分类分层处理方法。
技术介绍
在大数据治理过程中,数据的来源是多样化的,表格数据文件是其中一种常见类型。比较典型的二维电子表格数据有业务(调查)类和年鉴类,针对业务(调查)类数据,由于其多样性,现有技术大多采用分库存储、分别查询、各自表达的形式,没有形成统一的解决方案;针对年鉴类数据,虽然现有技术基本实现了年鉴类数据的统一存储、联合查询,但大多采用X轴Y轴直接组合,即XY(或YX)组合指标方式,存在指标名称过长、不规范、不准确、可读性差等诸多缺陷。究其原因,主要体现在以下几个方面:1)多源数据的多样性导致难以统一处理。由于多源数据来源于不同的源,导致这些数据各式各样,其指标名称和样式都不同,现有技术针对不同的表格数据大多采用不同的存储和表达方案,很难做到统一存储和表达。2)多源指标冗余导致难以统一存储。由于二维电子表格的多样性,同一指标名称在不同的数据表格中同时出现,现有技术采用分别存储方式,导致指标冗余,不能确保指标名称的唯一性。3)多源指标的应用场景多样性导致难以统一检索。现有处理技术由于没有存储指标及指标分类描述之间的层级关系和应用场景,导致无法针对多源指标的不同应用场景进行统一检索。4)XY(或YX)直接组合的指标表达方式难以准确表达数据含义。现有处理技术由于其存储方式的缺陷导致指标采用组合指标方式呈现,存在指标名称过长、不规范、不准确、可读性差等诸多缺陷,很难做到准确表达数据含义。
技术实现思路
本专利技术需要解决的技术问题是提供一种多源数据颗粒化融合及指标分类分层处理方法,能够将多源数据进行归一化处理、存储,从而使指标名称唯一性、层级关系多源性、指标分类描述多源性以及应用场景多源性,为多源数据的灵活、多样、快速展示提供基础。为解决上述技术问题,本专利技术所采取的技术方案如下。一种多源数据颗粒化融合及指标分类分层处理方法,主要包括以下步骤:Z1.采集各种二维表格数据;Z2.利用多源数据颗粒化融合器,将采集到的数据经过清洗后,分别存储到SI库、SC库、SD库、SR库、SQ库五个数据库中;Z3.构建多源指标索引结构SS,依据用户的选择,利用多源数据指标分类分级呈现器读取SI库、SC库、SD库、SR库、SQ库中的信息;Z4.渲染多源数据检索结果,呈现给用户。上述一种多源数据颗粒化融合及指标分类分层处理方法,步骤Z2中所述的多源数据颗粒化融合器包括电子表格格式规整器、区域自动识别器、指标结构解析器和数值项自动提取器,具体实现方法如下:Z21.加载表格文档,读取表格文档所属的数据源多源信息,存入SQ库;Z22.利用电子表格格式规整器,将多种形式的表格统一为标准多源表格待处理文档PD;Z23.利用区域自动识别器,读取步骤Z22形成的待处理文档PD,形成表格矩阵M,并识别指标区域和数值区域;Z24.利用指标结构解析器,递归遍历指标区域,结合SQ库存储的多源信息,识别并提取指标单元及其对应的多源信息键值,存入SI库;识别并提取指标分类描述单元及其对应的多源信息键值,存入SC库;识别并标引指标单元和指标分类描述单元之间的应用场景及其对应的多源信息键值,存入SR库;Z25.利用数值项自动提取器,通过遍历数值区域,结合SQ库存储的多源信息,提取多源数值项,同时依据步骤Z23形成的表格矩阵M的横坐标和纵坐标以及步骤Z24提取的指标单元和指标分类描述单元,定位并标引该多源数值项对应的指标单元键值、指标分类描述单元键值和其对应的多源信息键值,存入SD库。上述一种多源数据颗粒化融合及指标分类分层处理方法,步骤Z22具体包括以下内容:Z221.加载表格文档;Z222.根据表格特征判断文档类型,是业务数据表格还是年鉴数据表格;如果是业务数据表格,则跳转到步骤Z223;如果是年鉴数据表格,则跳转到步骤Z226;Z223.在表格文档左侧添加一列,作为区域标注列;在表格文档上部添加一行,作为指标分类标注行;Z224.利用自学习算法,根据每行单元格特征,识别数值区域和指标区域,进行区域标注列标注;利用自学习算法,根据每列单元格特征,识别指标分类,进行指标分类标注行标注;Z225.引入业务样表,标注指标单元和指标分类描述单元的层级关系;同时将特征类指标项、名词类指标项做为隐含属性和应用场景处理;Z226.形成规范的待处理文档PD。上述一种多源数据颗粒化融合及指标分类分层处理方法,步骤Z23具体包括以下内容:Z231.加载步骤Z226形成的待处理文档PD;Z232.形成表格矩阵;Z233.按照指标单元特征,识别指标单元区域;按照指标分类描述单元特征,识别指标分类描述单元区域;按照数值项特征,识别数值区域。上述一种多源数据颗粒化融合及指标分类分层处理方法,步骤Z24具体包括以下内容:Z241.加载经步骤Z233识别后的表格文档PD;Z242.提取表格文档PD中的源、库、表隐含关系属性;Z243.读取目标区域;Z244.依据单元格特征,分别沿X轴、Y轴识别目标区域,利用递归算法,识别并读取目标区域的层级关系;Z245.提取目标区域,利用自学习算法判断是指标单元还是指标分类描述单元;Z246.结合SQ库存储的多源信息进行迭代判断,如果是指标单元,将多源指标单元及其对应的多源信息键值存入SI库,同时将其应用场景及其对应的多源信息键值与步骤Z242提取的关系属性存入SR库;如果是指标分类描述单元,将多源指标分类描述单元及其对应的多源信息键值存入SC库,同时将其应用场景及其对应的多源信息键值与步骤Z242提取的关系属性存入SR库。上述一种多源数据颗粒化融合及指标分类分层处理方法,步骤Z25具体包括以下内容:Z251.加载步骤Z23中表格矩阵的数值区域;Z252.顺次读取单元格内容,记录单元格的横纵坐标值;Z253.依据横纵坐标值以及步骤Z24提取的指标单元和指标分类描述单元,定位并记录横纵坐标对应的指标单元键值和指标分类描述单元键值;Z254.提取多源数值项以及多源数值项对应的横纵坐标值、指标单元键值、指标分类描述单元键值和其对应的多源信息键值,存入SD库。上述一种多源数据颗粒化融合及指标分类分层处理方法,步骤Z3中所述的多源数据指标分类分级呈现器包括指标索引结构构建器和层级分类结果呈现器,具体包括以下内容:Z31.构建多源指标索引结构SS;Z32.结合用户的选择,利用指标索引结构构建器读取SI库、SC库、SD库、SR库、SQ库中的信息,填充多源指标索引结构SS;Z33.依据用户的选择项,利用层级分类结果呈现器迭代提取SI库、SC库、SD库、SR库、SQ库中的相应信息。上述一种多源数据颗粒化融合及指标分类分层处理方法,步骤本文档来自技高网
...

【技术保护点】
1.一种多源数据颗粒化融合及指标分类分层处理方法,其特征在于,主要包括以下步骤:/nZ1.采集各种二维表格数据;/nZ2.利用多源数据颗粒化融合器,将采集到的数据经过清洗后,分别存储到SI库、SC库、SD库、SR库、SQ库五个数据库中;/nZ3.构建多源指标索引结构SS,依据用户的选择,利用多源数据指标分类分级呈现器读取SI库、SC库、SD库、SR库、SQ库中的信息;/nZ4.渲染多源数据检索结果,呈现给用户。/n

【技术特征摘要】
1.一种多源数据颗粒化融合及指标分类分层处理方法,其特征在于,主要包括以下步骤:
Z1.采集各种二维表格数据;
Z2.利用多源数据颗粒化融合器,将采集到的数据经过清洗后,分别存储到SI库、SC库、SD库、SR库、SQ库五个数据库中;
Z3.构建多源指标索引结构SS,依据用户的选择,利用多源数据指标分类分级呈现器读取SI库、SC库、SD库、SR库、SQ库中的信息;
Z4.渲染多源数据检索结果,呈现给用户。


2.根据权利要求1所述的一种多源数据颗粒化融合及指标分类分层处理方法,其特征在于,步骤Z2中所述的多源数据颗粒化融合器包括电子表格格式规整器、区域自动识别器、指标结构解析器和数值项自动提取器,具体实现方法如下:
Z21.加载表格文档,读取表格文档所属的数据源多源信息,存入SQ库;
Z22.利用电子表格格式规整器,将多种形式的表格统一为标准多源表格待处理文档PD;
Z23.利用区域自动识别器,读取步骤Z22形成的待处理文档PD,形成表格矩阵M,并识别指标区域和数值区域;
Z24.利用指标结构解析器,递归遍历指标区域,结合SQ库存储的多源信息,识别并提取指标单元及其对应的多源信息键值,存入SI库;识别并提取指标分类描述单元及其对应的多源信息键值,存入SC库;识别并标引指标单元和指标分类描述单元之间的应用场景及其对应的多源信息键值,存入SR库;
Z25.利用数值项自动提取器,通过遍历数值区域,结合SQ库存储的多源信息,提取多源数值项,同时依据步骤Z23形成的表格矩阵M的横坐标和纵坐标以及步骤Z24提取的指标单元和指标分类描述单元,定位并标引该多源数值项对应的指标单元键值、指标分类描述单元键值和其对应的多源信息键值,存入SD库。


3.根据权利要求2所述的一种多源数据颗粒化融合及指标分类分层处理方法,其特征在于,步骤Z22具体包括以下内容:
Z221.加载表格文档;
Z222.根据表格特征判断文档类型,是业务数据表格还是年鉴数据表格;如果是业务数据表格,则跳转到步骤Z223;如果是年鉴数据表格,则跳转到步骤Z226;
Z223.在表格文档左侧添加一列,作为区域标注列;在表格文档上部添加一行,作为指标分类标注行;
Z224.利用自学习算法,根据每行单元格特征,识别数值区域和指标区域,进行区域标注列标注;利用自学习算法,根据每列单元格特征,识别指标分类,进行指标分类标注行标注;
Z225.引入业务样表,标注指标单元和指标分类描述单元的层级关系;同时将特征类指标项、名词类指标项做为隐含属性和应用场景处理;
Z226.形成规范的待处理文档PD。


4.根据权利要求3所述的一种多源数据颗粒化融合及指标分类分层处理方法,其特征在于,步骤Z23具体包括以下内容:
Z231.加载步骤Z226形成的待处理文档PD;
Z232.形成表格矩阵;
Z233.按照指标单元特征,识别指标单元区域;按照指标分类描述单元特征,识别指标分类描述单元区域;按照数值项特征,识别数值区域。


5.根据权利要求4所述的一种多源数据颗粒化融合及指标分类分层处理方法,其特征在于,步骤Z24具体包括以下内容:
Z241.加载经步骤Z233识别后的表格文档PD;
Z242.提取表格文档PD中的源、库、表隐含关系属性;
Z243.读取目标区域;
Z244.依据单元格特征,分别沿X轴、Y轴识别目标区域,利用递归算法,识别并读取目标区域的层级关系;
Z245.提取目标区域,利用自学习算法判断是指标单元还是指标分类描述单元;
Z246.结合SQ库存储的多源信息进行迭代判断,如果是指标单元,将多源指标单元及其对应的多源信息键值存入SI库,同时将其应用场景及其对应的多源信息键值与步骤Z242提取的关系属性存入SR库;如果是指标分类描述单...

【专利技术属性】
技术研发人员:李银生聂永川张朝宗王红吴峰任雁刘淼张金龙陈娟张碟蒋倩男张聪高原高银珍毋鹏杰
申请(专利权)人:河北省科学技术情报研究院河北省科技创新战略研究院
类型:发明
国别省市:河北;13

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1