一种基于多维数据立方体的数据处理方法及电子装置制造方法及图纸

技术编号:32431218 阅读:63 留言:0更新日期:2022-02-24 18:44
本发明专利技术提供一种基于多维数据立方体的数据处理方法及电子装置,包括:采集若干数据,获取各数据的字段名称,并对各数据进行语义化分析;依据字段名称与语义化分析结果,赋予各数据一或多个标签,并将各标签存入多维数据立方体的相应维度目录下;依据一查询分析指令,获取任务配置,并通过任务配置及维度目录下的标签,获取相应数据;根据不同类型数据的处理方法,对各相应数据进行自适应匹配,得到查询分析指令中设定形式的结果。本发明专利技术面向多种数据类型的构建数据立方体,提高信息资源查询效率、综合分析能力和数据直观展示效果。综合分析能力和数据直观展示效果。综合分析能力和数据直观展示效果。

【技术实现步骤摘要】
一种基于多维数据立方体的数据处理方法及电子装置


[0001]本专利技术属于软件
,具体涉及一种基于多维数据立方体的数据处理方法及电子装置。

技术介绍

[0002]政务信息资源在全社会资源中占有及其重要的位置,是一种具有重要价值的国家资源。对政务信息资源进行分析挖掘,可以最大限度发挥其价值。数据仓库是不可缺少的数据挖掘工具,其核心是支持联机分析处理(On-line Analytical Processing,OLAP)操作的数据立方体。数据立方体是由结构化数据组成多维矩阵,用户可以从多个角度对数据集进行探索、分析。数据立方体允许用户从不同的角度对海量数据进行分析,它能够保证分析的快速、一致和稳定。由于政务信息资源在格式、尺度、时态、语义上的多样化和复杂化对数据集成和组织带来了巨大挑战。研究人员分别针对结构化数据、文本数据、空间数据如何构建数据立方体进行了研究。结构化数据立方体构建基于关系数据模型,以多维逻辑方式组织,数据在各维度之间相互交叉,形成立体的数据视图,常采用星型和雪花型结构模型。在模型中,有三个实体:指标实体、维度实体、详细类别实体。文本数据立方体结合文本分析、挖掘、信息检索等技术,对文本数据进行处理,使得处理后的数据形式可以用来构建立方体,从而可以利用操作的便捷性、直观性的优点,来分析处理文本数据。文本数据立方体构建方法总体上可以被分为三种类别。一种是基于信息抽取技术,该技术通过预先定义的信息结构将文本转化为结构化的数据;第二种是基于信息检索技术,可以处理包含用户指定的关键字的查询;第三种是基于文本挖掘技术,该类文本需要对文本的语义信息进行挖掘,并使用关键字等信息对文本进行分类标注等操作。空间数据立方体是一种崭新的决策支持工具,它可以在电子地图上提供上卷、下钻、切片、切块等查询分析功能,是空间数据仓库不可缺少的数据挖掘工具。空间数据立方体的维和度量都具有空间信息,空间数据立方体包含3种类型的维:(1)非空间维,只包含非空间数据。(2)空间-非空间维,指初始数据是空间数据,但按一定的抽象层次概化后变成非空间的。(3)空间-空间维,指无论初始数据还是概化数据都是空间数据。这三类方法分别针对三种数据类型,而对多种数据类型的综合数据立方体构建方法未见有报道。
[0003]结构化数据立方体构建,需要事先设计好立方体的结构,按照严格的代数逻辑进行定义。在面向特定问题查询和计算时能满足要求,但涉及到定义之外问题时往往不能得到有效支持。文本数据立方体构建,主要依靠领域专家根据领域知识人工构建,成本较高,动态适应性较差,难以在实际中广泛使用。虽然有些方法中实现了动态构建文本集维度,但是这些方法主要依赖文本集的关键字和高频词的相似度,抽取的语义准确性还有待提高。同时,文本度量大多釆用信息检索技术,将文本转换为词项集合,使用高频词和词频作为度量,高频词和词频不能直观的显示文本的语义和主题,当存在多个主题时,高频词和词频难以区分不同的主题,这使得分析结果的准确性较低。空间数据立方体构建,由于空间数据量大,联机分析处理(OLAP)操作的响应延迟,空间数据立方体时间数据索引难度大。
[0004]同时,在政务信息资源应用中,信息资源整合并非将所有数据物理集中,更多是物理分散、逻辑聚合的方式进行集成,以支持解决大量政务问题。所以,如何克服上述的缺陷,构建支持多种数据类型的综合政务数据立方体,将有利于政务信息资源快速检索、整合分析及综合呈现,成为现有技术亟需解决的技术问题。

技术实现思路

[0005]针对上述问题,本专利技术提供了一种基于多维数据立方体的数据处理方法及电子装置,基于汇聚的各类数据,并利用地理网格划分、文本分词和本体构建等技术,解决解决大量数据的分析问题。
[0006]为达到上述目的,本专利技术的技术方案为:
[0007]一种基于多维数据立方体的数据处理方法,其步骤包括:
[0008]1)采集若干数据,获取各数据的字段名称,并对各数据进行语义化分析;
[0009]2)依据字段名称与语义化分析结果,赋予各数据一或多个标签,并将各标签存入多维数据立方体的相应维度目录下;
[0010]3)依据一查询分析指令,获取任务配置,并通过任务配置及维度目录下的标签,获取相应数据;
[0011]4)根据不同类型数据的处理方法,对各相应数据进行自适应匹配,得到查询分析指令中设定形式的结果。
[0012]进一步地,所述数据包括:行政数据、行业数据、社会数据和互联网数据。
[0013]进一步地,采集若干数据的方法包括:数据目录申请订阅方法、数据服务接口方法和自动网络爬取方法;通过以下步骤进行数据目录申请订阅方法:
[0014]1)向互联网中各节点发布数据目录;
[0015]2)当收到一节点的订阅申请审批后,与该节点进行交换任务管理;
[0016]3)定期对数据进行自动采集。
[0017]进一步地,获取各数据的字段名称之前,对各数据进行预处理;通过一耦合数据规则和业务规则的数据滤选器,对各数据进行预处理。
[0018]进一步地,所述维度包括:主题维度、地区维度和类型维度;所述地区维度包括国家、省市、地市、区县和乡镇。
[0019]进一步地,通过中文分词和文本解析,实现查询分析指令的自然语言查询到机器语言的翻译。
[0020]进一步地,任务配置包括:任务类型配置、任务脚本配置、任务数据配置、任务周期配置和任务状态配置;
[0021]进一步地,所述设定形式包括立方体、图、表和文件。
[0022]一种存储介质,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行上述所述的方法。
[0023]一种电子装置,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机以执行上述所述的方法。
[0024]与现有技术相比,本专利技术面向多种数据类型的构建数据立方体,提高信息资源查询效率、综合分析能力和数据直观展示效果。
附图说明
[0025]图1为本专利技术的构建及联机分析架构图。
[0026]图2为本专利技术的方法流程图。
具体实施方式
[0027]为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本专利技术进行进一步详细说明。
[0028]本专利技术的多维数据立方体的政务数据处理系统架构如图1所示。系统架构包括原始数据层、采集汇聚层、数据连接层、数据管理层、数据管理层和数据应用层,本系统主要面向用户包括业务人员和数据管理人员。
[0029]原始数据层:指原本离散的、多元的、异构的、分布在不同部门不同领域的原始数据,是多维数据立方体采集、存储及处理的对象,包括各来源的行政数据、行业数据、社会数据、互联网数据等各类原始数据。
[0030]采集汇聚层:支持多种类型的数据采集方式。对于国家政务数据资源,以数据目录申请订阅、数据服务接口及自动网络爬取等的方式进行数据采集。其中数据目录申请订阅的整体流程为:数据目录发布、订阅申本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于多维数据立方体的数据处理方法,其步骤包括:1)采集若干数据,获取各数据的字段名称,并对各数据进行语义化分析;2)依据字段名称与语义化分析结果,赋予各数据一或多个标签,并将各标签存入多维数据立方体的相应维度目录下;3)依据一查询分析指令,获取任务配置,并通过任务配置及维度目录下的标签,获取相应数据;4)根据不同类型数据的处理方法,对各相应数据进行自适应匹配,得到查询分析指令中设定形式的结果。2.如权利要求1所述的方法,其特征在于,所述数据包括:行政数据、行业数据、社会数据和互联网数据。3.如权利要求1所述的方法,其特征在于,采集若干数据的方法包括:数据目录申请订阅方法、数据服务接口方法和自动网络爬取方法;通过以下步骤进行数据目录申请订阅方法:1)向互联网中各节点发布数据目录;2)当收到一节点的订阅申请审批后,与该节点进行交换任务管理;3)定期对数据进行自动采集。4.如权利要求1所述的方法,其特征在于,获...

【专利技术属性】
技术研发人员:罗宁王伟
申请(专利权)人:中国科学院软件研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1