一种基于粒数据的信息资源管理与分析方法技术

技术编号:29673230 阅读:14 留言:0更新日期:2021-08-13 21:54
本发明专利技术公开了一种基于粒数据的信息资源管理与分析方法,分析方法步骤如下:1、构建粒数据的标签知识本体;2、对输入的多源数据集进行预处理,并对每个单元赋予多维标签,生成粒数据集;3、构建粒数据逻辑存储适配器,将粒数据集映射到物理存储;4、构建粒数据装载组件;5、定义粒数据分析描述语言,构建粒数据分析组件;6、实现统一的系统内和系统间粒数据共享访问控制决策器,根据访问控制决策器的判别结果确定每一颗粒数据的访问权限;7、提供结果粒数据集的格式化和可视化输出。本发明专利技术在灵活而高效的管理和分析信息资源的同时亦不失通用性,解决了现有信息资源管理和分析技术通用性查、灵活性弱的问题。

【技术实现步骤摘要】
一种基于粒数据的信息资源管理与分析方法
本专利技术属于信息资源管理与分析领域,具体涉及一种基于粒数据的信息资源分析方法。
技术介绍
随着人类活动的信息化和网络化,当前网络空间中分布着海量数据及其所承载的信息资源,因此有效的管理和分析多元异构信息资源十分必要。随着算力的不断提升和人工智能新技术的应用,信息资源的管理和分析技术面临着新的机遇和挑战。当前的信息资源管理与分析技术,通常有如下三种方法:1.基于数据仓库的数据挖掘技术数据仓库是面向主题的数据集合,信息资源经过数据抽取、转换、装载三个过程即ETL过程构建多维数据模型,再通过联机分析处理(OnlineAnalyticalProcessing,OLAP)实现数据分析和辅助决策。代表性系统有OracleWarehouse,支持面向主题的复杂查询、数据快照等特性。虽然此方法具有较高的查询和分析效率,但是数据抽取和转换过程需要大量的数据清洗如标准化、归一化等过程,否则难以保证数据质量。此外,数据仓库仅依赖数据的主题属性进行管理和分析,维度单一且无法动态调整,极大的影响数据挖掘和分析能力。2.基于知识图谱的数据分析技术知识图谱本质上是一种描述实体之间关系的语义网络,通过对信息中知识的抽取、表示和融合,挖掘和预测数据内在的关联关系,进而实现数据深度分析和应用。代表性系统有Neo4j图数据库,支持知识图谱的构建和强大的查询能力。此方法具有较强的数据挖掘和知识推理能力,并可在图层面上借助链接预测算法实现一定程度的自学习能力。然而,由于此方法在知识抽取时需要依赖基于专家知识的模式(Schema),因此无法应用于弱逻辑关系或逻辑关系不确定的数据集合,此方法仅适用于搜索引擎推荐、智能问答等有限的应用领域。3.基于大数据的机器学习技术无论有监督或无监督方式的机器学习,该方法总是对大规模数据集合预先进行训练,根据生成的模型对数据进行分类和预测,从多源海量数据中挖掘潜在的关联关系。代表性工作包括卷积神经网络CNN、循环神经网络RNN等,支持对数据特征的学习和数据序列的预测。此方法对于关联关系不明确或缺乏专家知识的数据集分析具有显著效果,但是其过渡依赖于训练数据,因此准确率和召回率无法保证。此外,对于机器学习模型来说,数据分析结果的可解释性较差,无法量化数据分析质量。综上,目前信息资源管理与分析技术通用性、灵活性、易用性差。
技术实现思路
针对现有技术中存在的问题,本专利技术的目的在于提供一种基于粒数据的信息资源管理与分析方法,通过将多源海量数据分解为粒数据集,并对每一颗粒数据赋予一组标签,借助复杂语义查询机制实现高通用性和灵活性的信息资源管理与分析能力。一种基于粒数据的信息资源管理与分析方法,其步骤如下:步骤S01:根据国家标准和行业最佳实践构建粒数据的标签知识本体(Ontology);步骤S02:基于步骤S01构建的标签知识本体,对输入的多源数据集进行预处理,提取具有完整逻辑含义的最小处理单位,并对每个单元赋予多维标签,生成粒数据集;步骤S03:按照不同的物理存储架构,构建灵活的粒数据逻辑存储适配器,将步骤S02生成的粒数据集映射到物理存储;步骤S04:构建粒数据装载组件,支持基于粒数据标签的常规检索和语义计算,根据应用需求提取S03中存储的粒数据集进一步分析处理;步骤S05:定义粒数据分析描述语言,构建粒数据分析组件,对S04输出的数据集进行分析,并生成分析结果粒数据集;步骤S06:实现统一的系统内和系统间粒数据共享访问控制决策器,对步骤S04和步骤S05中生成的粒数据集根据访问控制决策器的判别结果确定每一颗粒数据的权限;步骤S07:对步骤S06的结果粒数据集提供报表数据和可视化输出。进一步的,在步骤S01中所述的“粒数据标签知识本体”,指的是粒数据的属性集合,包括指标、分组、时间、空间、计量单位和主题。进一步的,在步骤S02中所述的“对输入的多源数据集进行预处理”,做法如下:(1)对于半结构化数据,通过将模式(Schema)中的多层嵌套属性解耦,将半结构化数据转化为结构化数据;(2)对于非结构化数据,通过计算数据的哈希值,将非结构化数据转化为<Key,Value>模式的结构化数据。最终将所有多源异构数据统一为结构化数据以便进一步处理。进一步的,在步骤S03中所述的“物理存储架构”,包括关系型数据库、NoSQL数据库以及图数据库。进一步的,在步骤S03中所述的“逻辑存储适配器”,指的是依据物理存储架构,将粒数据映射到物理存储中的中间件。进一步的,在步骤S04中所述的“标签的常规检索”,指的是对标签的取值范围,以及包括最大值、最小值、平均值的统计指标进行查询。进一步的,在步骤S04中所述的“标签的语义计算”,指的是根据给定的主题词匹配具有相似逻辑含义的标签。进一步的,在步骤S05中所述的“粒数据分析描述语言”,提供包括算术运算、逻辑运算、自定义复杂运算脚本,以及包括谓词逻辑的复杂语义关系运算描述符。进一步的,在步骤S06中所述的“访问控制决策器”,指的是根据访问控制策略判定是否允许或拒绝对粒数据的访问,支持基于交通灯协议(TrafficLightProtocol,TLP)的粗粒度访问控制和基于角色的细粒度访问控制。通过以上步骤,本专利技术实现了基于粒数据的信息资源管理与分析方法,在灵活而高效的管理和分析信息资源的同时亦不失通用性,解决了现有信息资源管理和分析技术通用性查、灵活性弱的问题。借由上述技术方案,本专利技术构建一套基于粒数据的信息资源管理与分析系统,通过将数据分解为表征逻辑意义的最小单元,并赋予多维标签,使得数据在更细的粒度上得到管理和分析,同时保证其通用性和灵活性,降低了人工标记数据和训练数据的成本,有效避免了数据管理成本高、通用性差的问题。附图说明图1为本专利技术提供的基于粒数据的信息资源管理与分析方法的实施例示意图。具体实施方式为了使本专利技术方法的目的,技术方案的描述更清晰,以下对具体实施方式做进一步的详细说明。步骤101:根据国民经济行业分类,构建粒数据标签知识本体,包括数值型指标、非数值型分组、计量单位、行政区划、时间周期等标签以及取值范围。步骤102:输入国家统计部门及各行业主管部门公布的多源异构数据,并基于步骤101构建的标签知识本体自动进行分解,生成粒数据集,对每一颗粒数据赋予所属行业、行政区划、时间周期、统计口径等多维标签。步骤103:实现粒数据逻辑存储适配器获得对特定物理存储架构的兼容性。对于关系型数据库如Oracle,将步骤102输出的粒数据集机器标签转化为二维表存储;对于键值数据库如ElasticSearch,将步骤102输出的粒数据与其所有的标签转换为若干条<Key,Value>记录;对于图数据库如Neo4j,将步骤102输出的粒数据以及标签存储为图节点,将标签间的关系本文档来自技高网
...

【技术保护点】
1.一种基于粒数据的信息资源管理与分析方法,其特征在于,包括以下步骤:/n步骤S01:根据国家标准和行业最佳实践构建粒数据的标签知识本体;/n步骤S02:基于步骤S01构建的标签知识本体,对输入的多源数据集进行预处理,提取具有完整逻辑含义的最小处理单位,并对每个单元赋予多维标签,生成粒数据集;/n步骤S03:按照不同的物理存储架构,构建灵活的粒数据逻辑存储适配器,将步骤S02生成的粒数据集映射到物理存储;/n步骤S04:构建粒数据装载组件,支持基于粒数据标签的常规检索和语义计算,根据应用需求提取S03中存储的粒数据集进一步分析处理;/n步骤S05:定义粒数据分析描述语言,构建粒数据分析组件,对S04输出的数据集进行分析,并生成分析结果粒数据集;/n步骤S06:实现统一的系统内和系统间粒数据共享访问控制决策器,对步骤S04和步骤S05中生成的粒数据集根据访问控制决策器的判别结果确定每一颗粒数据的权限;/n步骤S07:对步骤S06的结果粒数据集提供报表数据和可视化输出。/n

【技术特征摘要】
1.一种基于粒数据的信息资源管理与分析方法,其特征在于,包括以下步骤:
步骤S01:根据国家标准和行业最佳实践构建粒数据的标签知识本体;
步骤S02:基于步骤S01构建的标签知识本体,对输入的多源数据集进行预处理,提取具有完整逻辑含义的最小处理单位,并对每个单元赋予多维标签,生成粒数据集;
步骤S03:按照不同的物理存储架构,构建灵活的粒数据逻辑存储适配器,将步骤S02生成的粒数据集映射到物理存储;
步骤S04:构建粒数据装载组件,支持基于粒数据标签的常规检索和语义计算,根据应用需求提取S03中存储的粒数据集进一步分析处理;
步骤S05:定义粒数据分析描述语言,构建粒数据分析组件,对S04输出的数据集进行分析,并生成分析结果粒数据集;
步骤S06:实现统一的系统内和系统间粒数据共享访问控制决策器,对步骤S04和步骤S05中生成的粒数据集根据访问控制决策器的判别结果确定每一颗粒数据的权限;
步骤S07:对步骤S06的结果粒数据集提供报表数据和可视化输出。


2.根据权利要求1所述的基于粒数据的信息资源管理与分析方法,其特征在于:在步骤S01中所述的“粒数据标签知识本体”,指的是粒数据的属性集合,包括指标、分组、时间、空间、计量单位和主题。


3.根据权利要求1所述的基于粒数据的信息资源管理与分析方法,其特征在于:在步骤S02中所述的“对输入的多源数据集进行预处理”,做法如下:(1)对于半结构化数据,通过将模式中的多层嵌...

【专利技术属性】
技术研发人员:黄德会
申请(专利权)人:京软伟业信息技术北京有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1