数据目录构建方法、装置、介质及设备制造方法及图纸

技术编号:36078284 阅读:53 留言:0更新日期:2022-12-24 10:50
本申请的实施例揭示了一种数据目录构建方法、装置、介质及设备,该数据目录构建方法包括:分别获取多个数据存储平台中的元数据,减小了数据传输量,然后对元数据进行实体识别及实体关系识别,以提取元数据中的实体及实体之间的关联关系,根据实体和关联关系构建全局元数据静态知识图谱,得到准确度高、数据覆盖面广的知识图谱,消除了各个数据存储平台之间的数据孤岛的情况,然后,根据待构建的数据目录的类型获取数据目录对应的目录构建策略,根据目录构建策略对全局元数据静态知识图谱进行目录信息提取,以根据得到的目录信息生成数据目录,进而便于对数据进行分析,有利于对数据进行挖掘利用。进行挖掘利用。进行挖掘利用。

【技术实现步骤摘要】
数据目录构建方法、装置、介质及设备


[0001]本申请涉及计算机
,具体而言,涉及一种数据目录构建方法、装置、计算机可读存储介质及电子设备。

技术介绍

[0002]大数据是信息化发展的新阶段,随着信息技术和人类生产生活交汇融合,互联网快速普及,全球数据呈现爆发增长、海量集聚的特点,对经济发展、社会治理、国家管理、人们生活都产生了重大影响。在大数据产业化的浪潮中,以数据为核心的信息基础设施将从大数据私有云发展为公有云、甚至逐步迈入混合云阶段。
[0003]企业的数据存在数据资源丰富,数据来源复杂等特征,如运营商包括业务域(business support system)数据、运营域(operation support system)数据、管理域(management support system)数据、移动深度包检测(Deep PacketInspection,DPI)数据、固网DPI数据、信令数据等。
[0004]在传统的企业大数据管理的方式中,数据入湖是现阶段比较主流的数据集中化管控方式,可以针对企业各种各样的原始数据,将数据全部集中起来提供存取、处理、分析及传输,但是,其存在数据流转周期长、数据全局关联度低、数据安全性低等问题。

技术实现思路

[0005]为解决上述技术问题,本申请的实施例提供了一种数据目录构建方法、装置、计算机可读存储介质及电子设备,以提高数据管理效果。
[0006]根据本申请实施例的一个方面,提供了一种数据目录构建方法,方法包括:
[0007]分别获取多个数据存储平台中的元数据,对元数据进行实体识别及实体关系识别,以提取元数据中的实体及实体之间的关联关系;
[0008]根据实体和关联关系构建全局元数据静态知识图谱;
[0009]根据待构建的数据目录的类型获取数据目录对应的目录构建策略;
[0010]根据目录构建策略对全局元数据静态知识图谱进行目录信息提取,以根据得到的目录信息生成数据目录。
[0011]在一些实施例中,对元数据进行实体识别及实体关系识别,以提取元数据中的实体及实体之间的关联关系,包括:
[0012]分别对每个数据存储平台中的元数据进行实体识别,得到每个数据存储平台对应的实体库;
[0013]分别对每个实体库中实体进行关系识别,得到每个实体库中实体之间的关联关系。
[0014]在一些实施例中,分别对多个数据存储平台中的元数据进行实体识别,得到每个数据存储平台对应的实体库,包括:
[0015]获取元数据的数据类型;
[0016]根据数据类型进行实体识别策略匹配,得到元数据对应的实体识别策略;
[0017]根据实体识别策略对元数据进行实体识别,得到元数据对应的实体;
[0018]将元数据对应的实体添加至元数据对应的数据存储平台的实体库。
[0019]在一些实施例中,根据实体和关联关系构建全局元数据静态知识图谱,包括:
[0020]获取预设的初始知识图谱,并对每个实体库进行实体对齐,得到待增量实体及关联关系;
[0021]根据待增量实体及关联关系对初始知识图谱进行图谱补全,得到全局元数据静态知识图谱。
[0022]在一些实施例中,待构建的数据目录的类型为静态数据资源编目;根据目录构建策略对全局元数据静态知识图谱进行目录信息提取,以根据得到的目录信息生成数据目录,包括:
[0023]获取待构建的静态数据资源编目对应的目录项关键词表和目录项关系表;
[0024]根据目录项关键词表对全局元数据静态知识图谱进行关键词匹配,得到全局元数据静态知识图谱中含有的目录项信息;
[0025]根据目录项关系表对目录项信息进行关系编排,生成静态数据资源编目。
[0026]在一些实施例中,待构建的数据目录的类型为静态业务资源目录;根据目录构建策略对全局元数据静态知识图谱进行目录信息提取,以根据得到的目录信息生成数据目录,包括:
[0027]获取全局元数据静态知识图谱中每个节点的节点属性;
[0028]根据节点属性对每个节点进行聚类处理,得到每个节点所属的业务类别;
[0029]根据全局元数据静态知识图谱包含的业务类别以及每个业务类别包含的节点,生成静态业务资源目录。
[0030]在一些实施例中,待构建的数据目录的类型为动态资源检索目录;根据目录构建策略对全局元数据静态知识图谱进行目录信息提取,以根据得到的目录信息生成数据目录,包括:
[0031]接收用户输入的资源检索信息;
[0032]提取资源检索信息中的检索关键词;
[0033]根据检索关键词对全局元数据静态知识图谱进行关键信息提取,得到资源检索信息对应的检索结果;
[0034]根据检索结果生成动态资源检索目录。
[0035]根据本申请实施例的一个方面,提供了一种数据目录构建装置,装置包括:
[0036]实体及关系提取模块,配置为分别获取多个数据存储平台中的元数据,对元数据进行实体识别及实体关系识别,以提取元数据中的实体及实体之间的关联关系;
[0037]知识图谱构建模块,配置为根据实体和关联关系构建全局元数据静态知识图谱;
[0038]目录构建策略确认模块,配置为根据待构建的数据目录的类型获取数据目录对应的目录构建策略;
[0039]数据目录生成模块,配置为根据目录构建策略对全局元数据静态知识图谱进行目录信息提取,以根据得到的目录信息生成数据目录。
[0040]根据本申请实施例的一个方面,提供了一种计算机可读存储介质,其上存储有计
算机程序,计算机程序被处理器执行时实现如上的数据目录构建方法。
[0041]根据本申请实施例的一个方面,提供了一种电子设备,包括一个或多个处理器;存储装置,用于存储一个或多个程序,当一个或多个程序被电子设备执行时,使得电子设备实现如上的数据目录构建方法。
[0042]在本申请的实施例提供的技术方案中,通过分别获取多个数据存储平台中的元数据,减小了数据传输量,然后对元数据进行实体识别及实体关系识别,以提取元数据中的实体及实体之间的关联关系,根据实体和关联关系构建全局元数据静态知识图谱,得到准确度高、数据覆盖面广的知识图谱,消除了各个数据存储平台之间的数据孤岛的情况,然后,根据待构建的数据目录的类型获取数据目录对应的目录构建策略,根据目录构建策略对全局元数据静态知识图谱进行目录信息提取,以根据得到的目录信息生成数据目录,进而便于对数据进行分析,有利于对数据进行挖掘利用。
[0043]应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。
附图说明
[0044]此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术者来讲,在不付出创造性劳动的前提下,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据目录构建方法,其特征在于,包括:分别获取多个数据存储平台中的元数据,对所述元数据进行实体识别及实体关系识别,以提取所述元数据中的实体及所述实体之间的关联关系;根据所述实体和所述关联关系构建全局元数据静态知识图谱;根据待构建的数据目录的类型获取所述数据目录对应的目录构建策略;根据所述目录构建策略对所述全局元数据静态知识图谱进行目录信息提取,以根据得到的目录信息生成数据目录。2.根据权利要求1所述的方法,其特征在于,所述对所述元数据进行实体识别及实体关系识别,以提取所述元数据中的实体及所述实体之间的关联关系,包括:分别对每个所述数据存储平台中的元数据进行实体识别,得到每个所述数据存储平台对应的实体库;分别对每个所述实体库中实体进行关系识别,得到每个所述实体库中实体之间的关联关系。3.根据权利要求2所述的方法,其特征在于,所述分别对所述多个数据存储平台中的元数据进行实体识别,得到所述每个数据存储平台对应的实体库,包括:获取所述元数据的数据类型;根据所述数据类型进行实体识别策略匹配,得到所述元数据对应的实体识别策略;根据所述实体识别策略对所述元数据进行实体识别,得到所述元数据对应的实体;将所述元数据对应的实体添加至所述元数据对应的数据存储平台的实体库。4.根据权利要求2所述的方法,其特征在于,所述根据所述实体和所述关联关系构建全局元数据静态知识图谱,包括:获取预设的初始知识图谱,并对每个所述实体库进行实体对齐,得到待增量实体及关联关系;根据所述待增量实体及关联关系对所述初始知识图谱进行图谱补全,得到全局元数据静态知识图谱。5.根据权利要求1至4任一项所述的方法,其特征在于,所述待构建的数据目录的类型为静态数据资源编目;所述根据所述目录构建策略对所述全局元数据静态知识图谱进行目录信息提取,以根据得到的目录信息生成数据目录,包括:获取待构建的静态数据资源编目对应的目录项关键词表和目录项关系表;根据所述目录项关键词表对所述全局元数据静态知识图谱进行关键词匹配,得到所述全局元数据静态知识图谱中含有的目录项信息;根据所述目录项关系表对所述...

【专利技术属性】
技术研发人员:李馨迟黄萌闫汇刘康
申请(专利权)人:中国电信股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1