当前位置: 首页 > 专利查询>管文专利>正文

一种建立大数据元知识库的分布式系统和方法技术方案

技术编号:34204713 阅读:16 留言:0更新日期:2022-07-20 11:35
本发明专利技术提供了一种建立大数据元知识库的分布式系统和方法,系统包括:分布式“元知识提取模块”,分布式部署的多个“元知识提取模块”分别从大数据中提取不同区域块的数据项的元知识;“消息生成模块”,将一个或多个元知识包装成可以统一标识的消息并将消息发布到一个或多个“消息广播模块”中;分布式“消息广播模块”,接受“消息生成模块”发送过来的消息及接收从其它“消息广播模块”订阅的消息,删除其中重复的消息并广播其它非重复的消息给所有的订阅用户;“元知识库生成模块”,从一个或多个分布式“消息广播模块”订阅消息并提取消息中的元知识保存到元知识库中。方法包括:元知识提取、消息生成、消息广播和元知识库生成。本发明专利技术实现了通过对大数据进行分布式的元知识提取来建立元知识库的方法。取来建立元知识库的方法。

A distributed system and method for building big data meta knowledge base

【技术实现步骤摘要】
一种建立大数据元知识库的分布式系统和方法


[0001]本专利技术涉及元数据及分布式计算领域,具体涉及一种建立大数据元知识库的方法及其系统。

技术介绍

[0002]随着数据量的增大、数据的多样性的增加及数据处理速度的加快,大数据成了越来越多企业和部门甚至一个国家和全世界要处理的问题。在大数据系统中,这些数据不仅是多样的,而且通常是分布的。为了方便对各种不同的数据的查询,建立一个统一的元知识库系统来记录这些数据的元信息是有必要的。
[0003]元数据、元知识或元信息是描述数据的数据,主要是数据的属性等关键信号、摘要信息和用户描述信息等。
[0004]由于大数据通常信息量大而且分布存储在不同地方或不同的系统中,这造成了查找和检索这些数据的困难。
[0005]传统的方法是对不同的大数据系统建立特定的系统来处理大数据的查找和检索问题,本专利技术将建立一个通用的系统和方法将分布的大数据的元数据保存到一个相对统一的元知识库中,以方便对大数据的查找和检索;同时这个元知识库还提供从元数据到原始数据的查找,以方便用户查找原始数据。

技术实现思路

[0006]本专利技术的目的在于提供一种建立大数据元知识库的方法及其系统。
[0007]本专利技术的技术方案是这样实现的:一种建立大数据元知识库的系统和方法,其特征在于,包括:分布式“元知识提取模块”:分布式部署的多个“元知识提取模块”分别从大数据中提取不同区域块的数据项的元知识;其中元知识是描述数据项的元数据,如数据的属性、摘要等;其中元知识可以是从数据项的提取的,也可以是用户对数据项的某种描述;其中每一个元知识都包含一个根据数据属性生成的唯一确定的标识符和一个全局定位符;分布式“消息生成模块”:将一个或多个元知识包装成可以统一标识的消息并将消息发布到一个或多个“消息广播模块”中,其中每一个消息用一个全局唯一的标识符来标识这个消息;分布式“消息广播模块”:接受“消息生成模块”发送过来的消息及接收从其它“消息广播模块”订阅的消息,删除其中重复的消息并广播其它非重复的消息给所有的订阅用户,其中拥有相同的标识符的消息即为重复的消息;“元知识库生成模块”:从一个或多个分布式“消息广播模块
”ꢀ
订阅消息并提取消息中的元知识保存到元知识库中。
[0008]所述分布式“元知识提取模块”包括分布式部署的多个“元知识提取模块”,其中元知识是描述数据项的数据,其中每一个“元知识提取模块”从大数据中提取一部分数据项的
元知识,其中不同的“元知识提取模块”之间提取的数据项可以有重叠,其中所有的“元知识提取模块”可以实现对大数据的一个全覆盖,其中“元知识提取模块”提取一个数据项元知识,其中“元知识提取”包括:属性提取:提取数据项的相关属性信息,如标题等;摘要提取:提取或生成数据项的摘要信息;数据描述提取:提取用户对数据项的描述信息等;统一标识生成:根据数据属性生成全局唯一的标识符,其中对于每一个数据项生成的标识符是唯一确定的,其中不同的“元知识提取模块”对于同一个数据项在不同时间会产生相同的标识符;同一个数据项的标识符是确定的;全局定位符生成:生成全局定位符以用于定位当前数据项或数据集,如统一资源定位符URL;元知识生命周期生成:对于不同类型的元知识,其最长生命周期有不同限制;分布式“元知识提取模块”:分布式部署的多个“元知识提取模块”分别从大数据中提取不同区域的数据项的元知识;其中每一个元知识都包含一个根据数据属性生成的唯一确定的标识符和一个全局定位符。
[0009]所述“消息生成模块”包括:消息:消息包括消息头部和消息主体;其中消息头部包括消息的标识、消息传播相关的信息;其中消息主体中封装着所要传输的一个或多个元知识;元知识包装模块:将一个或多个元知识包装成消息主体;消息头部生成:对每一个消息生成一个全局唯一的标识符,并将这个全局唯一的标识符插入到消息头部;并将其它关于消息传播的信息包装到消息头部;消息发布:发布消息到一个或多个“消息广播模块”。
[0010]所述“消息广播模块”包括:消息接收模块:接收“消息生成模块”发送的消息;消息订阅模块:从一个或多个其它“消息广播模块”订阅的消息;重复消息检测模块:检测重复的消息并将丢弃重复的消息,其中拥有相同的标识符的消息即为重复的消息;消息广播模块:将消息广播给所有的订阅用户或其它选定的用户。
[0011]所述“元知识库生成模块”包括:消息接收模块:接收“消息生成模块”发送的消息;消息订阅模块:从一个或多个“消息广播模块”订阅的消息重复消息检测模块:检测重复的消息并将丢弃重复的消息,其中拥有相同的标识符的消息即为重复的消息;消息解析模块:将消息主体中的一个或多个元知识解析出来;元知识保存模块:保存元知识到知识库中以形成可供用户查询的知识;其中知识库是一个可供高效查询的结构化数据库管理系统,如数据库;其中由于每一个数据项的元知识标识符是确定的,所以每一个数据项在知识库中是可以唯一标识的;其中新的元知识将会在知识库中插入新的记录;其中相同标识符的的元知识将会对知识库中的相应记录进行修改;其中新接收的元知识将修改知识库中相应记录的生命周期;
过期元知识清理模块:每一个元知识都有相应的生命周期,过期的元知识记录将会被特别标识并降低被查询的优先级,直到最终被转移到历史记录知识库中;用户接口:可供用户查询或机器查询的接口,这个接口不仅能够返回根据查询条件过滤的元知识,而且提供根据元知识中的全局定位符定位相应原始数据的方法。
[0012]一种建立大数据元知识库的分布式方法,包括以下步骤:步骤 1、元知识提取;步骤 1

1、分布式部署的多个“元知识提取模块”分别从大数据中提取不同区域块的数据项的元知识;步骤 1

2、对读取的每一个数据项,提取其中关键的摘要信息并生成元知识;元知识提取:提取数据项的相关属性信息、摘要信息和用户对数据项的描述信息等如标题等;生成全局统一的唯一确定的标识符和全局定位符;根据数据类型生成相应的生命周期项;步骤 2、消息生成;步骤 2

1、将一个或多个元知识包装成消息主体;步骤 2

2、生成消息头部;消息头部包括消息类型、生成时间、全局唯一标识符及其它与消息传播相关的信息等;步骤 2

3、发布消息到一个或多个消息广播模块;步骤 3、消息广播;步骤 3

1、接收步骤 2生成的消息;步骤 3

2、从其它消息广播模块中订阅消息;步骤 3

3、检测重复的消息并将重复的消息丢弃,其中拥有相同的标识符的消息即为重复的消息;步骤 3

4、将消息广播给所有的订阅用户或其它选定的用户;步骤 4、元知识库生成;步骤 4

1、如果有用户直接发布消息到元知识库模块,元知识库模块将接收消息;步骤 4

2、订阅并接收消息广播模块中的消息;步骤 4

3、检测重复的消息并将重复的消息丢弃本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种建立大数据元知识库的分布式系统,其特征在于,包括:分布式“元知识提取模块”:分布式部署的多个“元知识提取模块”分别从大数据中提取不同区域块的数据项的元知识;其中元知识是描述数据项的元数据,如数据的属性、摘要等;其中元知识可以是从数据项的提取的,也可以是用户对数据项的某种描述;其中每一个元知识都包含一个根据数据属性生成的唯一确定的标识符和一个全局定位符;分布式“消息生成模块”:将一个或多个元知识包装成可以统一标识的消息并将消息发布到一个或多个“消息广播模块”中,其中每一个消息用一个全局唯一的标识符来标识这个消息;分布式“消息广播模块”:接受“消息生成模块”发送过来的消息及接收从其它“消息广播模块”订阅的消息,删除其中重复的消息并广播其它非重复的消息给所有的订阅用户,其中拥有相同的标识符的消息即为重复的消息;“元知识库生成模块”:从一个或多个分布式“消息广播模块
”ꢀ
订阅消息并提取消息中的元知识保存到元知识库中。2.根据权利要求1所述的建立大数据元知识库的分布式系统,其特征在于,所述分布式“元知识提取模块”包括分布式部署的多个“元知识提取模块”,其中元知识是描述数据项的数据,其中每一个“元知识提取模块”从大数据中提取一部分数据项的元知识,其中不同的“元知识提取模块”之间提取的数据项可以有重叠,其中所有的“元知识提取模块”可以实现对大数据的一个全覆盖,其中“元知识提取模块”提取一个数据项元知识,其中“元知识提取”包括:属性提取:提取数据项的相关属性信息,如标题等;摘要提取:提取或生成数据项的摘要信息;数据描述提取:提取用户对数据项的描述信息等;统一标识生成:根据数据属性生成全局唯一的标识符,其中对于每一个数据项生成的标识符是唯一确定的,其中不同的“元知识提取模块”对于同一个数据项在不同时间会产生相同的标识符;同一个数据项的标识符是确定的;全局定位符生成:生成全局定位符以用于定位当前数据项或数据集,如统一资源定位符URL。3.元知识生命周期生成:对于不同类型的元知识,其最长生命周期有不同限制;分布式“元知识提取模块”:分布式部署的多个“元知识提取模块”分别从大数据中提取不同区域的数据项的元知识;其中每一个元知识都包含一个根据数据属性生成的唯一确定的标识符和一个全局定位符;根据权利要求1所述的建立大数据元知识库的分布式系统,其特征在于,所述“消息生成模块”包括:消息:消息包括消息头部和消息主体;其中消息头部包括消息的标识、消息传播相关的信息;其中消息主体中封装着所要传输的一个或多个元知识;元知识包装模块:将一个或多个元知识包装成消息主体;消息头部生成:对每一个消息生成一个全局唯一的标识符,并将这个全局唯一的标识符插入到消息头部;并将其它关于消息传播的信息包装到消息头部;消息发布:发布消息到一个或多个“消息广播模块”。
4.根据权利要求1所述的建立大数据元知识库的分布式系统,其特征在于,所述“消息广播模块”包括:消息接收模块:接收“消息生成模块”发送的消息;消息订阅模块:从一个或多个其它“消息广播模块”订阅的消息;重复消息检测模块:检测重复的消息并将丢弃重复的消息,其中拥有相同的标识符的消息即为重复的消息;消息广播模块:将消息广播给所有的订阅用户或其它选定的用户。5.根据权利要求1所述的建立大数据元知识库的分布式系统,其特征在于,所述“元知识库生成模块”包括:消息接收模块:接收“消息生成模块”发送的消息;消息订阅模块:从一个或多个“消息广播模块...

【专利技术属性】
技术研发人员:管文
申请(专利权)人:管文
类型:发明
国别省市:

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1