语义知识库构建系统、方法及设备技术方案

技术编号:35546873 阅读:29 留言:0更新日期:2022-11-12 15:25
本发明专利技术属于语义计算及知识库构建领域,具体涉及了一种语义知识库构建系统、方法及设备,旨在解决现有基于数据湖的语义知识库构建系统无法描述更具语义内涵的规则、以及现有的规则引擎不允许用户自主设定,导致构建的语义知识库无法进行跨平台应用的问题。本发明专利技术系统包括:数据获取模块、第一规则生成模块、第二规则生成模块、代价计算模块、规则优化模块、规则子网生成及预分配模块、规则子网络划分模块、语义特征数据提取模块、语义知识库构建模块。本发明专利技术提取更具内涵的规则,并通过结构化规则描述语言对用户的语义规则进行建模,进而实现了语义知识库的跨平台应用。了语义知识库的跨平台应用。了语义知识库的跨平台应用。

【技术实现步骤摘要】
语义知识库构建系统、方法及设备


[0001]本专利技术属于语义计算及知识库构建领域,具体涉及了一种语义知识库构建系统、方法及设备。

技术介绍

[0002]随着公共文化和数据湖技术的发展,未来以数据湖为基石的语义知识库应用将显得越来越重要。目前成千万上亿的公共文化参与者会形成巨大的语义规则网络,该语义规则网络的自动生成以及针对规则网络的划分是一大科学挑战。
[0003]同时,所有的应用的数据将逐步迁移到数据湖这样一种特殊的存储环境中。如何在这种环境下,打造一种跨平台的语义知识库,将面临一个巨大的困难和挑战。为了解决这些困难,本专利技术设计了一种语义知识库构建系统。

技术实现思路

[0004]为了解决现有技术中的上述问题,即解决现有基于数据湖的语义知识库构建系统无法描述更具语义内涵的规则、以及现有的规则引擎不允许用户自主设定,导致构建的语义知识库无法进行跨平台应用的问题,本专利技术提供了一种语义知识库构建系统,所述系统包括数据获取模块、第一规则生成模块、第二规则生成模块、代价计算模块、规则优化模块、规则子网生成及预分配模块、规则子网络划分模块、语义特征数据提取模块、语义知识库构建模块;
[0005]所述数据获取模块,配置为从数据湖中抽取待构建语义知识库的结构化数据、半结构化数据、非结构化数据,作为输入数据;
[0006]所述第一规则生成模块,配置为基于获取的领域专家先验知识构建语义规则,作为第一语义规则;
[0007]所述第二规则生成模块,配置为采用自然语言处理方法对输入数据进行语义抽取、语义处理及知识挖掘的预处理,以预处理的语义信息为节点,并按照预设的语义结构构建规则节点,作为第二语义规则;
[0008]所述代价计算模块,配置为计算各规则节点执行时耗费的时间代价;
[0009]所述规则优化模块,配置为结合时间代价,通过预设的基于规则合并与节点替换的动态优化机制对规则节点进行合并和替换,得到优化的规则网;
[0010]所述规则子网生成及预分配模块,配置为将优化的规则网分成互相之间没有连通关系的独立规则子网;计算各独立规则子网的计算代价,并基于均衡分配原则,建立各独立规则子网与预设处理机的预分配关系;
[0011]所述规则子网络划分模块,配置为对与多个处理机存在预分配关系的独立规则子网进行网络划分,得到多个分割网络,并将各分割网络分别与对应处理器建立分配关系;
[0012]所述语义特征数据提取模块,配置为对数据湖中抽取的结构化数据、半结构化数据、非结构化数据进行特征提取,去除冗余数据,并将提取特征数据存储在数据库中,形成
结构化数据;
[0013]所述语义知识库构建模块,配置为基于第一语义规则、第二语义规则,结合结构化数据以及各分割网络与对应处理器建立的分配关系,构建语义知识库。
[0014]在一些优选实施方式中,所述规则节点分为非计算规则节点、计算规则节点;
[0015]所述计算规则节点包括规则选择节点、规则联合节点、规则交集节点、规则否定计算节点、规则连接节点与规则笛卡尔积节点。
[0016]在一些优选实施方式中,所述基于规则合并与节点替换的动态优化机制为:
[0017]用时间代价低的规则节点替换时间代价高的规则节点;
[0018]若一个规则节点的选择集合为另一个规则节点的选择集合的子集或规则节点与规则节点之间存在选择条件重合,则进行合并。
[0019]在一些优选实施方式中,所述独立规则子网络采用无向图遍历的方法获取。
[0020]在一些优选实施方式中,各独立规则子网的计算代价,其方法为:
[0021]计算独立规则子网所有有向边流量;
[0022]基于有向边流量计算每一个规则节点的计算代价,获取对应独立规则子网的计算代价。
[0023]在一些优选实施方式中,“基于均衡分配原则,建立各独立规则子网与预设处理机的预分配关系”,其方法为:
[0024]基于平均计算代价、预设的上浮比例值、预设的下调比例值,获取单台处理机的计算代价区间;
[0025]将单一独立规则子网计算代价落入所述计算代价区间的,分别分配一个处理机;
[0026]将小于所述计算代价区间下限的独立规则子网进行组合,组合后的多个独立规则子网的计算代价之和落入所述计算代价区间的,将对应组合的多个独立规则子网分配至一个处理机;
[0027]将大于所述计算代价区间上限的独立规则子网,分配多个处理机。
[0028]在一些优选实施方式中,“基于平均计算代价,建立各独立规则子网与预设处理机的预分配关系”,其方法为:
[0029]大于所述计算代价区间上限的独立规则子网,若其计算代价落入所述计算代价区间的K1倍区间范围,则将该独立规则子网分配至K1个处理机;否则,将多个大于所述计算代价区间上限的独立规则子网进行组合后,若其计算代价之和落入所述计算代价区间的K2倍区间范围,则将该独立规则子网组合分配至K2个处理机。
[0030]本专利技术的第二方面,提出了一种语义知识库构建方法,所述方法包括以下步骤:
[0031]从数据湖中抽取待构建语义知识库的结构化数据、半结构化数据、非结构化数据,作为输入数据;
[0032]基于获取的领域专家先验知识构建语义规则,作为第一语义规则;
[0033]采用自然语言处理方法对输入数据进行语义抽取、语义处理及知识挖掘的预处理,以预处理的语义信息为节点,并按照预设的语义结构构建规则节点,作为第二语义规则;
[0034]计算各规则节点执行时耗费的时间代价;
[0035]结合时间代价,通过预设的基于规则合并与节点替换的动态优化机制对规则节点
进行合并和替换,得到优化的规则网;
[0036]将优化的规则网分成互相之间没有连通关系的独立规则子网;计算各独立规则子网的计算代价,并基于均衡分配原则,建立各独立规则子网与预设处理机的预分配关系;
[0037]对与多个处理机存在预分配关系的独立规则子网进行网络划分,得到多个分割网络,并将各分割网络分别与对应处理器建立分配关系;
[0038]对数据湖中抽取的结构化数据、半结构化数据、非结构化数据进行特征提取,去除冗余数据,并将提取特征数据存储在数据库中,形成结构化数据;
[0039]基于第一语义规则、第二语义规则,结合结构化数据以及各分割网络与对应处理器建立的分配关系,构建语义知识库。
[0040]本专利技术的第三方面,提出了一种设备,包括:至少一个处理器;以及与至少一个所述处理器通信连接的存储器;其中,所述存储器存储有可被所述处理器执行的指令,所述指令用于被所述处理器执行以实现上述的语义知识库构建方法。
[0041]本专利技术的第四方面,提出了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于被所述计算机执行以实现上述的语义知识库构建方法。
[0042]本专利技术的有益效果:
[0043]本专利技术结合领域本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语义知识库构建系统,其特征在于,所述系统包括:数据获取模块、第一规则生成模块、第二规则生成模块、代价计算模块、规则优化模块、规则子网生成及预分配模块、规则子网络划分模块、语义特征数据提取模块、语义知识库构建模块;所述数据获取模块,配置为从数据湖中抽取待构建语义知识库的结构化数据、半结构化数据、非结构化数据,作为输入数据;所述第一规则生成模块,配置为基于获取的领域专家先验知识构建语义规则,作为第一语义规则;所述第二规则生成模块,配置为采用自然语言处理方法对输入数据进行语义抽取、语义处理及知识挖掘的预处理,以预处理的语义信息为节点,并按照预设的语义结构构建规则节点,作为第二语义规则;所述代价计算模块,配置为计算各规则节点执行时耗费的时间代价;所述规则优化模块,配置为结合时间代价,通过预设的基于规则合并与节点替换的动态优化机制对规则节点进行合并和替换,得到优化的规则网;所述规则子网生成及预分配模块,配置为将优化的规则网分成互相之间没有连通关系的独立规则子网;计算各独立规则子网的计算代价,并基于均衡分配原则,建立各独立规则子网与预设处理机的预分配关系;所述规则子网络划分模块,配置为对与多个处理机存在预分配关系的独立规则子网进行网络划分,得到多个分割网络,并将各分割网络分别与对应处理器建立分配关系;所述语义特征数据提取模块,配置为对数据湖中抽取的结构化数据、半结构化数据、非结构化数据进行特征提取,去除冗余数据,并将提取特征数据存储在数据库中,形成结构化数据;所述语义知识库构建模块,配置为基于第一语义规则、第二语义规则,结合结构化数据以及各分割网络与对应处理器建立的分配关系,构建语义知识库。2.根据权利要求1所述的语义知识库构建系统,其特征在于,所述规则节点分为非计算规则节点、计算规则节点;所述非计算规则节点包括规则关系节点与规则动作节点;所述计算规则节点包括规则选择节点、规则联合节点、规则交集节点、规则否定计算节点、规则连接节点与规则笛卡尔积节点。3.根据权利要求1所述的语义知识库构建系统,其特征在于,所述基于规则合并与节点替换的动态优化机制为:用时间代价低的规则节点替换时间代价高的规则节点;若一个规则节点的选择集合为另一个规则节点的选择集合的子集或规则节点与规则节点之间存在选择条件重合,则进行合并。4.根据权利要求3所述的语义知识库构建系统,其特征在于,所述独立规则子网络采用无向图遍历的方法获取。5.根据权利要求4所述的语义知识库构建系统,其特征在于,各独立规则子网的计算代价,其方法为:计算独立规则子网所有有向边流量;基于有向边流量计算每一个规则节点的计算代价,获取对应独立规则子网的计算代
价。6.根据权利要求5所述的语义知...

【专利技术属性】
技术研发人员:张桂刚王云于雅涵王健
申请(专利权)人:中国科学院自动化研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1