领域知识图谱本体和数据的构建方法、装置和系统制造方法及图纸

技术编号:26342531 阅读:25 留言:0更新日期:2020-11-13 20:35
本申请提出一种领域知识图谱本体和数据的构建方法、装置和系统,其中,方法包括:确定目标领域,获取目标领域的领域知识库,根据领域知识库和目标设备发送的领域专家意见信息形成领域知识图谱本体雏形;确定概念和层级、概念的属性、概念间关系,生成领域本体知识表示;获取目标领域的目标文本,进行自动化实体抽取和关系抽取;获取分类失败的语料中的候选短语,计算候选短语的质量评分,将候选短语及对应的质量评分发送给目标设备,接收目标设备发送的经过领域专家筛选的目标短语添加到领域本体知识表示或领域实例库;获取分类成功的命名实体和关系实例,添加到领域实例库。由此,提高了知识图谱模式的精确性和精细度,实现生成高质量知识图谱。

Construction method, device and system of domain knowledge map ontology and data

【技术实现步骤摘要】
领域知识图谱本体和数据的构建方法、装置和系统
本申请涉及信息技术和数据业务
,尤其涉及一种领域知识图谱本体和数据的构建方法、装置和系统。
技术介绍
随着大数据与人工智能的发展,知识图谱技术取得了显著的进步。构建高质量知识图谱的首要任务就是定义精确且精细的知识模式约束,即刻画出用于描述该领域基本认知框架的本体。相关的本体构建技术方案总体可以划分为两大类,分别是“自顶向下法”和“自底向上法”,但两者又各自存在一些问题。自顶向下逐层定义的本体构建方法延续了传统知识工程的本体构建策略,主要采取手工的方式且对领域专家的依赖性较大,本体规模受限于时间和人力成本。以代表性工具Protege为例,繁多的操作面板和复杂的构建流程为用户带来了很大的负担,加大了在保证知识模式严格约束的前提下扩展本体规模的难度;尤其是该工具使用独立的功能模块分别管理领域内的全体对象属性(即关系)和数据属性,采取先创建属性、后选择定义域和值域的方式,虽然在一定程度上提高了系统的复用性,但不符合用户的认知习惯。自底向上推理归纳的自动化本体构建方法是一种面向应用、数据本文档来自技高网...

【技术保护点】
1.一种领域知识图谱本体和数据的构建系统,其特征在于,包括:领域知识图谱本体和数据的构建装置、大数据平台和人工智能平台;/n所述领域知识图谱本体和数据的构建装置创建模型训练任务,并将所述模型训练任务转发给所述大数据平台和人工智能平台;/n所述大数据平台采集所述模型训练任务对应的数据集发送给所述人工智能平台;/n所述人工智能平台根据所述数据集进行模型训练生成目标模型,并根据所述目标模型提供服务。/n

【技术特征摘要】
1.一种领域知识图谱本体和数据的构建系统,其特征在于,包括:领域知识图谱本体和数据的构建装置、大数据平台和人工智能平台;
所述领域知识图谱本体和数据的构建装置创建模型训练任务,并将所述模型训练任务转发给所述大数据平台和人工智能平台;
所述大数据平台采集所述模型训练任务对应的数据集发送给所述人工智能平台;
所述人工智能平台根据所述数据集进行模型训练生成目标模型,并根据所述目标模型提供服务。


2.如权利要求1所述的一种领域知识图谱本体和数据的构建系统,其特征在于,
所述大数据平台根据所述模型训练任务确定目标数据;
从各个数据源采集所述目标数据,并进行数据处理和数据存储后生成所述数据集。


3.一种领域知识图谱本体和数据的构建方法,其特征在于,包括:
确定目标领域,并获取与所述目标领域对应的领域知识库,根据所述领域知识库和目标设备发送的领域专家意见信息形成多层级标签体系的领域知识图谱本体雏形;
确定概念及其层级、概念的属性和概念间的关系,并根据所述概念、所述概念的属性、所述概念间关系以及所述层级,对所述领域知识图谱本体雏形进行处理,生成领域本体知识表示;
获取与所述目标领域对应的目标文本,通过预设实体抽取模型、关系抽取模型或联合抽取模型,对所述目标文本进行自动化实体抽取和关系抽取,分别识别出命名实体和关系实例,并进行分类;
获取分类失败的语料中的候选短语,并获取所述候选短语的统计指标特征,根据所述统计指标特征计算所述候选短语的质量评分,并将所述候选短语以及对应的质量评分发送给目标设备;
接收所述目标设备发送的经过领域专家筛选的目标短语,并将所述目标短语添加到所述领域本体知识表示或领域实例库;
获取分类成功的命名实体和关系实例,通过筛选或直接添加到所述领域实例库。


4.如权利要求3所述的领域知识图谱本体和数据的构建方法,其特征在于,所述目标文本为:
结构化文本、半结构化文本和非结构化文本中的一种或者多种。


5.如权利要求3所述的领域知识图谱本体和数据的构建方法,其特征在于,所述将目标短语添加到所述领域本体知识表示,包括:
确定所述候选短语为新标签,则确定新标签节点对应的父节点和子节点,将所述新标签节点添加到父节点和子节点之间;
确定所述候选短语为新实体,则确定新实体节点对应的父节点,将所述新实体节点添加到父节点下面;
确定所述候选短语为新关系,则确定关系主体和关系客体的对应节点,向所述领域本体知识表示中添加新的关系三元组。


6.如权利要求3所述的领域知识图谱本体和数据的构建方法,其特征在于,所述确定概念及其层级,确定所述概念的属性和概念间关系,并根据所述概念、所述概念的属性、所述概念间关系以及所述层级,对所述领域知识图谱本体雏形进行处理,生成领域本体知识表示,包括:
设置所述目标领域为根节点,各级标签作为层次化的中间节点,以及各个实体作为叶子节点;
每个节点设置有唯一标识符、节点特征、标签/实体概念名称和节点类型;
设置描述实体属性的对象数组,由属性名和属性取值类型两个字段组成,该对象数组为实体概念层节点的特有属性,标签层节点默认此对象数组为空;
设置多层级...

【专利技术属性】
技术研发人员:鄂海红宋美娜马超童韩鹏昊毕秋波
申请(专利权)人:北京邮电大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1