知识图谱的构建方法及装置、存储介质、电子设备制造方法及图纸

技术编号:24409931 阅读:25 留言:0更新日期:2020-06-06 08:44
本公开属于知识图谱构建技术领域,涉及一种艺术领域知识图谱的构建方法及装置、存储介质、电子设备。该方法包括:对内部艺术数据源和外部艺术数据源中的结构化数据进行第一预处理,生成第一结构化数据;对内部艺术数据源和外部艺术数据源中的非结构化数据和半结构化数据进行第二预处理得到第二结构化数据;将第一结构化数据与第二结构化数据进行融合处理,生成融合艺术数据;其中,融合艺术数据包括艺术实体以及与艺术实体对应的艺术关系;根据艺术实体和艺术关系生成艺术三元组,并根据艺术三元组生成艺术领域知识图谱。

Construction method and device, storage medium and electronic equipment of knowledge map

【技术实现步骤摘要】
知识图谱的构建方法及装置、存储介质、电子设备
本公开涉及知识图谱构建
,尤其涉及一种艺术领域知识图谱的构建方法与艺术领域知识图谱的构建装置、计算机可读存储介质及电子设备。
技术介绍
知识图谱又称为科学知识图谱,知识图谱用可视化技术描述知识资源及其载体,挖掘、分析、构建、绘制和显示知识及其之间的相互联系,是显示知识发展进程与结构关系的一系列各种不同的图形,并且提供了一种更好地组织、管理和理解互联网海量信息的方式。知识图谱也是构建下一代搜索引擎的雏形,使得搜索更加语义化和智能化。目前,知识图谱分别有通用知识图谱和领域知识图谱两类。其中,领域知识图谱又称为行业知识图谱或者垂直知识图谱,通常面向某一特定领域,相当于基于语义技术的行业知识库。由于领域知识图谱是基于行业数据构建的,因此有着更为严格和丰富的数据模式,也对领域知识的深度和准确性有着更高的要求。但是,现有的领域知识图谱构建存在着英文专业领域知识图谱的构建方法无法完全适用于中文专业领域知识图谱的构建的问题,还存在着现有专业领域知识图谱的构建方法难以兼顾获取专业知识的的规模和准确性,也本文档来自技高网...

【技术保护点】
1.一种艺术领域知识图谱的构建方法,其特征在于,所述方法包括:/n对内部艺术数据源和外部艺术数据源中的结构化数据进行第一预处理,生成第一结构化数据;/n对所述内部艺术数据源和所述外部艺术数据源中的非结构化数据和半结构化数据进行第二预处理得到第二结构化数据;/n将所述第一结构化数据与所述第二结构化数据进行融合处理,生成融合艺术数据;其中,所述融合艺术数据包括艺术实体以及与所述艺术实体对应的艺术关系;/n根据所述艺术实体和所述艺术关系生成艺术三元组,并根据所述艺术三元组生成艺术领域知识图谱。/n

【技术特征摘要】
1.一种艺术领域知识图谱的构建方法,其特征在于,所述方法包括:
对内部艺术数据源和外部艺术数据源中的结构化数据进行第一预处理,生成第一结构化数据;
对所述内部艺术数据源和所述外部艺术数据源中的非结构化数据和半结构化数据进行第二预处理得到第二结构化数据;
将所述第一结构化数据与所述第二结构化数据进行融合处理,生成融合艺术数据;其中,所述融合艺术数据包括艺术实体以及与所述艺术实体对应的艺术关系;
根据所述艺术实体和所述艺术关系生成艺术三元组,并根据所述艺术三元组生成艺术领域知识图谱。


2.根据权利要求1所述的艺术领域知识图谱的构建方法,其特征在于,所述对内部艺术数据源和外部艺术数据源中的结构化数据进行第一预处理,生成第一结构化数据,包括:
对内部艺术数据源和外部艺术数据源中的结构化数据进行数据清洗;
对所述内部艺术数据源和外部艺术数据源中的结构化数据的数据清洗结果进行重复性检验,生成重复性检验数据;
根据所述重复性检验数据生成数据字典和纠错字典,基于所述数据字典得到第一结构化数据。


3.根据权利要求2所述的艺术领域知识图谱的构建方法,其特征在于,所述对内部艺术数据源和外部艺术数据源中的结构化数据进行数据清洗,包括:
对内部艺术数据源和外部艺术数据源中的结构化数据进行单值属性判定处理,以得到单值结构化数据;
获取所述单值结构化数据中的第一结构化实体和第一结构化关系,并统计所述单值属性判定处理的结果得到多值数据表;
若所述多值数据表中未包含多值数据,将所述第一结构化实体和第一结构化关系作为数据清洗结果;
若所述多值数据表中包含多值数据,根据所述多值数据表得到第二结构化实体和第二结构化关系,以作为数据清洗结果。


4.根据权利要求3所述的艺术领域知识图谱的构建方法,其特征在于,所述根据所述多值数据表得到第二结构化实体和第二结构化关系,以作为数据清洗结果,包括:
根据所述多值数据表更新数据字典或纠错字典;
根据更新后的数据字典或纠错字典的更新结果,得到第二结构化实体和第二结构化关系作为数据清洗结果。


5.根据权利要求4所述的艺术领域知识图谱的构建方法,其特征在于,所述对所述结构化数据的数据清洗结果进行重复性检验,生成重复性检验数据,包括:
对所述内部艺术数据源和外部艺术数据源中的结构化数据的数据清洗结果进行艺术品实体的重复性检验,生成艺术品重复性检验结果;
若所述艺术品重复性检验结果为相同,对所述数据清洗结果进行艺术家实体的重复性检验,生成艺术家重复性检验结果;
若所述艺术家重复性检验结果为相同,对所述数据清洗结果进行创作时间实体的重复性检验,生成创作时间重复性检验结果;
若所述创作时间重复性检验结果为相同,确定所述艺术品实体为重复艺术品;
对所述重复艺术品进行融合处理,并根据审核通过的融合处理结果生成重复性检验数据。


6.根据权利要求5所述的艺术领域知识图谱的构建方法,其特征在于,所述方法还包括:
若所述艺术家重复性检验结果为不同或所述创作时间重复性检验结果为不同,确定所述艺术品实体为重名艺术品;
对所述重名艺术品进行去重处理,并根据去重处理结果生成所述重复性检验数据。


7.根据权利要求1所述的艺术领域知识图谱的构建方法,其特征在于,所述第一结构化数据包括目标艺术品数据、目标艺术家数据和目标艺术机构数据;
所述将所述第一结构化数据与所述第二结构化数据进行融合处理,生成融合艺术数据,包括:
将所述第二结构化数据中的参考艺术家数据与所述目标艺术家数据...

【专利技术属性】
技术研发人员:李慧许蕾郝吉芳杨卓士商晓健王炳乾
申请(专利权)人:京东方科技集团股份有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1