【技术实现步骤摘要】
应用于办公领域的知识图谱本体构建方法和装置
[0001]本公开涉及人工智能
,尤其涉及知识图谱
,具体涉及一种应用于办公领域的知识图谱本体构建方法、装置、电子设备和存储介质。
技术介绍
[0002]知识图谱是利用语义网络对客观世界标识的一种形式,本体可以作为一个知识库的骨架与基础,因此,知识图谱本体的构建对于特定领域中知识的获取有着至关重要的作用。
[0003]现有的本体构建方法中,依赖于人工本体专家来构建知识图谱,但本体专家在构建中可能带有强烈的主观性,且效率低下。
技术实现思路
[0004]本公开提供了一种应用于办公领域的知识图谱本体构建方法、装置、电子设备和存储介质。
[0005]根据本公开的第一方面,提供了一种应用于办公领域的知识图谱本体构建方法,包括:获取办公领域数据,其中,办公领域数据表征应用于办公场景的数据;对办公领域数据进行数据抽取,得到抽取结果,其中,抽取结果包括:领域术语、概念和至少两个概念之间的关联关系,领域术语用于表征办公领域内的词语,概念用于表征办公领域内领域术语共有的属性;基于抽取结果构建办公领域数据对应的知识图谱本体。
[0006]根据本公开的第二方面,提供了一种应用于办公领域的知识图谱本体构建装置,包括:第一获取模块,用于获取办公领域数据,其中,办公领域数据表征应用于办公场景的数据;抽取模块,用于对办公领域数据进行数据抽取,得到抽取结果,其中,抽取结果包括:领域术语、概念和至少两个概念之间的关联关系,领域术语用于表征办公领域内的词语, ...
【技术保护点】
【技术特征摘要】
1.一种应用于办公领域的知识图谱本体构建方法,包括:获取办公领域数据,其中,所述办公领域数据表征应用于办公场景的数据;对所述办公领域数据进行数据抽取,得到抽取结果,其中,所述抽取结果包括:领域术语、概念和至少两个所述概念之间的关联关系,所述领域术语用于表征办公领域内的词语,所述概念用于表征办公领域内领域术语共有的属性;基于所述抽取结果构建所述办公领域数据对应的知识图谱本体。2.根据权利要求1所述的方法,其中,对所述办公领域数据进行数据抽取,得到所述领域术语包括:对所述办公领域数据中包含的每个词语的词频进行统计,得到所述每个词语的目标概率,并基于所述目标概率对所述办公领域数据进行筛选,得到第一领域术语,其中,所述目标概率用于表征所述每个词语为所述领域术语的概率;确定所述每个词语的目标权重,并基于所述目标权重对所述办公领域数据进行筛选,得到第二领域术语,其中,所述目标权重用于表征所述每个词语与办公领域的关联程度;对所述办公领域数据包含的语句进行句法分析,得到句法分析结果,并基于所述句法分析结果对所述办公领域数据进行筛选,得到第三领域术语;根据所述第一领域术语、所述第二领域术语和所述第三领域术语,获得所述领域术语。3.根据权利要求1所述的方法,其中,对所述办公领域数据进行数据抽取,得到所述概念,包括:对所述领域术语进行聚类处理,得到至少一个聚类结果;基于所述至少一个聚类结果,得到至少一个所述概念。4.根据权利要求1或3所述的方法,其中,所述概念包括第一概念和第二概念,对所述办公领域数据进行数据抽取,得到所述概念之间的关联关系包括:确定第一概念和第二概念之间的相似度;根据所述第一概念和所述第二概念之间的相似度,得到所述第一概念和所述第二概念之间的关联关系。5.根据权利要求4所述的方法,其中,确定所述第一概念和所述第二概念之间的相似度包括如下之一:基于所述第一概念和所述第二概念分别在第一目标文本中出现的频率,得到所述相似度,其中,所述第一目标文本用于表征所述办公领域数据中的文献数据;对所述第一概念对应的第一字符串和所述第二概念对应的第二字符串进行匹配,得到所述相似度;获取第二目标文本,基于所述第二目标文本,得到所述相似度,其中,所述第二目标文本用于表征所述办公领域数据中包括所述概念的语句。6.根据权利要求1所述的方法,其中,基于所述抽取结果构建所述办公领域数据对应的知识图谱本体包括:获取办公领域的预设知识图谱本体;基于所述预设知识图谱本体和所述抽取结果,构建所述知识图谱本体。7.根据权利要求1至6中任意一项所述的方法,所述方法还包括:获取多个领域的应用数据,其中,所述多个领域至少包括:所述办公领域;
基于所述应用数据对所述知识图谱本体进行评估,得到目标评估结果,其中,所述目标评估结果用于表征利用所述知识图谱本体得到的语义识别结果的准确程度。8.根据权利要求7所述的方法,基于所述应用数据对所述知识图谱本体进行评估,得到目标评估结果,包括:基于所述多个领域的应用数据对所述知识图谱本体进行评估,得到所述知识图谱本体对应的评估指标;基于预设阈值和所述评估指标,得到所述目标评估结果。9.一种应用于办公领域的知识图谱本体构建装置,包括:第一获取模块,用于获取办公领域数据,其中,所述办公领域数据表征应用于办公场景的数据;抽取模块,用于对所述办公领域数据进行数据抽取,得到抽取结果,其中,所述抽取结果包括:领域术语、概念和至少两个所述概念之间的关联关系,所述领域术语用于表征办公领域内的词语,所述概念用于表征办公领域内领域术语共有的属...
【专利技术属性】
技术研发人员:骆金昌,廉雨薇,李思禹,陈坤斌,
申请(专利权)人:北京百度网讯科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。