应用于办公领域的知识图谱本体构建方法和装置制造方法及图纸

技术编号:35470824 阅读:19 留言:0更新日期:2022-11-05 16:16
本公开提供了一种应用于办公领域的知识图谱本体构建方法、装置、电子设备和存储介质,涉及人工智能技术领域,尤其涉及知识图谱技术领域。具体实现方案为:获取办公领域数据,其中,办公领域数据表征应用于办公场景的数据;对办公领域数据进行数据抽取,得到抽取结果,其中,抽取结果包括:领域术语、概念和至少两个概念之间的关联关系,领域术语用于表征办公领域内的词语,概念用于表征办公领域内领域术语共有的属性;基于抽取结果构建办公领域数据对应的知识图谱本体。本公开可自动构建知识图谱本体,达到了提高知识图谱本体构建效率的技术效果。效果。效果。

【技术实现步骤摘要】
应用于办公领域的知识图谱本体构建方法和装置


[0001]本公开涉及人工智能
,尤其涉及知识图谱
,具体涉及一种应用于办公领域的知识图谱本体构建方法、装置、电子设备和存储介质。

技术介绍

[0002]知识图谱是利用语义网络对客观世界标识的一种形式,本体可以作为一个知识库的骨架与基础,因此,知识图谱本体的构建对于特定领域中知识的获取有着至关重要的作用。
[0003]现有的本体构建方法中,依赖于人工本体专家来构建知识图谱,但本体专家在构建中可能带有强烈的主观性,且效率低下。

技术实现思路

[0004]本公开提供了一种应用于办公领域的知识图谱本体构建方法、装置、电子设备和存储介质。
[0005]根据本公开的第一方面,提供了一种应用于办公领域的知识图谱本体构建方法,包括:获取办公领域数据,其中,办公领域数据表征应用于办公场景的数据;对办公领域数据进行数据抽取,得到抽取结果,其中,抽取结果包括:领域术语、概念和至少两个概念之间的关联关系,领域术语用于表征办公领域内的词语,概念用于表征办公领域内领域术语共有的属性;基于抽取结果构建办公领域数据对应的知识图谱本体。
[0006]根据本公开的第二方面,提供了一种应用于办公领域的知识图谱本体构建装置,包括:第一获取模块,用于获取办公领域数据,其中,办公领域数据表征应用于办公场景的数据;抽取模块,用于对办公领域数据进行数据抽取,得到抽取结果,其中,抽取结果包括:领域术语、概念和至少两个概念之间的关联关系,领域术语用于表征办公领域内的词语,概念用于表征办公领域内领域术语共有的属性;构建模块,用于基于抽取结果构建办公领域数据对应的知识图谱本体。
[0007]根据本公开的第三方面,提供了一种电子设备,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行第一方面中应用于办公领域的知识图谱本体构建方法中任一项的方法。
[0008]根据本公开的第四方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,计算机指令用于使计算机执行第一方面中应用于办公领域的知识图谱本体构建方法中任一项的方法。
[0009]根据本公开的第五方面,提供了一种计算机程序产品,包括计算机程序,该计算机程序在被处理器执行时实现第一方面中应用于办公领域的知识图谱本体构建方法中任一项的方法。
[0010]在本公开的上述实施例中,提供了一种可以提高知识图谱本体构建效率的一种应
用于办公领域的知识图谱本体构建方法、装置、电子设备和存储介质。
[0011]应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0012]附图用于更好地理解本方案,不构成对本公开的限定。其中:
[0013]图1是根据本公开实施例的一种应用于办公领域的知识图谱本体构建方法的流程图;
[0014]图2是根据本公开优选实施例的一种应用于办公领域的知识图谱本体构建方法的流程图;
[0015]图3是根据本公开实施例的一种应用于办公领域的知识图谱本体构建装置的结构示意图;
[0016]图4示出了可以用来实施本公开的实施例的示例电子设备400的示意性框图。
具体实施方式
[0017]以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
[0018]本公开所提供的一种可以提高知识图谱本体构建效率的一种应用于办公领域的知识图谱本体构建方法、装置、电子设备和存储介质,可应用于产品的搜索场景、推荐场景,实现办公数字化和人工智能化。下面以搜素场景举例。
[0019]传统的搜索引擎技术虽然能够根据用户查询快速排序网页,提高信息检测的效率,但并不意味着用户能够快速准确的获知信息,对于搜索引擎反馈的大量搜索结果,用户需要人工筛选和排查搜索结果获取所需,用户难以快速准确地获取所需的信息。而应用了知识图谱的搜索引擎,对于搜索到的网页,可以从网页中抽取出实体及其属性信息,以及实体间的关系,从而解决与实体相关的智能问答问题,进而解决传统搜索引擎搜索准确低的技术效果。
[0020]其次,知识图谱本体可以作为一个知识库的骨架和基础。现有的知识图谱本体构建方式中,主要是通过手工构建或复用已有的知识图谱本体。但手工构建知识图谱本体依赖的人力成本较高,缺乏灵活性,且效率低下,此外,不同的专家对一些概念认知不同,对一些概念的认知会带有强烈的主观性,导致构建的知识图谱本体无法得到其他专家的认可。
[0021]图1是根据本公开实施例的一种应用于办公领域的知识图谱本体构建方法的流程图,如图1所示,该方法包括如下步骤:
[0022]步骤S102,获取办公领域数据,其中,办公领域数据表征应用于办公场景的数据。
[0023]具体地,办公领域的数据包括但不限于与办公场景相关的结构化数据、非结构化数据和半结构化数据,其中,结构化数据包括关系型数据库中所存储的数据,非结构化数据包括图片数据、音频数据和视频数据,半结构化数据包括XML格式数据和JSON格式数据等。
[0024]步骤S104,对办公领域数据进行数据抽取,得到抽取结果,其中,抽取结果包括:领
域术语、概念和至少两个概念之间的关联关系,领域术语用于表征办公领域内的词语,概念用于表征办公领域内领域术语共有的属性。
[0025]具体地,领域术语可以是包含办公领域特征的、描述办公领域的词语,例如:员工、岗位、团队和文档等,在本质上,领域术语是办公领域数据中的实体。概念用于表征领域术语都具有的一些特征,在本质上,概念是领域术语的共有的属性,例如:领域数据包括:经理、工程师和助理,则概念可以是员工。概念之间的关联关系表征概念之间的关系,例如,概念包括员工和项目,则他们之间的关系可以是员工推进项目,员工完成项目等。
[0026]在一个可选实施例中,本公开可以采用如下至少之一的方式从办公领域数据中进行抽取,得到领域术语的。其一,利用TF

IDF((term frequency

inverse document frequency,词频

逆文档频率)算法以及C

value算法统计每个词语的频率,即词频,并计算词语可能是领域术语的概率,再基于词频和词语可能是领域术语的概率确定作为候选领域术语的第一领域术语。其二,利用随机漫步算法对办公领域数据中的词语进行权重分配,该权重分配表征词语与办公领域间的关联程度,并基于关联程度确定第二领域术语。其三,对办公本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种应用于办公领域的知识图谱本体构建方法,包括:获取办公领域数据,其中,所述办公领域数据表征应用于办公场景的数据;对所述办公领域数据进行数据抽取,得到抽取结果,其中,所述抽取结果包括:领域术语、概念和至少两个所述概念之间的关联关系,所述领域术语用于表征办公领域内的词语,所述概念用于表征办公领域内领域术语共有的属性;基于所述抽取结果构建所述办公领域数据对应的知识图谱本体。2.根据权利要求1所述的方法,其中,对所述办公领域数据进行数据抽取,得到所述领域术语包括:对所述办公领域数据中包含的每个词语的词频进行统计,得到所述每个词语的目标概率,并基于所述目标概率对所述办公领域数据进行筛选,得到第一领域术语,其中,所述目标概率用于表征所述每个词语为所述领域术语的概率;确定所述每个词语的目标权重,并基于所述目标权重对所述办公领域数据进行筛选,得到第二领域术语,其中,所述目标权重用于表征所述每个词语与办公领域的关联程度;对所述办公领域数据包含的语句进行句法分析,得到句法分析结果,并基于所述句法分析结果对所述办公领域数据进行筛选,得到第三领域术语;根据所述第一领域术语、所述第二领域术语和所述第三领域术语,获得所述领域术语。3.根据权利要求1所述的方法,其中,对所述办公领域数据进行数据抽取,得到所述概念,包括:对所述领域术语进行聚类处理,得到至少一个聚类结果;基于所述至少一个聚类结果,得到至少一个所述概念。4.根据权利要求1或3所述的方法,其中,所述概念包括第一概念和第二概念,对所述办公领域数据进行数据抽取,得到所述概念之间的关联关系包括:确定第一概念和第二概念之间的相似度;根据所述第一概念和所述第二概念之间的相似度,得到所述第一概念和所述第二概念之间的关联关系。5.根据权利要求4所述的方法,其中,确定所述第一概念和所述第二概念之间的相似度包括如下之一:基于所述第一概念和所述第二概念分别在第一目标文本中出现的频率,得到所述相似度,其中,所述第一目标文本用于表征所述办公领域数据中的文献数据;对所述第一概念对应的第一字符串和所述第二概念对应的第二字符串进行匹配,得到所述相似度;获取第二目标文本,基于所述第二目标文本,得到所述相似度,其中,所述第二目标文本用于表征所述办公领域数据中包括所述概念的语句。6.根据权利要求1所述的方法,其中,基于所述抽取结果构建所述办公领域数据对应的知识图谱本体包括:获取办公领域的预设知识图谱本体;基于所述预设知识图谱本体和所述抽取结果,构建所述知识图谱本体。7.根据权利要求1至6中任意一项所述的方法,所述方法还包括:获取多个领域的应用数据,其中,所述多个领域至少包括:所述办公领域;
基于所述应用数据对所述知识图谱本体进行评估,得到目标评估结果,其中,所述目标评估结果用于表征利用所述知识图谱本体得到的语义识别结果的准确程度。8.根据权利要求7所述的方法,基于所述应用数据对所述知识图谱本体进行评估,得到目标评估结果,包括:基于所述多个领域的应用数据对所述知识图谱本体进行评估,得到所述知识图谱本体对应的评估指标;基于预设阈值和所述评估指标,得到所述目标评估结果。9.一种应用于办公领域的知识图谱本体构建装置,包括:第一获取模块,用于获取办公领域数据,其中,所述办公领域数据表征应用于办公场景的数据;抽取模块,用于对所述办公领域数据进行数据抽取,得到抽取结果,其中,所述抽取结果包括:领域术语、概念和至少两个所述概念之间的关联关系,所述领域术语用于表征办公领域内的词语,所述概念用于表征办公领域内领域术语共有的属...

【专利技术属性】
技术研发人员:骆金昌廉雨薇李思禹陈坤斌
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1