知识图谱的处理方法、装置、设备和介质制造方法及图纸

技术编号:22166751 阅读:27 留言:0更新日期:2019-09-21 10:30
本发明专利技术实施例公开了一种知识图谱的处理方法、装置、设备和介质,涉及知识图谱技术领域。该方法包括:根据待验证知识图谱,从待验证知识图谱所属目标领域的实体证据单元中选择至少两个候选实体证据单元;确定所述待检验知识图谱与所述至少两个候选实体证据单元的匹配度;根据所述匹配度,从所述至少两个候选实体证据单元中选择所述待检验知识图谱的目标实体证据单元,供基于所述目标实体证据单元对所述待验证知识图谱进行验证。本发明专利技术实施例通过从目标领域实体证据单元中选择至少两个候选实体证据单元,并确定候选实体证据单元与待检验知识图谱的匹配度,根据匹配度选择目标实体证据单元,减少了人力介入,提高了知识图谱的准确率和构建效率。

Processing methods, devices, equipment and media of knowledge maps

【技术实现步骤摘要】
知识图谱的处理方法、装置、设备和介质
本专利技术实施例涉及智能物流
,尤其涉及一种知识图谱的处理方法、装置、设备和介质。
技术介绍
构建一个权威准确全面的医疗行业知识图谱是许多上层应用的基础数据需求,权威医疗书籍中的医疗知识是人们总结及论证过的智慧结晶,从中人们可以挖掘出许多权威的医疗事实。现有的技术想要把从医疗书籍中挖掘的医疗事实,准确地加入到医疗图谱中,一般的方法是通过事实的频率信息进行初步筛选,然后再经过医学专家审核。此种方法因为是人力介入,存在着人力投入大、效率相对较低的问题。而医学专家审核医学事实的过程,除了依靠经验,很多情况下也需要有一个书籍查询工具进行查询印证。
技术实现思路
本专利技术实施例提供一种知识图谱的处理方法、装置、设备和介质,以解决现有技术在构建知识图谱时人力投入大、效率相对较低的问题。第一方面,本专利技术实施例提供了一种知识图谱的处理方法,所述方法包括:根据待验证知识图谱,从待验证知识图谱所属目标领域的实体证据单元中选择至少两个候选实体证据单元;确定所述待检验知识图谱与所述至少两个候选实体证据单元的匹配度;根据所述匹配度,从所述至少两个候选实体证据单元中选择所述待检验知识图谱的目标实体证据单元,供基于所述目标实体证据单元对所述待验证知识图谱进行验证。第二方面,本专利技术实施例提供了一种知识图谱的处理装置,所述装置包括:候选实体证据单元选择模块,用于根据待验证知识图谱,从待验证知识图谱所属目标领域的实体证据单元中选择至少两个候选实体证据单元;匹配度确定模块,用于确定所述待检验知识图谱与所述至少两个候选实体证据单元的匹配度;目标实体证据单元选择模块,用于根据所述匹配度,从所述至少两个候选实体证据单元中选择所述待检验知识图谱的目标实体证据单元,供基于所述目标实体证据单元对所述待验证知识图谱进行验证。第三方面,本专利技术实施例提供了一种设备,所述设备还包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如本专利技术实施例中任一所述的一种知识图谱的处理方法。第四方面,本专利技术实施例提供了一种计算机可读介质,其上存储有计算机程序,该程序被处理器执行时实现如本专利技术实施例中任一所述的一种知识图谱的处理方法。本专利技术实施例通过从目标领域实体证据单元中选择至少两个候选实体证据单元,并确定至少两个候选实体证据单元与待检验知识图谱的匹配度,根据匹配度选择目标实体证据单元,供根据目标实体证据单元对待验证知识图谱进行验证,提高了知识图谱的准确率以及构建效率。附图说明为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本专利技术的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。图1是本专利技术实施例一提供的一种知识图谱的处理方法的流程图;图2为本专利技术实施例二提供的一种知识图谱的处理方法的流程图;图3为本专利技术实施例三提供的一种知识图谱的处理方法的流程图;图4为本专利技术实施例四提供的一种知识图谱的处理装置的结构示意图;图5为本专利技术实施例五提供的一种设备的结构示意图。具体实施方式下面结合附图和实施例对本专利技术实施例作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本专利技术实施例,而非对本专利技术的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本专利技术实施例相关的部分而非全部结构。实施例一图1是本专利技术实施例一提供的一种知识图谱的处理方法的流程图。本实施例适用于构建医疗知识图谱的情况,该方法可以由本专利技术实施例提供的知识图谱的处理装置来执行,该装置可以采用软件和/或硬件的方式实现。如图1所示,该方法可以包括:S101、根据待验证知识图谱,从待验证知识图谱所属目标领域的实体证据单元中选择至少两个候选实体证据单元。其中,待验证知识图谱所属领域可选的包括医疗、教育、金融和文化等。实体证据单元是通过在待验证知识图谱所属目标领域的知识事实进行挖掘得到的,其作用体现在如下两个方面:1、可以作为待验证知识图谱的证据,以辅助相关审核人员对待验证知识图谱进行评估;2、可以收录到待验证知识图谱中,以增加待验证知识图谱的全面性。可选的,将待验证知识图谱中的S(实体名)、P(属性名)以及O(属性值)作为搜索词在目标领域的实体证据单元中进行搜索,根据搜索结果选择至少两个候选实体证据单元。实体证据单元的规格可大可小,当实体证据单元的规格较大时,例如一篇完整的文献、一篇完整的论文或者一本厚重的书籍,由于其可能包含多个实体以及多个实体对应的多属性,这就可能出现以单实体多属性或多实体多属性的信息干扰问题。为了避免这种信息干扰问题,可选的在S101之前,还包括:A、从目标领域事实中提取属性信息和属性信息所属的章节标题信息;其中,属性信息包括对实体多属性的一种文字描述,其包括属性名称和属性内容,章节标题信息包括与属性信息相关联实体的文字描述。示例性的,以一个书籍html(hypertextmarkuplanguage,超级文本标记语言)页面为例,其主要有两大部分,第一部分是包括描述篇、章、节、标题等信息的内容块;第二部分是包括描述详细信息的内容块。具体的,在第一部分通过包括目标关键词搜索方法提取属性信息所属的章节标题信息,例如“第三篇喉科学”、“第四章特异性咽炎”和“第三节喉梅毒”等;在第二部分通过包括目标关键词搜索方法提取属性信息,例如“临床表现声嘶”、“诊断要点家族史”或“治疗方案及原则驱梅治疗”等。B、将所述章节标题信息作为目标领域中实体证据单元的标题;示例性的,提取的章节标题信息为“第三篇喉科学”、“第四章特异性咽炎”和“第三节喉梅毒”,则将“第三篇喉科学”、“第四章特异性咽炎”和“第三节喉梅毒”作为实体证据单元的标题。C、将所述属性信息中的属性名称作为目标领域中实体证据单元的属性关键字;其中,属性信息中的属性名称是属性内容的上位概念。示例性的,例如提取的属性信息包括“诊断要点家族史”,则属性名称为“诊断要点”,进而将“诊断要点”作为实体证据单元的属性关键字;又例如提取的属性信息包括“临床表现声嘶”,则属性名称为“临床表现”,进而将“临床表现”作为实体证据单元的属性关键字。D、将所述属性信息中的属性内容作为目标领域中实体证据单元的属性键值。其中,属性信息中的属性内容是属性名称下位表现形式。示例性的,例如提取的属性信息包括“诊断要点家族史”,则属性内容为“家族史”,进而将“家族史”作为实体证据单元的属性键值;又例如提取的属性信息包括“临床表现声嘶”,则属性内容为“声嘶”,进而将“声嘶”作为实体证据单元的属性键值。通过从目标领域事实中提取属性信息和属性信息所属的章节标题信息,并最终确定实体证据单元的标题、属性关键字和属性键值,避免了信息干扰问题,使得后续待检验知识图谱与至少两个候选实体证据单元进行匹配,更加简单、有效以及直观。通过从待验证知识图谱所属目标领域的实体证据单元中选择至少两个候选实体证据单元,减少了后续待检验知识图谱与实体证据单元的匹配次数,提高了效率。S102、确定所述待检验知识图谱与所述至少两个候选实体证据单元的本文档来自技高网...

【技术保护点】
1.一种知识图谱的处理方法,其特征在于,所述方法包括:根据待验证知识图谱,从待验证知识图谱所属目标领域的实体证据单元中选择至少两个候选实体证据单元;确定所述待检验知识图谱与所述至少两个候选实体证据单元的匹配度;根据所述匹配度,从所述至少两个候选实体证据单元中选择所述待检验知识图谱的目标实体证据单元,供基于所述目标实体证据单元对所述待验证知识图谱进行验证。

【技术特征摘要】
1.一种知识图谱的处理方法,其特征在于,所述方法包括:根据待验证知识图谱,从待验证知识图谱所属目标领域的实体证据单元中选择至少两个候选实体证据单元;确定所述待检验知识图谱与所述至少两个候选实体证据单元的匹配度;根据所述匹配度,从所述至少两个候选实体证据单元中选择所述待检验知识图谱的目标实体证据单元,供基于所述目标实体证据单元对所述待验证知识图谱进行验证。2.根据权利要求1所述的方法,其特征在于,根据待验证知识图谱,从待验证知识图谱所属目标领域的实体证据单元中选择至少两个候选实体证据单元之前,还包括:从目标领域事实中提取属性信息和属性信息所属的章节标题信息;将所述章节标题信息作为目标领域中实体证据单元的标题;将所述属性信息中的属性名称作为目标领域中实体证据单元的属性关键字;将所述属性信息中的属性内容作为目标领域中实体证据单元的属性键值。3.根据权利要求1所述的方法,其特征在于,根据待验证知识图谱,从待验证知识图谱所属目标领域的实体证据单元中选择至少两个候选实体证据单元,包括:将待验证知识图谱中的实体名作为搜索词,在目标领域的实体证据单元的章节标题信息、属性关键字和属性键值中进行搜索,得到第一实体证据单元;将待验证知识图谱中的属性值作为搜索词,在目标领域的实体证据单元的属性键值中进行搜索,得到第二实体证据单元;从所述第一实体证据单元和所述第二实体证据单元中选择至少两个候选实体证据单元。4.根据权利要求3所述的方法,其特征在于,从所述第一实体证据单元和所述第二实体证据单元中选择至少两个候选实体证据单元之后,还包括:根据知识图谱中属性名与实体证据单元中属性关键字之间的映射关系,以及待验证知识图谱,从所述至少两个候选实体证据单元中选择与所述待验证知识图谱匹配的候选实体证据单元,且滤除其他候选实体证据单元。5.根据权利要求1所述的方法,其特征在于,确定所述待检验知识图谱与所述至少两个候选实体证据单元的匹配度,包括:确定待检验知识图谱中的实体名,与候选实体证据单元中的标题之间的标题相似度;确定待检验知识图谱中的属性值,与候选实体证据单元中的属性键值之间的键值相似度;根据所述候选实体证据单元的标题相似度和键值相似度,确定候选实体证据单元的匹配度。6.根据权利要求5所述的方法,其特征在于,确定待检验知识图谱中的实体名,与候选实体证据单元中的标题之间的标题相似度,包括:将所述待检验知识图谱中的实体名与候选实体证据单元中的标题,作为预测模型的输入,得到第一标题相似度;根据所述待检验知识图谱的实体名与候选实体证据单元的标题之间的文本重合关系,确定第二标题相似度。7.根据权利要求5所述的方法,其特征在于,确定待检验知识图谱中的属性值,与候选实体证据单元中的属性键值之间的键值相似度,包括:将所述待检验知识图谱中的属性值与候选实体证据单元中的属性键值,作为预测模型的输入,得到第一键值相似度;根据所述待检验知识图谱的属性值与候选实体证据单元的属性键值之间的文本重合关系,确定第二键值相似度。8.根据权...

【专利技术属性】
技术研发人员:林义明郭辉徐伟建纪登林罗雨彭卫华史亚冰
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1