以概率实体为中心的知识图完成制造技术

技术编号:38938180 阅读:31 留言:0更新日期:2023-09-25 09:38
本公开涉及以概率实体为中心的知识图完成。接收关于实体的第一数据集,其中第一数据集包括实体的不同特性。接收关于实体的一个或多个域的第二数据集。使用第一数据集和第二数据集,生成实体的概率知识图,该概率知识图包括实体节点、第一多个节点和第二多个节点。第一多个节点连接到实体节点并且表示所述不同特性中的每个特性。第二多个节点经由概率边连接,其中,这些概率边中的每个概率边具有相关联的置信度得分。使用第二数据集来确定该置信度得分。度得分。度得分。

【技术实现步骤摘要】
以概率实体为中心的知识图完成


[0001]本公开涉及知识图领域,并且更具体而言,涉及与以概率实体为中心的知识图有关的方法、系统和计算机程序产品。

技术介绍

[0002]随着可用于分析的数据量增长,我们用于存储和评估该数据的数据结构的要求(和需求)也增长。一种类型的数据结构是知识图(有时称为语义网络)。知识图包括节点和边,其中节点是现实世界实体(例如,对象、事件、情形、概念),以及边详细说明这些节点之间的关系。知识图通常存储在图数据库中并且可视化为图结构。通过以此方式布置信息,知识图允许逻辑推断,使得利用知识图来例如回答查询的计算系统可访问知识图内的隐式信息以回答查询(例如,即使计算系统不能另外访问显式地提供该隐式信息的任何数据)。

技术实现思路

[0003]本公开的方面涉及与以概率实体为中心的知识图有关的方法、系统和计算机程序产品。例如,该方法包括接收关于实体的第一数据集,其中第一数据集包括实体的不同特性。该方法还包括接收关于实体的一个或多个域的第二数据集。该方法还包括使用第一数据集和第二数据集生成包括实体节点以及第一多个节点和第二多个节点的概率知识图。第一多个节点连接到实体节点并且表示所述不同特性中的每一个。第二多个节点经由具有相关联的置信度得分的概率边在概率知识图内连接。使用第二数据集确定这些置信度得分。本文还描述了被配置为执行上述方法的系统和计算机程序。
[0004]对于另一示例,本专利技术的其它方面涉及一种方法,该方法包括接收关于人的第一数据集,其中第一数据集包括人的不同特性。该方法还包括接收关于人的一个或多个域的第二数据集。该方法还包括使用第一数据集和第二数据集生成包括人节点以及第一多个节点和第二多个节点的概率知识图。第一多个节点连接到实体节点并且表示所述不同特性中的每一个。第二多个节点经由具有相关联的置信度得分的概率边在概率知识图内连接。使用第二数据集确定这些置信度得分。
[0005]以上概述并不旨在描述本公开的每个所示实施例或每个实现方式。
附图说明
[0006]本申请中包括的附图被结合到说明书中并且形成说明书的一部分。它们示出了本公开的实施例,并且与说明书一起用于解释本公开的原理。附图仅说明某些实施例,而并不限制本公开。
[0007]图1描绘了其中控制器可以生成以概率实体为中心的知识图的示例系统的概念图。
[0008]图2描绘了图1的控制器的示例部件的概念框图。
[0009]图3描绘了图1的控制器可以通过其来生成以概率实体为中心的知识图的示例流
程图。
[0010]虽然本专利技术可服从各种修改和替代形式,但是其细节已经通过举例的方式在附图中示出并且将被详细描述。然而,应当理解,并不旨在将本专利技术局限于所描述的具体实施例。相反,旨在覆盖落入本专利技术的精神和范围内的所有修改、等同物和替代物。
具体实施方式
[0011]本公开的方面涉及知识图,而本公开的更具体的方面涉及生成以概率实体为中心的知识图,其包括事实实体和实体的关系以及实体的概率实体。虽然本公开不必限于这样的应用,但是可以通过使用该上下文对各种示例的讨论来理解本公开的各个方面。
[0012]知识图是集中在预定主题上的数据结构,其中每个给定知识图被设计成存储关于该主题的概念元素集以及这些元素之间的关系集(当它涉及该预定主题时)的数据。构建良好的知识图将对与这个主题具有显著关系的元素进行优先级排序,而不是包括在知识图的主题的任何概念范围内的更多元素。知识图被生成并且通常以“蜘蛛网”格式存储,其中,实体被存储为“节点”并且通过描述上述关系的“边”连接。
[0013]知识图可以是数据分析中的有用工具,因为它们可允许计算系统作出关于知识图的主题的推断(例如,其中计算系统不具有直接支持此推断的数据)。通常最初利用与主题具有已知关系的已知元素的一个或多个有组织的和聚焦的数据集来创建知识图。在一些情况下,知识图的效用与知识图的大小直接且正相关,只要知识图的数据被准确且明智地编译。照此,许多常规技术和系统涉及“完成”初始知识图,其中完成(另外被称为扩展)初始知识图包括向该初始知识图添加新元素和关系。如本文中所使用的,完成知识图不应被理解为是指实行使知识图“完美”或尽可能好的“最终”步骤,而是应被理解为是指向知识图添加附加主题以使知识图更准确和有用的动作。
[0014]可以在关注的几乎任何主题内构建知识图。例如,知识图可以聚焦于个体人、具有相似特性的一组人(这样的一组人在本文中被称为群组)、材料、组织、产品、医学状况等。虽然本公开主要讨论了聚焦于材料或人或群组的知识图(这样的知识图在本文中被称为实体知识图或EKG),但是本领域普通技术人员将理解,本公开的大部分/大多数/全部进一步应用于具有其他焦点的知识图。对于EKG,实体和它们之间的关系是对个人重要的,而不是普遍重要的,使得当实体对于关注的人或群组是重要的时(而不是在其他上下文中重要的),实体被包括,并且将从人的框架定义关系。类似地,当识别新材料时,该新材料的主题的范围内的元素可以不在材料科学内被普遍应用,而是(如材料科学领域的普通技术人员将理解的)新材料的效用正在于该新材料具有新的性质的布置(如可以在相应知识图中描绘为节点)。
[0015]然而,常规技术和系统完成知识图的主要方式是通过寻找“开放世界”数据源,也就是说公共数据存储库(例如,在线词典、医学或科学期刊、新闻源等)。例如,知识图可以关于在特定年份中制造的特定类型的交通工具,因此在从有组织的数据集创建初始知识图之后,系统可以爬行互联网以找到更多关于来自该特定年份的该特定类型的交通工具的数据,以完成知识图。这可包括诸如经由“长尾”实体链接链接到知识图的现有实体。许多常规系统和技术仅从某些值得信任的开放世界数据源收集/接收数据,和/或将仅在可从其他开放世界数据源确认数据时收集/接收该数据,以便验证最终完成的知识图仅包括具有已知
和确认的关系的已知事实。
[0016]然而,鉴于关于实体(诸如个体人或新材料)已知为准确的数据很少有可用的,有意义地寻找开放世界的数据源来扩展(更不用说完成)EKG或以材料为中心的知识图可能是极其困难的(如果不是不可能的话)。对于诸如人或新材料之类的大量实体,计算系统可能不能从常规知识图系统将用来完成知识图的典型公共数据存储(那些相同的在线百科全书、医学/科学期刊和新闻来源)识别任何信息。照此,常规的知识图系统和技术可能缺乏以将完全实现知识图在后续分析中的效用的方式来完成诸如人或新材料之类的实体的知识图的技术能力。例如,尽管一些常规系统利用神经网络来有效地预测知识图中的新实体或关系,但此类神经网络通常已知是“数据饥饿的”(例如,使得它们需要大量周围数据以便准确地预测少量新数据)。因此,甚至为尝试在数据饥饿领域中预测新实体和关系而改变的这种传统的“解决方案”不太可能预测关于实体(诸如人或材料)的知识图的可用信息。
[0017]另外,完成知识图的此类失败并非没有缺点。如上所述,知识图是用于在由其他工具使用时执行逻辑推断的优异工具本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种计算机实现的方法,包括:接收关于实体的第一数据集,其中所述第一数据集包括所述实体的不同特性;接收关于所述实体的一个或多个域的第二数据集;以及使用所述第一数据集和所述第二数据集生成所述实体的概率知识图,所述概率知识图包括实体节点、以及连接到所述实体节点并且表示所述不同特性中的每个特性的第一多个节点、和经由概率边连接的第二多个节点,其中,所述概率边中的每个概率边具有使用所述第二数据集确定的相关联的置信度得分。2.根据权利要求1所述的计算机实现的方法,其中,所述第二多个节点完成所述概率知识图。3.根据权利要求1所述的计算机实现的方法,其中,所述实体选自包括以下各项的组:材料、人或人的群组。4.根据权利要求3所述的计算机实现的方法,其中,关于所述实体的数据作为知识图被接收。5.根据权利要求3所述的计算机实现的方法,其中,关于所述实体的数据作为关于所述人的原始非结构化数据被接收。6.根据权利要求3所述的计算机实现的方法,还包括使用所述概率知识图来识别对于所述实体合适的干预或动作。7.根据权利要求1所述的计算机实现的方法,其中,每个置信度得分包括量化相应概率边的概率为真的可能性的第一得分。8.根据权利要求1所述的计算机实现的方法,其中,每个置信度得分包括量化相应概率边的底层数据的可靠性的置信度得分的第二得分。9.根据权利要求1所述的计算机实现的方法,其中,所述第二多个节点包括表示已知当前对于所述实体不是事实的事物的至...

【专利技术属性】
技术研发人员:马尔科卢卡
申请(专利权)人:国际商业机器公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1