补全知识图的过程和产品制造技术

技术编号:33080391 阅读:16 留言:0更新日期:2022-04-15 10:32
本发明专利技术涉及一种计算机实现的技术,该技术通过利用通用机器学习模型或在知识图上训练的机器学习模型产生推断的三元组来产生用于补全知识图的规则,可选地沿着预定义的用户设置细化和过滤所产生的规则,并且提供所产生的规则以及由规则覆盖的推断事实,作为用于知识图的补全的候选。图的补全的候选。图的补全的候选。

【技术实现步骤摘要】
补全知识图的过程和产品

技术介绍

[0001]万维网(WWW),通常被称为Web,并且由英国科学家Tim Berners

Lee于1989年专利技术,它是一种信息系统,其中文档和其他Web资源通过统一资源定位符(URL,诸如)进行标识,所述资源可以通过超文本进行链接,并且是通过互联网可访问的。Web的资源经由超文本传输协议(HTTP)传递,并且可以由用户通过被称为Web浏览器的软件应用访问,并且通过被称为Web服务器的软件应用发布。
[0002]。
[0003]语义Web是通过由万维网联盟(W3C)制定的标准来对万维网(WWW)进行的扩展。语义Web的目标是使互联网数据是机器可读的。为了使得能够利用数据进行语义编码,使用了诸如资源描述框架(RDF)和Web本体语言(OWL)之类的技术。这些技术用于正式表示元数据。这些标准促进了Web上的通用数据格式和交换协议,基本上是RDF。根据W3C的说法,“语义Web提供了一个通用框架,其允许跨应用、企业和社区边界共享和重用数据。”因此,语义Web被视为跨不同的内容和信息应用和系统的集成器。该术语由Tim Berners

Lee创造,用于表示可以由机器来处理的数据的web(或数据web)——也就是说,其中大部分含义是机器可读的。Tim Berners

Lee最初在1999年表达了他对语义Web的如下设想:“我有一个梦想,Web(其中计算机)变得能够分析Web上的所有数据——内容、链接以及人与计算机之间的交易。使这成为可能的“语义Web”尚未出现,但是当它出现时,贸易、官僚体制和我们日常生活的日常机制将由机器与机器对话来处置。人们长期吹捧的“智能代理”最终将具体化。2006年,Berners

Lee和他的同事指出:“这个简单的想法
……
在很大程度上仍未实现”。
[0004]。
[0005]知识图是使用图结构的数据模型或拓扑来集成知识和数据的知识库。知识图经常用于存储实体的互连描述——现实世界的对象、事件、情况或抽象概念——具有自由形式的语义,不适合单一的传统本体。自从语义Web发展以来,知识图经常与链接的开放数据项目相关联,聚焦于概念与实体之间的联系。它们还与如下各项显著地相关联并被它们使用:诸如Google、Bing和Yahoo之类的搜索引擎;知识引擎和问答服务,诸如WolframAlpha、Apple的Siri和Amazon Alexa;以及诸如LinkedIn和Facebook之类的社交网络。
[0006]。
[0007]本体试图根据类别的系统,来表示实体、思想和事件以及它们的所有相互依赖的特性和关系。在计算机科学和信息科学中,本体涵盖概念、数据和实体之间的类别、特性和关系的表示、正式命名和定义,所述概念、数据和实体使一个、多个或所有的论述领域实体化。更简单地说,本体是一种通过定义表示主题的概念和类别的集合来示出主题区域的特性以及它们如何关联的方式。例如,本体可以描述概念、实体之间的关系以及事物的类别。这些嵌入式语义提供了显著的优势,诸如对数据进行推理和利用异构数据源进行操作。
[0008]。
[0009]在计算机文本处理中,标记语言是一种用于以与文本在语法上可区分的方式对文
档进行注释的系统,这意味着当文档被处理以供显示时,标记语言不被示出,并且仅用于格式化文本。该想法和术语是从传统上通过由编辑利用红色或蓝色铅笔在作者的手稿上书写的修订指令来“标记”纸质手稿演变而来的。这样的“标记”典型地包括内容校正(诸如拼写、标点符号或内容的移动)以及还有印刷指令(诸如使标题更大或加粗)这两者。在数字介质中,这种“蓝色铅笔指令文本”被标签代替,所述标签理想地指示文档的各部分是什么,而不是它们可以如何在一些显示器上被示出的细节。这让作者可以避免冗余地(也可能不一致地)格式化同一种类事物的每个实例。它还避免了可能不适用于许多用户(诸如,具有不同代销显示器、视力受损和屏幕阅读软件的用户)的字体和尺寸规范。早期的标记系统典型地包括排版指令,如troff、TeX和LaTeX所进行的,而Scribe和大多数现代标记系统对组件进行命名,并且之后处理那些名称以应用格式化或其他处理,如在XML的情况下。一些标记语言,诸如广泛使用的HTML,具有预定义的表示语义——这意味着它们的规范规定了如何在特定介质上呈现结构化数据的一些方面。HTML,像DocBook、Open eBook、JATS和无数其他应用一样,是标记元语言SGML和XML的特定应用。也就是说,SGML和XML使得用户能够指定特定的模式,这确定了哪些元素、属性和其他特征被准许,以及在哪里。大多数标记语言的一个重要特性是,它们允许将标记直接混合到文本流中。这在文档中经常发生:语句中的几个词必须被强调,或者被标识为专有名称、已定义的术语或其他特殊项目。
[0010]。
[0011]超文本标记语言(HTML)是设计用于在web浏览器中进行显示的标准文档标记语言。它可以通过诸如级联样式表(CSS)的技术和诸如JavaScript的脚本语言来被协助。Web浏览器从web服务器或本地存储装置接收HTML文档,并将文档呈现为多媒体网页。HTML在语义上描述了网页的结构,以及最初包括的文档外观的提示。HTML元素是HTML页面的构建块。在HTML结构的情况下,图像和其他对象(诸如交互式表单)可以被嵌入到所呈现的页面中。HTML通过标示文本的结构语义(诸如标题、段落、列表、链接、引用和其他项目),提供了一种创建结构化文档的手段。HTML元素是通过使用尖括号书写的标签来描述的。诸如和的标签直接将内容引入页面。诸如的其它标签包围并提供关于文档文本的信息并且可以包括其他标签作为子元素。浏览器不显示HTML标签,而是使用它们来解释页面的内容。HTML可以嵌入以诸如JavaScript的脚本语言编写的程序,这会影响网页的行为和内容。对CSS的包括定义了内容的外观和布局。
[0012]。
[0013]可扩展标记语言(XML)是一种标记语言,它定义了一组规则,用于以人类可读和机器可读这两者的格式对文档进行编码。XML的设计目标强调互联网的简洁性、通用性和可用性。它是一种文本数据格式,有力地支持不同人类语言的统一码(Unicode)。尽管XML的设计聚焦于文档,但是该语言广泛用于表示任意数据结构,诸如web服务中使用的那些数据结构。存在几种模式系统来帮助定义基于XML的语言。存在许多应用程序编程接口(API)来帮助处理XML数据。
[0014]已经开发了大量使用XML语法的文档格式,包括RSS、Atom、SOAP、SVG和XHTML。基于XML的格式已经成为许多办公生产力工具的默认格式,包括Microsoft Office (Office Open XML)、OpenOffice.org和LibreOffice(OpenDocument)或Apple的iWork。XML还为诸如
XMPP之类的通信协议提供了基础语言。针对M本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用于生成知识图的补全规则的计算机实现的方法,包括以下步骤:

使用机器学习模型从RDF数据产生推断的三元组的集合,其中所述模型是通用模型或者是在所述图或所述图的子集上训练和/或重新训练的模型;

生成与如下形式的SPARQL查询具有相同功能的补全规则生成步骤如下所示:添加规则,这将产生不属于所述集合的三元组,导致排除这些三元组的三元组模式;允许利用与归纳逻辑编程中的OR

析取相对应的函数对替代物进行组合;一旦达到集合的预定义覆盖率或满足用户定义的执行时间超时,就停止生成;

提供所得到的规则作为用于图的补全的候选。2.根据前述所述权利要求的方法,其中可选地,可以选择一个或多个特性,并且在没有进行选择的情况下,在数据集中出现的所有特性被认为是针对补全规则生成的候选。3.根据前述权利要求之一所述的方法,其中基于用户设置来可选地过滤和/或后过滤所述推断的三元组的集合。4.根据前述权利要求所述的方法,其中使用由机器学习模型提供的推断的三元组为真的似然性,通过省略其似然性低于预定义阈值的所有推断的三元组,来进行过滤。5.根据前述权利要求之一所述的方法,其中学习与SPARQL WHERE子句的其...

【专利技术属性】
技术研发人员:T
申请(专利权)人:西门子股份公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1