一种知识库装置及其构建方法制造方法及图纸

技术编号:36813919 阅读:61 留言:0更新日期:2023-03-09 01:01
本发明专利技术公开了一种知识库装置及其构建方法,由八类单元组成,分别为对象范式单元、关系范式单元、已知实例单元、未知实例单元、陈述实例单元、问题实例单元、对应关系单元、组成关系单元,一个单元包括其ID模块和到其它单元的连接;知识库中规范知识的表示形式,具有规范化地表示能够使用自然语言表述的知识的能力,可以为强人工智能的实现提供软件系统的数据结构解决方案和硬件装置的储存模块解决方案,实现跨语种的知识融合,包括自然语言的语种和具有自然语言逻辑关系的人工设计的语种,实现具有问答能力的人工智能系统,允许用户通过自然语言的形式录入知识,并通过规范语言的形式提出问题。出问题。出问题。

【技术实现步骤摘要】
一种知识库装置及其构建方法


[0001]本专利技术涉及人工智能领域和自然语言处理领域,是一种规范化表示知识的方法,以及应用该方法建立的知识库装置,是一种知识库装置及其构建方法。本专利技术可用于构建跨语种的融合型知识库,为构建基于知识进行推理和学习的人工智能软件或人工智能硬件,提供知识库管理模块或知识库装置模块。

技术介绍

[0002]建立一种方法,能够跨自然语言的语种,对通过自然语言表述的知识进行规范化,从而实现知识的融合,是人工智能领域研究的一个热点方向。对自然语言表述的知识进行规范化融合,也是建立具有类人思维能力的强人工智能系统需要解决的一个前置问题。
[0003]目前,在这一领域内,主流的技术方案基于知识图谱方法。知识图谱是事实的结构化表示,其节点表示实体,边表示关系。知识图谱在语义层面可以看作一个对事实进行解释和推理的知识库。知识库通用的表示方式是三元组(头实体,关系,尾实体),例如W3C发布的资源描述框架(RDF)技术标准。SPARQL是RDF的标准查询语言,RDFS、OWL和SHACL是用于描述RDF数据的本体语言。知识图谱可以用来实现基于规则的逻辑推理,比如Racer支持TBox和ABox推理,RDFox支持Datalog推理,Jena支持基于产生式推理系统的规则推理等。Prot
é
g
é
软件是知识图谱的核心开发和管理工具,主要用于使用本体构建领域模型和基于知识的应用程序,用户可以在单个工作区中创建和编辑一个或多个本体,并可实现如本体合并、在本体之间移动公理、重命名多个实体等操作。
[0004]知识图谱目前广泛应用于各个领域,比如:在智能语义搜索应用中,对于用户发起的查询,搜索引擎会将用户提出的关键词映射到知识图谱的一个或一组概念上,然后依据知识图谱中的概念层次结构,向用户返回图形化的知识结构;在深度问答应用中,系统会依据用户用自然语言提出的问题,对该提问进行多次等价变换得到三元组形式的查询语句,该语句通常使用基于图的查询语句的形式(如SPARQL),基于该查询语句从知识库中提取多个与提问实体相关的信息生成候选答案并返回。目前已有很多基于知识图谱的应用工具,国内搜狗开发的搜索引擎“知立方”是全新的知识库搜索产品,以“语义理解”搜索代替关键词搜索;国外Apple Siri和Google Now等智能助理应用都是建立在WolframAlpha知识图谱和谷歌知识图谱的基础上。
[0005]尽管知识图谱方法在知识的表示和融合方面成果显著,但这一方法仍有很大的局限,主要包括:1)知识图谱的表述能力有限;三元组形式仅能表述二元实体间的关系,但现实生活中普遍存在高阶多元实体关系;但若通过表示学习将知识投射嵌入到向量空间中,由于文本中的单词和知识图谱中的实体的嵌入向量是分开获得的,会使得它们的向量空间不一致,且导致知识杂音过多;2)知识图谱融合困难:尽管已有多种方案支持基于概率的实体对齐,但目前仍无法实现知识图谱间高准确率的融合,必须辅助人工来实现实体消歧;且目前的本体匹配系统大多采取基于文本或词典相似性的方法,图卷积网络等算法的引入也无法实现知识图谱本体间的完美融合;3)知识图谱在构建时难以区分实体和本体,不同人
员对实体和本体的划分不一致;4)目前知识图谱基于规则的逻辑推理方式受限于谓词逻辑的表达能力,无法描述更复杂的逻辑,如模态逻辑等;5)知识图谱目前的应用大多依赖于基于概率的深度学习,难以保证其高准确率,无法解释,也无法针对所发现的问题进行修改以提高准确率。

技术实现思路

[0006]本专利技术采用如下的术语体系阐述
技术实现思路

[0007]知识库装置的构建过程:人或具有理解知识能力的人工智能系统通过认知行为产生概念,概念在产生时即具有相互之间的关联,这些关联构成了概念的意义。知识库装置是具有特定结构特征的装置,其结构反映概念和概念之间的关联;构建知识库装置的一般过程为:1)获得知识,以下称这些被获得的知识为原文知识;2)通过原文知识产生概念和概念之间的关联;3)依据这些概念和概念之间的关联构建具有相应结构的知识库装置;同时,也可以将“原文知识的哪一部分产生了哪个或哪些概念”的对应关系保存于知识库装置的部分结构中,这时称知识库装置保存了原文关联。以下称原文知识的一部分为一个原文文本块,原文文本块的组成单位为下述的实体。因此,原文知识、原文文本块均是由实体组成的序列。
[0008]实体:相同的事、物或者概念的唯一表示。例如,不同的人看见了印刷在书籍中的某个自然语言文字符号,或者某个具体的物体,并在意识中产生了反映这个文字符号或物体的概念,不同的的人产生的概念可能相同或不同,但反映了同一事、物或者概念,实体由这种同一性定义。在这一定义下,上述文字符号和上述具体的物体均为本专利技术所使用的术语体系中的实体;同时,一个文字符号可以具有纸张上的墨迹、黑板上的粉笔迹等不同物理形式,它仍是一个实体,可理解为一个概念实体,概念实体不具有时空位置属性;一个具体的事物可以理解为具象实体,它具有时空位置属性;一个具象实体具有连续的时空位置轨迹(物)或一组准确的时空位置坐标(事);实体的集合也构成一个实体。
[0009]原文知识:顺序恒定的一组实体。例如,报纸上的一篇文章,因其中每个文字符号均为实体,且具有固定的阅读顺序,因此这篇报纸上的文章是一个原文知识;再如,一个人与另一个人交谈时的语音,其中的每个单词的语音均为实体,且具有顺序,因此这段语音是一个原文知识;再如,顺序发生的一组事件也是本专利技术所使用的术语体系中的原文知识。为简化表述,以下将原文知识的一个特定片段,即顺序恒定的一组数量有限的实体,简称为文章。在这一定义下,日常生活语境下所说的文章,不论其以何种形式呈现,均可以认为是本专利技术术语体系中的文章;此外,一个人的一段经历,也是本专利技术术语体系中的文章。
[0010]知识库装置:指一个结构特征反映概念和概念之间的关联的装置。知识库装置的基本组成单位为单元,一个单元包含一个或多个储存有特定信息的模块和一组单元之间的连接;为表述方便,以下说明单元特征时,将两个单元之间的连接表述为其中一个单元的组成部分。在知识库装置中,一个单元表示一个概念,这时称该单元为该概念所对映的单元;一条两个单元之间的连接表示一个概念之间的关联,这时称该连接为该概念关联所对映的连接。概念具有如下的分类体系:概念分为实例、范式、对应关系、组成关系;实例进一步分为对象实例和关系实例;范式进一步分为关系范式和对象范式;关系实例进一步分为陈述实例和问题实例;对象实例进一步分为已知实例和未知实例。相应地,知识库装置中的单元
也分为八个基本类别:关系范式单元、对象范式单元、陈述实例单元、问题实例单元、已知实例单元、未知实例单元、对应关系单元、组成关系单元;若知识库装置保存了原文关联,则知识库装置中还有一个类别的单元,称为原文文本块单元。
[0011]实例:指反映实体或实体之间的关系的概念。实例包括对象实例和关系实例,对象实例反映实体;关系实例反映实体之间的关系。
[0012]对象实例,指本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种知识库装置,其特征在于,知识库装置由八类单元组成,分别为对象范式单元、关系范式单元、已知实例单元、未知实例单元、陈述实例单元、问题实例单元、对应关系单元、组成关系单元,一个单元包括其ID模块和到其它单元的连接;所述的知识库装置的结构特征:一个知识库装置的单元表示一个概念,当一个单元表示一个概念时,称所述的单元为该概念对映的单元;一条连接了两个单元的连接表示一个概念之间的关联,所述的知识库装置用于表示通过原文知识产生的概念和概念间的关联;1.1.一个所述的对象范式单元用于表示一个对象范式概念;所述的对象范式单元包含:一个ID模块,用于区分本单元和其它的对象范式单元;1.2.一个所述的关系范式单元用于表示一个关系范式概念;所述的关系范式单元包含:一个ID模块,用于区分本单元和其它的关系范式单元;一条或多条连接,称为位置连接,用于连接本单元所表示的关系范式概念所关联的对象范式概念所对映的对象范式单元;1.3.一个所述的已知实例单元用于表示一个已知实例概念;所述的已知实例单元包含:一个ID模块,用于区分本单元和其它的已知实例单元;一条连接,称为范式连接,用于连接本单元所表示的已知实例概念所关联的对象范式概念所对映的对象范式单元;1.4.一个所述的未知实例单元用于表示一个未知实例概念;所述的未知实例单元包含:一个ID模块,用于区分本单元和其它的未知实例单元;一条连接,称为范式连接,用于连接本单元所表示的未知实例概念所关联的对象范式概念所对映的对象范式单元;1.5.一个所述的陈述实例单元用于表示一个陈述实例概念;所述的陈述实例单元包含:一个ID模块,用于区分本单元和其它的陈述实例单元;一条连接,称为范式连接,用于连接本单元所表示的陈述实例概念所关联的关系范式概念所对映的关系范式单元;一条或多条连接,称为实例连接,用于连接本单元所表示的陈述实例概念所关联的已知实例概念所对映的已知实例单元;1.6.一个所述的问题实例单元用于表示一个问题实例概念;所述的问题实例单元包含:一个ID模块,用于区分本单元和其它的问题实例单元;一条连接,称为范式连接,用于连接本单元所表示的问题实例概念所关联的关系范式概念所对映的关系范式单元;一条或多条连接,称为实例连接,用于连接本单元所表示的问题实例概念所关联的已知实例和未知实例概念所对映的已知实例单元和未知实例单元;1.7.一个所述的对应关系单元用于表示一个对应关系概念;所述的对应关系单元包含:一个ID模块,用于区分本单元和其它的对应关系单元;两条连接,称为等位连接,用于连接本单元所表示的对应关系概念所关联的两个概念所对映的单元;1.8.一个所述的组成关系单元用于表示一个组成关系概念;所述的组成关系单元单元包含:一个ID模块,用于区分本单元和其它的组成关系单元;一条连接,称为集合连接,用于连接本单元所表示的组成关系概念所关联的两个概念中的集合整体概念所对映的单元;一条连接,称为成员连接,用于连接本单元所表示的组成关系概念所关联的两个概念中集合成员概念所对映的单元;知识库装置的单元之间存在如下自洽约束,当知识库装置部分受损或未完整建立时,可以依据这些自洽约束,按需修复受损单元或者补充建立部分单元;当存在一个陈述实例单元,记为A;A的范式连接所连接的关系范式单元记为P
A
;A的实例
连接所连接的已知实例单元记为C
A1
,C
A2

C
An
,这些已知实例单元的范式连接所连接的对象范式单元记为P
CA1
,P
CA2

P
CAn
;这时,P
A
的位置连接必然连接并仅连接P
CA1
,P
CA2

P
CAn
;当存在一个问题实例单元,记为A;A的范式连接所连接的关系范式单元记为P
A
;A的实例连接所连接的已知实例单元和未知实例单元记为C
A1
,C
A2

C
An
,这些已知实例单元和未知实例单元的范式连接所连接的对象范式单元记为P
CA1
,P
CA2

P
CAn
;这时,P
A
的位置连接必然连接并仅连接P
CA1
,P
CA2

P
CAn
;当存在一个对应关系单元,记为A;A的两条等位连接所连接的两个单元记为E
A1
、E
A2
;若E
A1
、E
A2
为两个已知实例单元或者两个未知实例单元,它们的范式连接所连接的对象范式单元记为P
EA1
、P
EA2
;这时,或者P
EA1
、P
EA2
为同一单元,或者存在另一个对应关系单元,记为B,B的两条等位连接所连接的单元为P
EA1
、P
EA2
;当存在一个对应关系单元,记为A;A的两条等位连接所连接的两个单元记为E
A1
、E
A2
;若E
A1
、E
A2
为两个陈述实例单元或者两个问题实例单元,它们的范式连接所连接的对象范式单元记为P
EA1
、P
EA2
;这时,或者P
EA1
、P
EA2
为同一单元,或者存在另一个对应关系单元,记为B,B的两条等位连接所连接的单元为P
EA1
、P
EA2
;同时,E
A1
的实例连接所连接的单元必然存在特定排列,记为C
EA11
,C
EA12

C
EA1n
,E
A2
的实例连接所连接的单元必然存在特定排列,记为C
EA21
,C
EA22

C
EA2n
,它们的长度必然相同,即n=m,这两个排列中位置相同的单元组成二元组(C
EA11
,C
EA21
),(C
EA12
,C
EA22
)

(C
EA1n
,C
EA2n
),记其中任意一个为(C
EA1i
,C
EA2i
),这时,或者C
EA1i
与C
EA2i
为同一单元,或者存在另一个对应关系单元,记为M
i
,M
i
的两条等位连接所连接的单元为C
EA1i
,C
EA2i
;当存在一个对应关系单元,记为A;A的两条等位连接所连接的两个单元记为E
A1
、E
A2
;若E
A1
、E
A2
为两个关系范式单元,E
A1
的位置连接所连接的对象范式单元必然存在特定排列,记为C
EA11
,C
EA12

C
EA1n
,E
A2
的位置连接所连接的对象范式单元必然存在特定排列,记为C
EA21
,C
EA22

C
EA2n
,它们的长度必然相同,即n=m,这两个排列中位置相同的单元组成二元组(C
EA11
,C
EA21
),(C
EA12
,C
EA22
)

(C
EA1n
,C
EA2n
),记其中任意一个为(C
EA1i
,C
EA2i
),这时,或者C
EA1i
与C
EA2i
为同一个单元,或者存在另一个对应关系单元,记为M
i
,M
i

【专利技术属性】
技术研发人员:沈雪玲
申请(专利权)人:杭州新范式生物医药科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1