一种基于语义三角的领域知识图谱及查询方法技术

技术编号:15690854 阅读:141 留言:0更新日期:2017-06-24 03:35
本发明专利技术公开了一种基于语义三角的领域知识图谱及查询方法。本发明专利技术的图谱包括概念层、实体层;概念层由概念的集合组成,每个概念设有唯一标识,并由一个代表词项和候选词项集合表示;根据领域相关的知识和概念层的概念集合,实例化每个概念对应的多个实体,构成实体层,实体是概念的外延,每个实体设有唯一标识,并由一个代表词项和候选词项集合表示;相关概念之间设置有根据领域相关知识建立的关联关系;概念层与实体层之间设置有根据领域相关知识建立的关联关系;实体之间设置有根据领域相关知识构建的关联关系。本方法实现了概念与实体的分离,方便知识的梳理,并区分了概念和实体在知识理解和运用中的不同作用,提高了查询效率。

Domain knowledge mapping and query method based on Semantic Triangle

The invention discloses a domain knowledge map and a query method based on a semantic triangle. The invention of the map including concept layer and entity layer; the concept layer is composed of a collection of concepts, each concept with unique identifier, and represented by a lexical entry and candidate lexical entry sets; according to the domain concept knowledge and concept layer set, multiple entities corresponding to instantiate each concept, constitute the physical layer, the entity is the extension of a concept, a unique identifier for each entity, and represented by a lexical entry and candidate lexical entry sets; related to establish related knowledge according to the field set between the related concepts; concept layer and entity layer is provided with a relationship established according to relevant knowledge of related fields; according to the related field the construction of knowledge set between entities. The method realizes the separation of concepts and entities, facilitates the carding of knowledge, and distinguishes the different roles of concepts and entities in the understanding and application of knowledge, thus improving the query efficiency.

【技术实现步骤摘要】
一种基于语义三角的领域知识图谱及查询方法
本专利技术属于人工智能领域,具体涉及一种基于语义三角的领域知识图谱及查询方法。
技术介绍
随着互联网技术的飞速发展,人类先后经历了以文档为主要特征的“Web1.0”时代和以数据互联数据共享为特征的“Web2.0”时代,并且正在走向基于知识互联的“Web3.0”时代。在大数据中表示一个可理解的知识网络,成为现代互联网时代的一大挑战。同样,人机交互的基础在于理解用户的言语信息、推断用户的意图进而由机器返回给用户结果。知识图谱以其强大的语义处理能力与开放互联的能力应运而生,能够将互联网中的海量、异构的数据聚集为可理解的知识网络,便于理解、应用。因此,如何表示某个特定领域的知识图谱并应用于特定的业务场景以解决相应的问题,具有十分重要的意义。现有的知识图谱的表示大多描述的是实体之间的语义网络,每个实体(概念的外延)用一个全局唯一确定的ID来标识,采用主-谓-宾三元组的形式表示知识网络。但是这种表示方法会带来概念和实体的混淆,从而造成用户的理解障碍,并且不利于实体的理解。针对特定的问题,需要在存在海量数据和关系的知识图谱中查询,成本相对较高。传统的知识图谱还存在一词多义和一义多词的问题,使得语义网络混乱,不利于从互联网丰富的词语中整理出知识并进行快速查询。语义三角是一种关于意义的理论,由英国学者奥格登(Ogden)和理查兹(Richards)在1923年出版的语义学重要著作《意义的意义》(TheMeaningofMeaning)中提出,代表了传统语义学的典型观点。描述的是符号、概念(意义)和客观事物之间的一种相互制约、相互作用的关系,强调语言符号是对事物的指代,指代过程就是符号、概念(意义)和事物发生关系的过程。符号用来表示概念,概念是反映客观事物或者对象本质属性的思维形式,是词语的思想内容;概念反映现实世界中的客观事物即所指物。语义三角包括三方面的关系,分别是概念/意义和客观事物之间的直接关系,概念与符号/词之间的直接关系和符号或词与指称物/事物之间的非直接关系。如何利用语义三角的思想,在特定领域为海量、异构的大数据表达、组织、管理和应用提供一种更为有效的方式,使得语义网络能够实现特定领域概念与实体的组织管理和快速查询的功能,是知识图谱当前亟待解决的问题之一。
技术实现思路
本专利技术针对上述问题,提出了一种基于语义三角的领域知识图谱及查询方法。该图谱将概念与实体分离,并用一个代表词和多个候选词作为概念或者实体的表示,实体之间的关系通过基于概念结点的超边建立,从而实现了知识网络的有效管理和快速查询。本专利技术采用的技术方案如下:基于语义三角的领域知识图谱由概念层、实体层组成,具体表示为以下五部分:1.根据领域相关的知识构建概念层,概念层由概念的集合组成,每个概念设有唯一标识,并由一个代表词项和候选词项集合表示。概念对应语义三角中的概念/意义,是在该领域的客观事物的基础上概括而成的。候选词项集合中的每个候选词可以理解为代表词项的同义词或近义词,并以一定概率表示该概念。另外,概念层可以不止一层,可根据不同的业务场景细化概念层,使其更准确地刻画领域知识,满足具体的任务。2.根据领域相关的知识和概念层的概念集合,实例化每个概念对应的多个实体,构成实体层。实体是概念的外延,每个实体设有唯一标识,并由一个代表词项和候选词项集合表示。实体通过概念层中的概念实例化(instanceOf)得到,即根据领域知识将实体对应到相关概念上。候选词项集合中的每个候选词可以理解为代表词项的同义词,以一定概率表示该实体。这里的概率可通过经验设定,也可基于统计分析的方法学习出来。3.根据领域相关知识,通过经验规则推理或者统计学习等方法,表示概念层相关概念之间的关联关系。概念之间存在以下几种关系:(1)概念与其属性之间的包含关系(has)。如果概念的属性也在概念层中作为一个概念出现,那么这两者之间的关系即为包含关系(has)。(2)概念之间的隶属关系(isA)。如果一个概念是另外一个概念涵义的子集,则两者之间的关系即为隶属关系(isA)。(3)概念之间的关联关系。如果概念之间存在其他关联关系,可根据具体领域定义特定的关联关系,比如扩展关系等。4.根据领域相关知识,表示概念层与实体层之间的关联关系。概念与实体最直接的关系是概念实例化(instanceOf),在实体层生成过程中已经记录。除此之外,还存在用超边表示的概念与实体的基于关系(basedOn),可判断实体之间的关系是基于概念层某个属性概念的时候,实体关系与属性概念就由一条超边连接,用来表示基于关系(basedOn)。5.根据领域相关知识,构建独立于概念层的实体之间的关联关系。以上知识图谱的表示方法适合于各个特定领域,具有普适性和通用性。但对于不同领域,其具体的构建方法和技术则有所不同,可能基于领域知识进行人工判断,也可能基于统计学习的方法自动完成,这就需要根据领域知识的积累程度,以及领域相关数据的规模和可获取程度等因素综合考虑和设计。本专利技术旨在提出一种通用的领域知识图谱表示方法,而具体的构建过程将针对不同领域的特点,分别进行研究和设计,也将在其它专利中体现。基于上述知识图谱,可高效地对领域中的概念和实体进行查询,并反馈与查询对象相关联的查询结果。对于一待查询请求,查询过程分为以下几个步骤:1.将用户给出的查询语句分词,并去掉其中的停用词之后将分词存储在集合S中。2.将S中的每个词项和知识图谱概念层的概念和实体层中的实体进行匹配:(1)当匹配到概念层的某概念时,将通过知识图谱关联到与该概念关联的属性概念,以及该概念实例化后得到的实体集合,并作为查询结果返回;(2)当匹配到实体层的某实体时,将通过知识图谱关联到到与该实体关联的属性,以及该实体对应的概念,并作为查询结果返回;(3)当匹配到实体层的多个实体时,查看它们在知识图谱的实体层中是否有边相连接,如果有边相连且该边构成了一条BasedOn超边,则将此超边连接的概念也归入查询结果,从而准确地理解查询语句中可能缺省的实体之间的关系类型;(4)当匹配到概念层的一概念,且该概念与同时匹配到实体层的一实体之间存在BasedOn超边时,将此超边连接的另外一个实体也归入查询结果,从而完整地理解概念和实体之间的关联关系。与现有技术相比,本专利技术的有益效果如下:1)本方法实现了概念与实体的分离,用户在特定领域面对特定任务的时候,易于从抽象的概念入手寻找解决方案,相比传统的知识图谱中实体概念一起定义的方法,方便了知识的梳理,并区分了概念和实体在知识理解和运用中的不同作用。2)本方法实现了知识图谱中知识的快速查询。概念和实体分离的表示方法将知识进行了层次化的整理,当用户进行某个特定知识查询的时候,可以遵循从概念到实体的步骤进行,降低了查询成本,提高了查询效率。3)本方法解决了一义多词的问题。每个概念和实体均由一个代表词项和一个候选词项集合表示,可以很快地理解用户的意图,找到词语之间的同义关系。4)本方法解决了一词多义的问题。无论是汉语中的“是”和“有”,还是英语中的“IsA”和“Has”都被频繁应用于表示实体之间或者概念之间的多种关系,本方法把几种重要的关系明确表示出来,消除了传统的知识图谱中的一些歧义现象。5)本方法有助于计本文档来自技高网
...
一种基于语义三角的领域知识图谱及查询方法

【技术保护点】
一种基于语义三角的领域知识图谱,其特征在于,包括概念层、实体层;其中,所述概念层为一与目标领域知识相关的概念集合,每一概念设有唯一的标识,并用一代表词项和一候选词项集合表示;所述概念对应语义三角中的概念或意义,概念i的所述候选词项集合中的每个候选词为该概念i的代表词项的同义词或近义词,概念i对应的每一候选词设置一代表概念i的概率值;所述实体层为一实体集合,根据目标领域相关的知识对所述概念集合中每个概念进行实例化得到每一概念对应的多个实体,构成所述实体集合;每一实体设有唯一的标识,并用一代表词项和一候选词项集合;实体i的所述候选词项集合中的每个候选词为该实体i的代表词项的同义词,实体i对应的每一候选词设置一代表实体i的概率值;所述概念层的相关概念之间设置有根据领域相关知识建立的关联关系;概念层与实体层之间设置有根据领域相关知识建立的关联关系;所述实体之间设置有根据领域相关知识构建的关联关系。

【技术特征摘要】
1.一种基于语义三角的领域知识图谱,其特征在于,包括概念层、实体层;其中,所述概念层为一与目标领域知识相关的概念集合,每一概念设有唯一的标识,并用一代表词项和一候选词项集合表示;所述概念对应语义三角中的概念或意义,概念i的所述候选词项集合中的每个候选词为该概念i的代表词项的同义词或近义词,概念i对应的每一候选词设置一代表概念i的概率值;所述实体层为一实体集合,根据目标领域相关的知识对所述概念集合中每个概念进行实例化得到每一概念对应的多个实体,构成所述实体集合;每一实体设有唯一的标识,并用一代表词项和一候选词项集合;实体i的所述候选词项集合中的每个候选词为该实体i的代表词项的同义词,实体i对应的每一候选词设置一代表实体i的概率值;所述概念层的相关概念之间设置有根据领域相关知识建立的关联关系;概念层与实体层之间设置有根据领域相关知识建立的关联关系;所述实体之间设置有根据领域相关知识构建的关联关系。2.如权利要求1所述的领域知识图谱,其特征在于,所述相关概念之间的关联关系包括:a)包含关系,若概念及其属性均在所述概念集合中,则概念与其属性之间为包含关系;b)隶属关系,若一个概念是另外一个概念涵义的子集,则两者之间的关系即为隶属关系。3.如权利要求1所述的领域知识图谱,其特征在于,所述概念与所述实体之间、所述概念与所述概念的表示之间是紧密耦合关系,所述实体与所述实体的表示之间是松散耦合关系。4.如权利要求1或2或3所述的领域知识图谱,其特征在于,所述概念层根据不同的业务场景分为若干概念子层,每一概念子层对应一概念子集。5...

【专利技术属性】
技术研发人员:王宏安李依霖朱嘉奇刘胜航
申请(专利权)人:中国科学院软件研究所
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1