知识图谱构建方法及装置制造方法及图纸

技术编号:15746849 阅读:41 留言:0更新日期:2017-07-03 03:03
本发明专利技术公开了一种知识图谱构建方法及装置,属于互联网技术领域。方法包括:基于目标语言,构建针对于目标物的初步知识图谱,目标语言为复杂度小于RDF语言的轻量级数据交换格式,初步知识图谱中包含语义理解所需的各种关键要素,各种关键要素存储在同一个文件中;从至少一个数据源,收集与各种关键要素中至少一种关键要素匹配的行业数据;将行业数据添加到初步知识图谱中至少一种关键要素指示的位置,得到目标物的目标知识图谱。由于基于复杂度小于RDF语言的轻量级目标语言构建知识图谱,因此知识图谱可读性和可维护性较佳,可提升聊天机器人的聊天效果。此外,知识图谱中包含了语义理解所需且存储在同一文件中的各种关键要素,便于统一进行管理。

Method and device for constructing knowledge map

The invention discloses a method and a device for constructing a knowledge map, belonging to the field of Internet technology. The method includes: Based on the target language, constructing the preliminary knowledge map for the target, the target language for lightweight data complexity is less than the RDF language exchange format, various key elements include semantic understanding required preliminary knowledge of various key elements stored in the same file; from at least one data source, matching at least one of the key elements of industry data collection and various key elements; add to industry data indicative of at least one of the key elements of the preliminary knowledge, knowledge map object. Since the knowledge map is constructed based on the lightweight target language which is less than RDF language, the knowledge map is readable and maintainable, and it can improve the chat effect of the chat robot. In addition, the knowledge map contains the key elements needed for semantic understanding and stored in the same file, so that it can be managed uniformly.

【技术实现步骤摘要】
知识图谱构建方法及装置
本专利技术涉及互联网
,特别涉及一种知识图谱构建方法及装置。
技术介绍
知识图谱,也被称为科学知识图谱,在图书情报界称为知识域可视化或知识领域映射地图,是显示知识发展进程与结构关系的一系列各种不同的图形,用可视化技术描述知识资源及其载体,挖掘、分析、构建、绘制和显示知识及知识之间的相互关系。时下,通过构建知识图谱,并将构建的知识图谱运用于聊天机器人实现智能问答,已经成为了本领域技术人员广泛采取的一种做法。相关技术在构建知识图谱时,通常采用RDF(ResourceDescriptionFramework,资源描述框架)语言构建针对目标物的知识图谱。其中,目标物既可指代某一个特定的领域,比如汽车领域,也可指代某一个特定的领域所属范围内一个子领域,比如汽车领域的发动机。由于RDF语言是基于XML(ExtensibleMarkupLanguage,可扩展标记语言)的,因此较为繁琐和复杂,所以构建的知识图谱可读性和可维护性差,进而导致聊天机器人的聊天效果不佳。
技术实现思路
为了解决相关技术的问题,本专利技术实施例提供了一种知识图谱构建方法及装置。所述技术方案如下:第一方面,提供了一种知识图谱构建方法,所述方法包括:基于目标语言,构建针对于目标物的初步知识图谱,所述目标语言为复杂度小于RDF语言的轻量级数据交换格式,所述初步知识图谱中包含语义理解所需的各种关键要素,所述各种关键要素存储在同一个文件中;从至少一个数据源,收集与所述各种关键要素中至少一种关键要素匹配的行业数据;将所述行业数据添加到所述初步知识图谱中所述至少一种关键要素指示的位置,得到所述目标物的目标知识图谱。第二方面,提供了一种知识图谱构建装置,所述装置包括:第一构建模块,用于基于目标语言,构建针对于目标物的初步知识图谱,所述目标语言为复杂度小于RDF语言的轻量级数据交换格式,所述初步知识图谱中包含语义理解所需的各种关键要素,所述各种关键要素存储在同一个文件中;收集模块,用于从至少一个数据源,收集与所述各种关键要素中至少一种关键要素匹配的行业数据;所述第一构建模块,还用于将所述行业数据添加到所述初步知识图谱中所述至少一种关键要素指示的位置,得到所述目标物的目标知识图谱。本专利技术实施例提供的技术方案带来的有益效果是:基于复杂度小于RDF语言的轻量级目标语言,构建针对于目标物的初步知识图谱,因此构建的知识图谱可读性和可维护性较佳,进而可提升聊天机器人的聊天效果。此外,知识图谱中包含了语义理解所需的各种关键要素,且各种关键要素统一存储在一个文件中,便于统一进行管理。附图说明为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1是本专利技术实施例提供的一种知识图谱构建方法的流程图;图2是本专利技术实施例提供的一种知识图谱的示意图;图3是本专利技术实施例提供的一种数据收集模板的示意图;图4是本专利技术实施例提供的一种知识图谱的示意图;图5是本专利技术实施例提供的一种知识图谱与自然语言理解语法库的关联关系示意图;图6是本专利技术实施例提供的一种知识图谱构建装置的结构示意图;图7是本专利技术实施例提供的一种服务器的结构示意图。具体实施方式为使本专利技术的目的、技术方案和优点更加清楚,下面将结合附图对本专利技术实施方式作进一步地详细描述。在对本专利技术实施例进行详细地解释说明之前,先对本专利技术实施例提供的知识图谱构建方法所涉及的实施场景进行简单介绍。本专利技术实施例提供的知识图谱构建方法运用于聊天机器人。其中,聊天机器人本质上是用来模拟人类对话或聊天的程序,其可实现问答功能。当用户终端提出一个问题时,聊天机器人可以返回给用户终端一个准确的答案,至少暂时性地让用户认为他们正在同另一个真实的人聊天。其中,实现聊天机器人问答功能的重要核心是知识图谱和用于语义理解的NLU(NaturalLanguageUnderstanding,自然语言理解)语法库的建立。其中,知识图谱本质上旨在描述真实世界客观存在的知识、以及知识之间等关联关系的语义网络。基于知识图谱的应用领域,时下通常将知识图谱分为通用知识图谱和垂直知识图谱(又称行业知识图谱)。通用知识图谱不面向特定领域,可将其类比为结构化的百科知识。这类知识图谱包含了大量常识性知识,强调知识的广度。垂直知识图谱则面向特定领域,基于行业知识构建,强调知识的深度。本专利技术实施例针对的是垂直领域的知识图谱,即垂直知识图谱。垂直知识图谱针对一个特定领域或一个特定领域下的子领域,例如中医药领域或海洋领域或海洋领域下鱼类知识子领域等等。举例来说,中医药知识图谱可以包括疾病知识、症状知识、中草药知识、方剂知识等等。而基于中医药知识图谱可以实现中医药相关的问答功能。海洋知识图谱可以包括鱼类知识、海洋经济知识和海岛知识等等。而基于海洋知识图谱可以实现海洋相关的问答功能。NLU语法库用于对自然语言进行语义理解,即尝试分析用户终端的问答消息并获得用户的提问意图。其中,NLU语法库需要知识库来辅助进行问答消息的语义理解。比如,用户终端提出的问答消息中可能包括了多种关系,诸如概念之间含义相同、概念的包含关系等等,而要NLU语法库理解这些复杂的关系,那么NLU语法库就必须具有相当广阔领域的知识,也就是需要依赖于大型的知识库。比如,A某的老婆和A某的妻子便是两个含义相同的概念,指代的是同一个人。若在知识库中存储了这一相同的概念,则NLU语法库便可以将老婆和妻子关联起来。图1是本专利技术实施例提供的一种知识图谱构建方法的流程图。参见图1,本专利技术实施例提供的方法流程包括:101、基于目标语言,构建针对于目标物的初步知识图谱。由于RDF语言是基于XML的,因此也集成了XML的一些“重”的特征,比较繁琐和复杂,降低了知识图谱的可读性和可维护性,为此本专利技术实施例提出了一种与互联网事实标准更兼容且复杂度小于RDF语言的轻量级数据交换格式,例如,JSON-LD(JavaScriptObjectNotation-LinkedData,JavaScript对象表示法-链接数据)语言。本实施例以JSON-LD语言为目标语言来构建知识图谱为例。其中,JSON-LD语言是一种基于JSON表示和传输互联网数据的方法,JSON-LD语言描述了如何通过JSON表示有向图,以及如何在一个文档中混合表示互联数据以及非互联数据。换句话说,JSON-LD语言是一种基于JSON的数据格式,可用于实施结构化数据,以便向诸如搜索引擎等工具进行内容描述。目标物既可指代某一个特定的领域,比如母婴领域、前文提及的中医药领域、海洋领域、汽车领域等;也可指代某一个特定的领域所属范围内一个具体的子领域,比如发动机、奶粉、手机等等,本专利技术实施例对目标物的表现形式不进行具体限定。需要说明的是,在初始构建知识图谱时,知识图谱中有一些数据是不完善的,因此在本专利技术实施例中将此时构建的知识图谱称之为初始知识图谱。举一个简单的例子来说,参见图2,以发动机为例,在初始构建知识图谱时,发动机这一概念可能包含有油耗、颜色、排量、品牌和型号等等属性,这些属性均是常识性知识,为本文档来自技高网...
知识图谱构建方法及装置

【技术保护点】
一种知识图谱构建方法,其特征在于,所述方法包括:基于目标语言,构建针对于目标物的初步知识图谱,所述目标语言为复杂度小于资源描述框架RDF语言的轻量级数据交换格式,所述初步知识图谱中包含语义理解所需的各种关键要素,所述各种关键要素存储在同一个文件中;从至少一个数据源,收集与所述各种关键要素中至少一种关键要素匹配的行业数据;将收集到的与所述至少一种关键要素匹配的行业数据添加到所述初步知识图谱中所述至少一种关键要素指示的位置,得到所述目标物的目标知识图谱。

【技术特征摘要】
1.一种知识图谱构建方法,其特征在于,所述方法包括:基于目标语言,构建针对于目标物的初步知识图谱,所述目标语言为复杂度小于资源描述框架RDF语言的轻量级数据交换格式,所述初步知识图谱中包含语义理解所需的各种关键要素,所述各种关键要素存储在同一个文件中;从至少一个数据源,收集与所述各种关键要素中至少一种关键要素匹配的行业数据;将收集到的与所述至少一种关键要素匹配的行业数据添加到所述初步知识图谱中所述至少一种关键要素指示的位置,得到所述目标物的目标知识图谱。2.根据权利要求1所述的方法,其特征在于,所述各种关键要素包括概念集、概念-概念映射集、概念-实例映射集以及概念-同义词映射集,所述构建针对于目标物的初步知识图谱,包括:在所述初步知识图谱中构建用于进行概念描述的所述概念集;在所述初步知识图谱中构建用于描述概念与概念之间包含关系的所述概念-概念映射集;在所述初步知识图谱中构建用于描述概念与实例之间对应关系的所述概念-实例映射集;在所述初步知识图谱中构建用于描述概念与同义词之间对应关系的所述概念-同义词映射集。3.根据权利要求1所述的方法,其特征在于,所述基于目标语言,构建针对于目标物的初步知识图谱,包括:基于JavaScript对象表示法-链接数据JSON-LD语言,在同一个文件中构建针对所述目标物的初步知识图谱。4.根据权利要求1或2所述的方法,其特征在于,所述从至少一个数据源,收集与所述各种关键要素中至少一种关键要素匹配的行业数据,包括:从所述初步知识图谱的概念-实例映射集中导出数据收集模板,所述数据收集模板中包含所述概念-实例映射集中实例的值为空的至少一个指定概念;基于所述数据收集模板,从所述至少一个数据源,收集与所述至少一个指定概念匹配的行业数据;所述将收集到的与所述至少一种关键要素匹配的行业数据添加到所述初步知识图谱中所述至少一种关键要素指示的位置,包括:确定所述至少一个指定概念的实例在所述初步知识图谱中的位置;将收集到的与所述至少一个指定概念匹配的行业数据作为所述至少一个指定概念的实例的值,添加到所述至少一个指定概念的实例在所述初步知识图谱中的位置。5.根据权利要求1所述的方法,其特征在于,所述方法还包括:基于自顶向下的抽取规则,从所述目标知识图谱中抽取所述各种关键要素,根据所述各种关键要素构建语义理解所需的自然语言理解语法库;或,基于自底向上的抽取规则,从所述目标知识图谱中抽取所述各种关键要素,根据所述各种关键要素构建所述自然语言理解语法库;或,基于自顶向下结合自底向上的抽取规则,从所述目标知识图谱中抽取所述各种关键要素,根据所述各种关键要素构建所述自然语言理解语法库;其中,所述自然语言理解语法库中包含所述目标知识图谱中描述的各种关键要素。6.根据权利要求5所述的方法,其特征在于,所述方法还包括:在接收到用户终端的问答消息后,基于所述自然语言理解语法库,对所述问答消息进行语义理解,得到理解结果;根据所述理解结果,基于所述目标知识图谱生成所述问答消息的查询路径;基于所述查询路径,获取与所述问答消息匹配的应答消息,并将所...

【专利技术属性】
技术研发人员:李鹏金星明辛愿李科
申请(专利权)人:腾讯科技上海有限公司
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1