知识图谱的构建方法及装置制造方法及图纸

技术编号:20545937 阅读:55 留言:0更新日期:2019-03-09 18:52
本申请公开了一种知识图谱构建方法及装置,涉及知识图谱领域,用于解决多种数据无法整合的问题。该方法包括:获取行业数据,获取所述行业数据中的实体集合以及所述实体集合中的多个实体的关系;将所述实体集合及所述实体集合中的多个实体的关系按照预设数据模式构建所述知识图谱。本申请实施例应用于整合多种行业数据。

Construction Method and Device of Knowledge Map

This application discloses a method and device for constructing a knowledge map, which relates to the field of knowledge map, and is used to solve the problem that multiple data can not be integrated. The method includes: acquiring industry data, acquiring the entity set in the industry data and the relationship of multiple entities in the entity set, and constructing the knowledge map according to the preset data pattern. The embodiment of this application is applied to integrate multiple industry data.

【技术实现步骤摘要】
知识图谱的构建方法及装置
本专利技术涉及知识图谱领域,尤其涉及一种知识图谱的构建方法及装置。
技术介绍
电商平台是围绕着商品,买卖双方在线上进行交易的平台。故而电商知识图谱的核心是商品。整个商业活动中有品牌商、平台运营、消费者、国家机构、物流商等多角色参与。电商数据来源繁杂,涉及到运营平台、客服咨询、商品数据等多维度数据,而且各个数据源的结构化程度差异较大,涉及到的实体、实体关系之间的关联复杂多样,分散在各个系统中,并且每个角色的数据的结构化程度不一,同时交易过程中极易产生大量的非结构化文本数据,现有的技术很难对这些数据统一整合。
技术实现思路
本申请的实施例提供一种知识图谱法的构建方法及装置,用于解决多种数据无法整合的问题。为达到上述目的,本申请的实施例采用如下技术方案:第一方面,提供了一种知识图谱的构建方法,该方法包括:获取行业数据;获取所述行业数据中的实体集合以及所述实体集合中的多个实体的关系;将所述实体集合及所述实体集合中的多个实体的关系按照预设数据模式构建所述知识图谱。第二方面,提供了一种知识图谱的构建装置,该装置包括:获取单元,用于获取行业数据;所述获取单元,还用于获取所述行业数据中的实体集合以及所述实体集合中的多个实体的关系;构建单元,用于将所述实体集合及所述实体集合中的多个实体的关系按照预设数据模式构建所述知识图谱。第三方面,提供了一种存储一个或多个程序的计算机可读存储介质,所述一个或多个程序包括指令,所述指令当被计算机执行时使所述计算机执行如第一方面所述的方法。第四方面,提供了一种包含指令的计算机程序产品,当所述指令在计算机上运行时,使得计算机执行如第一方面所述的知识图谱的构建方法。第五方面,提供一种知识图谱的构建装置,包括:处理器和存储器,存储器用于存储程序,处理器调用存储器存储的程序,以执行上述第一方面所述的知识图谱的构建方法。本申请的实施例提供的知识图谱的构建方法及装置,从行业数据中获取实体集合及实体集合中多个实体的关系,然后将获取到的实体集合及实体集合中的多个实体关系按照预设数据模式进行融合,最终形成知识图谱,解决了各类各维度数据孤立、分散的情况,有效的将数据链接起来。附图说明图1为本申请的实施例提供的构建的知识图谱的框架示意图;图2为本申请的实施例提供的知识图谱的构建方法流程示意图一;图3为本申请的实施例提供的知识图谱的构建方法流程示意图二;图4为本申请的实施例提供的知识图谱的构建方法流程示意图三;图5为本申请的实施例提供的知识图谱的构建方法流程示意图四;图6为本申请的实施例提供的知识图谱的构建装置结构示意图。具体实施方式本申请实施提供的知识图谱的构建方法及装置,该知识图谱可以为电商知识图谱,通过获取行业数据,并获取行业数据中的实体集合及实体集合中多个实体之间的关系,将实体集合及实体集合中的多个实体的关系按照预设数据模式构建知识图谱。图1为本申请实施例提供的构建的知识图谱的整体框架图。参照图1所示,整体框架包括原始数据层110、互联网信息采集与清洗层120、知识抽取层130、知识融合层140、知识储存层150三部分。原始数据层110包括内部数据和外部数据,其中,内部数据可以包括关系型数据等结构化数据,外部数据可以包括视频网站的内容等非结构化数据。互联网信息采集与清晰层120包括采集爬虫、采集任务调度系统及解析器;其中,采集爬虫可以包括行业网站爬虫以及通用爬虫;解析器可以包括行业网站解析器。知识抽取层130包括数据库到资源描述框架映射(databasetoresourcedescriptionframework,D2R)和行业网站抽取;其中,D2R映射包括配置文件映射、更新配置以及任务调度系统,配置文件映射包括:表格-概念、记录-实体、列名-属性、记录数据-属性值以及表关联-关系;任务调度系统包括:原始导入、批量更新以及增量更新;行业网站抽取可以包括包装Wrapper插件以及任务调速系统,任务调度系统包括更新探测以及周期更新。当原始数据层110中的数据为内部数据时,通过D2R映射抽取知识;当原始数据层110中的数据为外部数据时,需要经过互联网信息采集与清晰层120处理后,再通过行业网站抽取知识。知识融合层140包括数据层、模式层、冲突解决及知识图谱更新;其中,数据层包括实体对齐、实体类型对齐以及实体属性对齐,模式层包括上下围关系生成以及概念属性生成,知识图谱更新包括模式层更新以及数据层更新,冲突解决包括冲突自动检测以及冲突自动解决。数据层的数据模式可以通过人工专家定义,明确知识图谱中的实体、关系、和各实体及关系的属性。将多个数据源抽取的知识进行融合后集成到知识图谱中时,需要解决多种类型的数据冲突问题,例如,一个短语对应多个实体、实体属性名不一致、实体属性缺失、实体属性值不一致、实体属性值一对多映射等情况。知识储存层150包括图数据储存和分布式文件索引。本申请实施例向知识图谱中导入的数据具体为结构化数据。在数据导入过程中,涉及对结构化数据的预处理、实体对齐、属性对齐、属性筛选等过程,最终将满足条件的结构化数据导入知识图谱。后续通过增量迭代等方式,保证知识图谱的可持续更新和扩展。下面采用详细的实施例对本知识图谱的构建过程进行详细说明。实施例1、本申请实施例提供了一种知识图谱的构建方法,参照图2中所示,该方法可以包括S101-S103:S101、获取行业数据。以电商行业的知识图谱的构建为例,电商知识图谱构建基本上采用行业内部的消费数据、电商平台相关的垂直领域数据、商品数据等相关数据作为数据来源。这些数据产生于电商平台运营或宣传过程中,与业务结合性较好,因此通常具有以下优点:行业覆盖较广、行业深度可观。数据源均来自电商平台强相关的数据,数据相关性与行业紧密结合,基本覆盖电商行业涉及的数据,且以电商运营过程中数据作为补充,数据具有行业深度;可靠性高:行业的内部结构化数据用于支撑企业本身的业务,因此可靠性非常高;企业数据存储在关系型数据库中,只需将关系型数据进行一定程度的转化即可得到结构化三元组数据,可靠性良好;结构性强:内部结构化数据多数是通过关系数据库进行存储的;开放行业数据基本上由较高质量的网站编辑后发表,结构性良好。因此,在进行电商知识图谱构建时,会优先考虑使用行业中的内部结构化数据和开放的行业知识库。可选的,在获取行业数据之前,可以首先定义知识图谱的数据模式。数据模式是知识图谱中最核心的部分,可以由人工专家定义数据模式,并采用自顶向下的知识图谱方式,定义好数据模式后,可以将从各种数据源获取到的行业数据中的实体、实体关系或实体属性等进行数据层面的填充,其中,通过人专家定义知识图谱的数据模式可以提高知识图谱数据的完整性和准确性。可选的,参照图3中所示,S101可以包括S201-S204:S201、根据种子词汇获取目标网页,并根据网站将目标网页分类。其中,种子词汇为行业专用词汇,目标网页包括网页文档及百科网页的外部链接。具体的,可以利用一些能够代表行业的种子词汇,在搜索引擎和在线百科的搜索接口中进行搜索。对于搜索引擎返回的网页文档,将排列靠前的数据结果直接添加到目标网页列表;对于百科返回的页面,先进入到相应的文章页,然后在文章页面中寻找普通的外部链接和参考文献的外链,并将这两类本文档来自技高网...

【技术保护点】
1.一种知识图谱的构建方法,其特征在于,包括:获取行业数据;获取所述行业数据中的实体集合以及所述实体集合中的多个实体的关系;将所述实体集合及所述实体集合中的多个实体的关系按照预设数据模式构建所述知识图谱。

【技术特征摘要】
1.一种知识图谱的构建方法,其特征在于,包括:获取行业数据;获取所述行业数据中的实体集合以及所述实体集合中的多个实体的关系;将所述实体集合及所述实体集合中的多个实体的关系按照预设数据模式构建所述知识图谱。2.根据权利要求1所述的知识图谱的构建方法,其特征在于,所述获取所述行业数据中的实体集合以及所述实体集合中的多个实体的关系,包括:如果所述行业数据为结构化数据,则根据关系数据库到资源描述框架映射语言D2RML规范及映射配置文件将所述行业数据中的知识转换成所述实体集合及所述实体集合中多个实体的关系。3.根据权利要求1所述的知识图谱的构建方法,其特征在于,所述获取所述行业数据中的实体集合以及所述实体集合中的多个实体的关系,包括:如果所述行业数据为非结构化数据,则根据条件随机场CRF模型抽取所述行业数据中的实体集合,并根据支持向量机-K近邻SVM-KNN分类方法抽取所述行业数据中的所述实体集合中多个实体的关系。4.根据权利要求1所述的知识图谱的构建方法,其特征在于,所述获取行业数据,包括:根据种子词汇获取目标网页,并根据网站将所述目标网页分类,其中,所述种子词汇为行业专用词汇,所述目标网页包括网页文档及百科网页的外部链接;按照预设深度值对每个网站对应的目标网页进行数据采集得到所述网站的内容;如果所述网站的内容中对应的种子词汇的出现频度超过阈值,则将本网站作为相应的行业数据源;从所述行业数据源获取所述行业数据。5.一种知识图谱的构建装置,其特征在于,包括:获取单元,用于获取行业数据;所述获取单元,还用于获取所述行业数据中的实体集合以及所述实体集合中的多个实体的关系;构建单元,用于将所述实体集合及所述实体集...

【专利技术属性】
技术研发人员:孙喜民罗鹏张宾周晶
申请(专利权)人:国家电网公司国网电子商务有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1