一种行业知识图谱的多源构建方法技术

技术编号：32568943 阅读：16 留言：0更新日期：2022-03-09 16:55

本发明专利技术公开了一种行业知识图谱的多源构建方法，该多源构建方法包括以下步骤：S1针对开放知识库、在线百科、行业文本、行业结构数据四类知识来源，提取行业概念和实体；S2合并同义概念和实体；S3提取概念的上下位关系；S4提取概念和实体的非上下位及属性关系。该多源构建方法能够解决现有构建方法人为工作量大、耗费大量的计算机资源、碎片化信息过多、数据不完整、难以对不同来源的知识区别提取和融合的问题，从而达到根据数据来源不同，采用针对性的策略构建目标本体、抽取实体和属性，兼顾了不同来源知识的特点，结合机器学习方法对知识图谱进行半自动构建，在确保准确的同时大大减少了大规模知识图谱构建所耗费的人力的目的。少了大规模知识图谱构建所耗费的人力的目的。少了大规模知识图谱构建所耗费的人力的目的。

全部详细技术资料下载

【技术实现步骤摘要】
一种行业知识图谱的多源构建方法

[0001]本专利技术涉及人工智能的文本处理
，具体来说，涉及一种行业知识图谱的多源构建方法。

技术介绍

[0002]行业知识图谱中蕴涵着海量结构信息，因常用于分析应用或决策支持，通常对准确度要求较高。大规模知识图谱的构建包括两种方式，分别是与数据库与网络百科同步。第一种方法是运用存储知识图谱的特定结构，下载大量的数据，由人工整合后采用子图融合的方式进行构建。这种方式人为工作量大，耗费大量的计算机资源，并且在构建过程中保证不了数据的安全。第二种方法是采用网络爬虫，对相关类似信息进行数据采集和信息提取，这样做的问题在于大量的网页处理导致碎片化信息过多，并且大多数网站具有封锁爬虫的性能使得数据不完整。而对于多源知识图谱，来源于行业文本、开放链数据集和知识库、百科中的知识有着不同的特征，已有构建方式难以对不同来源的知识区别提取和融合。

技术实现思路

[0003]针对相关技术中的上述技术问题，本专利技术提出一种行业知识图谱的多源构建方法，能够克服现有技术的上述不足。
[0004]为实现上述技术目的，本专利技术的技术方案是这样实现的：一种行业知识图谱的多源构建方法，包括以下步骤：S1针对开放知识库、在线百科、行业文本、行业结构数据四类知识来源，提取行业概念和实体；S2合并同义概念和实体；S3提取概念的上下位关系；S4提取概念和实体的非上下位及属性关系。
[0005]进一步的，所述S1包括以下步骤：S11搜集已有开放链接数据集和开放知识库中行业核心概念和实体，...

【技术保护点】

【技术特征摘要】
1.一种行业知识图谱的多源构建方法，其特征在于，包括以下步骤：S1针对开放知识库、在线百科、行业文本、行业结构数据四类知识来源，提取行业概念和实体；S2合并同义概念和实体；S3提取概念的上下位关系；S4提取概念和实体的非上下位及属性关系。2.根据权利要求1所述的行业知识图谱的多源构建方法，其特征在于，所述S1包括以下步骤：S11搜集已有开放链接数据集和开放知识库中行业核心概念和实体，所述开放链接数据集和开放知识库包括DBPedia、YAGO、Zhishi.me三种；S12搜集维基百科、百度百科、互动百科中分类系统的类别标签作为概念，百科文章的标题作为实体的候选，并将在线百科中对应的简介文本作为概念或实体的摘要；S13对行业文本语料采用词频统计、RAKE、TextRank、TF
‑
IDF方法找出关键词集合，通过行业专家辅助从中初步筛选出行业核心概念；S14对行业结构数据，通过D2R Server工具，将关系数据库中的相关表和表中的列分别映射为概念的实体和实体的属性；S15对上述S11
‑
S14中四个途径获取的行业概念和实体进行整合。3.根据权利要求1所述的行业知识图谱的多源构建方法，其特征在于，所述S2包括以下步骤：S21开放链接数据中的同义关系明确，DBPedia中使用『owl:sameAs』标识同义实体，YAGO中使用『means』标识同义实体，Zhishi.me中使用『pageRedirects』标识同义实体的重定向页面；S22在线百科方面，将同一在线百科中学习到的概念进行合并，遍历百科中的实体页面，把具有同一重定向标记的页面标题标识为同一实体，将实体页面信息中『别称』、『中文别称』字段对应的值标识为同一实体；判断不同在线百科同名实体之间是否同义：对于不同在线百科中的页面文章，标题相同时，文章内容相似度超过80%的文章标识为同一实体或概念对应的页面，文章标题对应的实体或概念标记为同义；S23抽取行业文本同义关系：行业文本方面，首先，定义『X又名Y』、『X又叫Y』、『X又称Y』、『X也名Y』、『X也叫Y』、『X也称Y』、『X亦称Y』、『X也叫做Y』、『X也叫作Y』、『X也称为Y』、『X又称为Y』、『X简称Y』、『X俗称Y』、『X原名Y』、『X是Y的同义词』、『X是Y的近义词』、『X古称Y』、『X是Y的简称』、『X的同义词是Y』、『X（Y）』、『X又被叫作Y』、『X又被称作Y』、『X又被称为Y』、『X也被叫作Y』、『X也被称作Y』『X也被称为Y』为描述同义关系的句式规则，根据这些规则在行业文本中进行匹配，抽取实体或概念间的同义关系，然...

【专利技术属性】
技术研发人员：何伟，李小超，谢水庚，冀天宇，郝志强，
申请(专利权)人：北京航天云路有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人