一种行业知识图谱的多源构建方法技术

技术编号:32568943 阅读:16 留言:0更新日期:2022-03-09 16:55
本发明专利技术公开了一种行业知识图谱的多源构建方法,该多源构建方法包括以下步骤:S1针对开放知识库、在线百科、行业文本、行业结构数据四类知识来源,提取行业概念和实体;S2合并同义概念和实体;S3提取概念的上下位关系;S4提取概念和实体的非上下位及属性关系。该多源构建方法能够解决现有构建方法人为工作量大、耗费大量的计算机资源、碎片化信息过多、数据不完整、难以对不同来源的知识区别提取和融合的问题,从而达到根据数据来源不同,采用针对性的策略构建目标本体、抽取实体和属性,兼顾了不同来源知识的特点,结合机器学习方法对知识图谱进行半自动构建,在确保准确的同时大大减少了大规模知识图谱构建所耗费的人力的目的。少了大规模知识图谱构建所耗费的人力的目的。少了大规模知识图谱构建所耗费的人力的目的。

【技术实现步骤摘要】
一种行业知识图谱的多源构建方法


[0001]本专利技术涉及人工智能的文本处理
,具体来说,涉及一种行业知识图谱的多源构建方法。

技术介绍

[0002]行业知识图谱中蕴涵着海量结构信息,因常用于分析应用或决策支持,通常对准确度要求较高。大规模知识图谱的构建包括两种方式,分别是与数据库与网络百科同步。第一种方法是运用存储知识图谱的特定结构,下载大量的数据,由人工整合后采用子图融合的方式进行构建。这种方式人为工作量大,耗费大量的计算机资源,并且在构建过程中保证不了数据的安全。第二种方法是采用网络爬虫,对相关类似信息进行数据采集和信息提取,这样做的问题在于大量的网页处理导致碎片化信息过多,并且大多数网站具有封锁爬虫的性能使得数据不完整。而对于多源知识图谱,来源于行业文本、开放链数据集和知识库、百科中的知识有着不同的特征,已有构建方式难以对不同来源的知识区别提取和融合。

技术实现思路

[0003]针对相关技术中的上述技术问题,本专利技术提出一种行业知识图谱的多源构建方法,能够克服现有技术的上述不足。
[0004]为实现上述技术目的,本专利技术的技术方案是这样实现的:一种行业知识图谱的多源构建方法,包括以下步骤:S1针对开放知识库、在线百科、行业文本、行业结构数据四类知识来源,提取行业概念和实体;S2合并同义概念和实体;S3提取概念的上下位关系;S4提取概念和实体的非上下位及属性关系。
[0005]进一步的,所述S1包括以下步骤:S11搜集已有开放链接数据集和开放知识库中行业核心概念和实体,所述开放链接数据集和开放知识库包括DBPedia、YAGO、Zhishi.me三种;S12搜集维基百科、百度百科、互动百科中分类系统的类别标签作为概念,百科文章的标题作为实体的候选,并将在线百科中对应的简介文本作为概念或实体的摘要;S13对行业文本语料采用词频统计、RAKE、TextRank、TF

IDF方法找出关键词集合,通过行业专家辅助从中初步筛选出行业核心概念;S14对行业结构数据,通过D2R Server工具,将关系数据库中的相关表和表中的列分别映射为概念的实体和实体的属性;S15对上述S11

S14中四个途径获取的行业概念和实体进行整合。
[0006]进一步的,所述S2包括以下步骤:S21开放链接数据中的同义关系明确,DBPedia中使用『owl:sameAs』标识同义实
体,YAGO中使用『means』标识同义实体,Zhishi.me中使用『pageRedirects』标识同义实体的重定向页面;S22在线百科方面,将同一在线百科中学习到的概念进行合并,遍历百科中的实体页面,把具有同一重定向标记的页面标题标识为同一实体,将实体页面信息中『别称』、『中文别称』字段对应的值标识为同一实体;判断不同在线百科同名实体之间是否同义:对于不同在线百科中的页面文章,标题相同时,文章内容相似度超过80%的文章标识为同一实体或概念对应的页面,文章标题对应的实体或概念标记为同义;S23抽取行业文本同义关系:行业文本方面,首先,定义『X又名Y』、『X又叫Y』、『X又称Y』、『X也名Y』、『X也叫Y』、『X也称Y』、『X亦称Y』、『X也叫做Y』、『X也叫作Y』、『X也称为Y』、『X又称为Y』、『X简称Y』、『X俗称Y』、『X原名Y』、『X是Y的同义词』、『X是Y的近义词』、『X古称Y』、『X是Y的简称』、『X的同义词是Y』、『X(Y)』、『X又被叫作Y』、『X又被称作Y』、『X又被称为Y』、『X也被叫作Y』、『X也被称作Y』『X也被称为Y』为描述同义关系的句式规则,根据这些规则在行业文本中进行匹配,抽取实体或概念间的同义关系,然后,通过NLP工具对文本进行分词和词性标注,根据已经提取的同义关系得到训练数据,用BiLSTM

CRF算法进行建模,抽取其中的同义关系;S24将上述S21

S23中三个途径得到的同义关系进行合并,不同途径得到的同义关系中有相同概念或实体,则合并两个同义关系。
[0007]进一步的,所述S22中文章内容相似度是通过无监督学习方法得到,由word2vec算法得到所有词的向量表示,对于任意一篇文章,以文本每个词的tf

idf为权重,对文章中所有词的词向量加权平均,作为文章的向量,再将向量间的余弦相似度作为文章相似度。
[0008]进一步的,所述S3包括以下步骤:S31从开放链接数据集和开放知识库中根据对应规则提取行业核心概念间的上下位关系;S32从百科分类体系中直接获取核心概念间的上下位关系;S33抽取行业文本上下位关系:对于行业文本,首先,定义『X是一种Y』、『X是一个Y』、『X是一类Y』、『X如Y、Z等』、『X包括Y、Z等』、『X有Y、Z等』、『X指Y、Z等』、『X(Y、Z)』为描述上下位关系的句式规则,根据这些模式在行业文本中进行匹配,抽取实体或概念间的上下位关系,然后,通过NLP工具对文本进行分词和词性标注,根据已经提取的上下位关系得到训练数据,用BiLSTM

CRF算法进行建模,抽取其中的上下位关系三元组;S34对上述S31

S33中三个途径获取的上下位关系进行整合,构造分类树。
[0009]进一步的,所述S4包括以下步骤:S41从开放链数据的信息模块中可直接提取概念的属性关系;S42编写适配器,从在线百科的信息模块中通过页面解析抽取概念的实体属性关系,对概念所属实体的属性进行统计,一个概念对应实体拥有某属性的数量占比超过30%,则认为该属性较为常见,成为概念的属性;S43抽取行业文本非上下位关系:行业文本方面,首先,在行业专家的辅助下定义描述非上下位关系的常见句式规则,根据这些规则在行业文本中进行匹配,抽取实体或概念间的非上下位关系,然后,通过NLP工具对文本进行分词和词性标注,根据已经提取的非
上下位关系得到训练数据,用BiLSTM

CRF算法进行建模,抽取其中的非上下位关系;S44最终将上述S41

S43中三个途径得到的非上下位关系进行合并。
[0010]本专利技术的有益效果:本专利技术的行业知识图谱的多源构建方法能够解决现有构建方法人为工作量大、耗费大量的计算机资源、碎片化信息过多、数据不完整、难以对不同来源的知识区别提取和融合的问题,从而达到根据数据来源不同,采用针对性的策略构建目标本体、抽取实体和属性,兼顾了不同来源知识的特点,结合机器学习方法对知识图谱进行半自动构建,在确保准确的同时大大减少了大规模知识图谱构建所耗费的人力的目的。
附图说明
[0011]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0012]图1是根据本专利技术实施例所述的行业知识图谱的多源构建方法的流程图;图2是本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种行业知识图谱的多源构建方法,其特征在于,包括以下步骤:S1针对开放知识库、在线百科、行业文本、行业结构数据四类知识来源,提取行业概念和实体;S2合并同义概念和实体;S3提取概念的上下位关系;S4提取概念和实体的非上下位及属性关系。2.根据权利要求1所述的行业知识图谱的多源构建方法,其特征在于,所述S1包括以下步骤:S11搜集已有开放链接数据集和开放知识库中行业核心概念和实体,所述开放链接数据集和开放知识库包括DBPedia、YAGO、Zhishi.me三种;S12搜集维基百科、百度百科、互动百科中分类系统的类别标签作为概念,百科文章的标题作为实体的候选,并将在线百科中对应的简介文本作为概念或实体的摘要;S13对行业文本语料采用词频统计、RAKE、TextRank、TF

IDF方法找出关键词集合,通过行业专家辅助从中初步筛选出行业核心概念;S14对行业结构数据,通过D2R Server工具,将关系数据库中的相关表和表中的列分别映射为概念的实体和实体的属性;S15对上述S11

S14中四个途径获取的行业概念和实体进行整合。3.根据权利要求1所述的行业知识图谱的多源构建方法,其特征在于,所述S2包括以下步骤:S21开放链接数据中的同义关系明确,DBPedia中使用『owl:sameAs』标识同义实体,YAGO中使用『means』标识同义实体,Zhishi.me中使用『pageRedirects』标识同义实体的重定向页面;S22在线百科方面,将同一在线百科中学习到的概念进行合并,遍历百科中的实体页面,把具有同一重定向标记的页面标题标识为同一实体,将实体页面信息中『别称』、『中文别称』字段对应的值标识为同一实体;判断不同在线百科同名实体之间是否同义:对于不同在线百科中的页面文章,标题相同时,文章内容相似度超过80%的文章标识为同一实体或概念对应的页面,文章标题对应的实体或概念标记为同义;S23抽取行业文本同义关系:行业文本方面,首先,定义『X又名Y』、『X又叫Y』、『X又称Y』、『X也名Y』、『X也叫Y』、『X也称Y』、『X亦称Y』、『X也叫做Y』、『X也叫作Y』、『X也称为Y』、『X又称为Y』、『X简称Y』、『X俗称Y』、『X原名Y』、『X是Y的同义词』、『X是Y的近义词』、『X古称Y』、『X是Y的简称』、『X的同义词是Y』、『X(Y)』、『X又被叫作Y』、『X又被称作Y』、『X又被称为Y』、『X也被叫作Y』、『X也被称作Y』『X也被称为Y』为描述同义关系的句式规则,根据这些规则在行业文本中进行匹配,抽取实体或概念间的同义关系,然...

【专利技术属性】
技术研发人员:何伟李小超谢水庚冀天宇郝志强
申请(专利权)人:北京航天云路有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1