一种基于DBpedia的水务领域概念知识图谱构建方法技术

技术编号:21399102 阅读:23 留言:0更新日期:2019-06-19 07:01
本发明专利技术公开了一种基于DBpedia的水务领域概念知识图谱构建方法,该方法主要包括如下步骤:在java系统中构建水务概念词库,将构建好的水务概念词库放入word中。以概念词库作为种子,获取DBpedia中获取与水务相关的实体、概念及其之间的关系,构建水务概念知识图谱。构建好的概念知识图谱在protégé系统中实现可视化,修改现有的概念知识图谱,得到最终的水务领域概念知识图谱。本发明专利技术在水务实体、概念词抽取阶段,从大量的非结构文本中,能够抽取大量特定的水务实体、概念词,为水务知识图谱的构建打下坚实的基础。本发明专利技术将初步抽取的词汇进行了精确的筛选及关系的合并,并将获取的实体、概念关系作为现有知识图谱的补充,提供了一种知识图谱补全的方法。

【技术实现步骤摘要】
一种基于DBpedia的水务领域概念知识图谱构建方法
本专利技术涉及的是领域知识图谱构建
,涉及到一种基于DBpedia的水务领域概念知识图谱构建方法,特别涉及到一种基于Jaccard相似度算法与随机游走相似度算法结合的协同过滤模型框架,用于补全概念模型的一套水务领域概念知识图谱构建方法。
技术介绍
目前调研领域知识图谱构建技术主要包括:1)知识融合:很多领域知识图谱的应用的方案都是建立在通用知识图谱的基础之上的,通用知识图谱可以为很多的领域知识图谱提供种子事实,目前有很多的通用知识图谱,比如复旦大学的通用百科知识图谱CN-DBpedia和概念图谱CN-Probase,基于维基百科页面结构化知识的DBpedia、YAGO。国内外对与从通用实体、概念的获取研究技术一般采用迭代的原理进行循环获取,即远程监督的方式,通过API端口,获取通用知识图谱中的领域种子实体,通过这些种子从语料中获取更多的实体,再以此实体作为种子,从通用知识图谱中获取相关的实体。概念合并,概念上下位关系合并,概念的属性合并,国内外研究学者在这些方面做出了很多贡献。国内知识图谱映射技术主要包括词典wordnet、结构和基于实例的方法,以及使用背景知识和以前的知识找到匹配结果输出。2)数据处理:数据来源通常是来自于领域百科爬取、通用百科导出、业务系统导出等,对与词汇挖掘、实体发现、关系发现的研究,国内外学者做出了很多贡献。比如对与实体关系的抽取,目前国内外主要具有成果性的技术有:基于Rule的关系抽取、基于bootstrapping的关系抽取等。目前针对水务领域的概念知识图谱研究较少,关于这些技术还没有真正的得到落实,有些也不适用与水务领域,因此本专利技术构建水务概念知识图谱的方法对与其它领域可以提供一些指导。
技术实现思路
有鉴于上述现有技术的不足,本专利技术的目的在于提供一种基于DBpedia的水务领域概念知识图谱构建方法,旨在解决水务领域概念知识图谱构建的知识补全的问题。本专利技术解决其技术问题所采取的技术方案是:一种基于DBpedia的水务领域知识图谱构建方法,该方法主要包括如下步骤:步骤1:在java系统中构建水务概念词库,将构建好的水务概念词库放入word中。步骤2:以概念词库作为种子,获取DBpedia中获取与水务相关的实体、概念及其之间的关系,构建水务概念知识图谱。步骤3:构建好的概念知识图谱在protégé系统中实现可视化,修改现有的概念知识图谱,得到最终的水务领域概念知识图谱。进一步的,本专利技术步骤1所述的构建水务概念词库的方法,其步骤具体包括:步骤1-1:借助水务专家知识、相关水务分类标准、Wordnet词典初步获取概念词。步骤1-2:使用python从贴吧、博客以及水务文档中爬取一些水务文本。步骤1-3:用python中的jieba工具对抽取的水务文本进行文本分词。步骤1-4:用python中的stopwords工具对分词后的文本进行停用词去除,组成水务相关实体、概念词。步骤1-5:用TF-IDF方法对水务相关实体、概念词分别进行权重计算,设置一个权重阈值,保留权重大于阈值的实体、概念词。进一步的,本专利技术步骤2所述的获取DBpedia中与水务相关的实体与概念的方法,其步骤具体包括:步骤2-1:输出的实体词,通过DBpedia的接口,分别找到其上位概念、下位概念的集合,通过Jaccard相似度算法,两个集合重叠度越高,实体越相似,若相似度高于一个设定的阈值,最后的实体作为我们的最终的候选实体。步骤2-2:利用随机游走相似度的方法,以输出的实体为起点,在DBpedia知识库中先得到上位/下位方向随机游走后落到每一个节点的概率向量,然后计算两个向量的Cosine相似度。我们设定步数为2步,最后得到两个实体的相似度值。步骤2-3:综合考虑以上两种方法,我们采用一种合并相似度算法,找到实体的前5个最相似的实体,确定实体集。步骤2-4:通过DBpedia,找到实体集相关的上/下位概念,及其他们之间的等级关系,并将相似的实体进行归类,将其存储到Mysql数据库中。根据从DBpedia中筛选的实体、概念词和专家知识对概念等级结构进行修改。步骤2-5:用jena工具将保存到数据库中的概念信息表写成owl文件。进一步的,本专利技术步骤3所述的在protégé中实现可视化并挂接水务信息的方法,其步骤具体包括:步骤3-1:将owl文件导入到protégé软件中,实现水务领域知识图谱的可视化。进一步的,本专利技术步骤2所述的用相似度算法寻找水务相关实体方法,其算法步骤具体包括:步骤2-1:Jaccard相似度通用公式为首先分别计算两个实体/概念c1和c2的上/下位概念集合的Jaccard相似度je和jo,je(c1,c2)=Jacc(hype(c1),hype(c2)),jo(c1,c2)=Jacc(hype(c1),hype(c2)),其中hype(c1)、hype(c2)分别为两个实体/概念c1和c2对应的概念集合。最后使用noisy-or合并je、jo,得到最终的两个实体/概念的相似度值为jacc(c1,c2)=1-(1-je(c1,c2))·(1-jo(c1,c2))。步骤2-2:首先计算实体/概念c的随机游走向量其中i为结束的节点数,M为权重值,一般的情况设置i值为2。其次计算两个实体c1和c2随机游走向量的Cosine相似度与分别代表实体c1和c2的随机游走向量。步骤2-3:计算合并相似度β为可调参数。本专利技术能够应用于水务领域概念知识图谱的构建。与现有技术相比较,本专利技术具有如下有益效果:1.本专利技术在水务实体、概念词抽取阶段,从大量的非结构文本中,能够抽取大量特定的水务实体、概念词,为水务知识图谱的构建打下坚实的基础。2.本专利技术通过一定的技术方法,从DBpedia知识库中归类出水务领域的实体与概念,并将初步抽取的词汇进行了精确的筛选及关系的合并,并将获取的实体、概念关系作为现有知识图谱的补充,提供了一种知识图谱补全的方法。附图说明图1为本专利技术一种基于DBpedia的水务领域知识图谱构建方法的流程图。图2为步骤2的具体流程图。图3为水务领域概念知识图谱部分展开图。具体实施方式本专利技术提供一种基于DBpedia的水务领域概念知识图谱构建方法,为使本专利技术的目的、技术方案及效果更加清楚、明确,以下对本专利技术进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。请参阅图1。图1为本专利技术一种一种基于DBpedia的水务领域概念知识图谱构建方法较佳实施例的流程图,如图所示,其实施步骤,包括如下:步骤1:在java系统中构建水务概念词库,将构建好的水务概念词库放入word中。步骤2:以概念词库作为种子,获取DBpedia中获取与水务相关的实体、概念及其之间的关系,构建水务概念知识图谱。步骤3:构建好的概念知识图谱在protégé系统中实现可视化,修改现有的概念知识图谱,得到最终的水务领域概念知识图谱。图2中本专利技术所采用的相似度计算方法都有各自的优势,在实验中依据实体数据量的大小进行搭配使用,其中Jaccard算法在实验中较为简单,但准确率相对较低,适合概念集相对较少的时候使用,合并相似度算法较为复杂,但是准确率会相对较高,适合本文档来自技高网
...

【技术保护点】
1.一种基于DBpedia的水务领域知识图谱构建方法,其特征在于:该方法包括如下步骤,步骤1:在java系统中构建水务概念词库,将构建好的水务概念词库放入word中;步骤2:以概念词库作为种子,获取DBpedia中获取与水务相关的实体、概念及其之间的关系,构建水务概念知识图谱;步骤3:构建好的概念知识图谱在protégé系统中实现可视化,修改现有的概念知识图谱,得到最终的水务领域概念知识图谱。

【技术特征摘要】
1.一种基于DBpedia的水务领域知识图谱构建方法,其特征在于:该方法包括如下步骤,步骤1:在java系统中构建水务概念词库,将构建好的水务概念词库放入word中;步骤2:以概念词库作为种子,获取DBpedia中获取与水务相关的实体、概念及其之间的关系,构建水务概念知识图谱;步骤3:构建好的概念知识图谱在protégé系统中实现可视化,修改现有的概念知识图谱,得到最终的水务领域概念知识图谱。2.根据权利要求1所述的一种基于DBpedia的水务领域知识图谱构建方法,其特征在于:步骤1所述的构建水务概念词库的方法,其步骤具体包括,步骤1-1:借助水务专家知识、相关水务分类标准、Wordnet词典初步获取概念词;步骤1-2:使用python从贴吧、博客以及水务文档中爬取一些水务文本;步骤1-3:用python中的jieba工具对抽取的水务文本进行文本分词;步骤1-4:用python中的stopwords工具对分词后的文本进行停用词去除,组成水务相关实体、概念词;步骤1-5:用TF-IDF方法对水务相关实体、概念词分别进行权重计算,设置一个权重阈值,保留权重大于阈值的实体、概念词。3.根据权利要求1所述的一种基于DBpedia的水务领域知识图谱构建方法,其特征在于:步骤2所述的获取DBpedia中与水务相关的实体与概念的方法,其步骤具体包括:步骤2-1:输出的实体词,通过DBpedia的接口,分别找到其上位概念、下位概念的集合,通过Jaccard相似度算法,两个集合重叠度越高,实体越相似,若相似度高于一个设定的阈值,最后的实体作为我们的最终的候选实体;步骤2-2:利用随机游走相似度的方法,以输出的实体为起点,在DBpedia知识库中先得到上位/下位方向随机游走后落到每一个节点的概率向量,然后计算两个向量的Cosine相似度;我们设...

【专利技术属性】
技术研发人员:高凯丽闫健卓
申请(专利权)人:北京工业大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1