一种基于中文文本的水务领域知识图谱构建方法技术

技术编号:19745335 阅读:36 留言:0更新日期:2018-12-12 04:45
本发明专利技术公开了一种基于中文文本的水务领域知识图谱构建方法,包括在网上爬取大量水务文本,利用jieba分词进行中文文本分词,利用stopwords去词表去除分词后文本的停用词,利用TF‑IDF方法获取每个概念词的权重,设置一个阈值,保留大于阈值的概念词组成水务概念词库。然后根据与CN‑Dbprdia接口连接,获取水务概念词的上级概念,建立结构化水务知识图谱。接着水务结构化知识图谱挂接水务结构化数据库表以及水务文本,完成最终的水务知识图谱的构建。最后运用评估方法对挂接方法进行评估。本发明专利技术通过结合不同知识图谱构建方法,充分考虑了知识图谱之间的多种类型数据进行融合,能够提高水务知识图谱构建的效率,提高水务知识图谱的完整性以及准确性。

【技术实现步骤摘要】
一种基于中文文本的水务领域知识图谱构建方法
本专利技术涉及知识图谱构建
,涉及一种基于中文文本的水务领域知识图谱构建方法,特别涉及一种基于TF-IDF权重计算方法、CN-Dbpedia等级关系组建方法以及编辑距离和LDA相似度计算挂接方法的水务文本领域知识图谱构建方法。
技术介绍
目前调研知识图谱构建主要包含技术有:1)数据模式层融合:概念合并,概念上下位关系合并,概念的属性合并,国内外研究学者在这些方面做出了很多贡献。国内知识图谱映射技术主要包括词典wordnet、结构和基于实例的方法,以及使用背景知识和以前的知识找到匹配结果输出。通常,两个相关知识图谱的匹配,输出是由匹配知识图谱概念之间的对应关系组成的知识图谱映射,知识图谱映射对于知识图谱演化和不同的信息集成是有用的,例如知识图谱集成。中国中南大学的Lily知识图谱映射系统在近几年发展较好。国外许多著名的大学和实验室都对知识图谱映射进行了相关的研究,已经开发出一些具体的映射系统和实现方法,如华盛顿大学研究的Glue系统的基于概念实例的方法,斯坦福大学的知识图谱代数方法,马里兰大学的语义消解方法,M.Andrew等提出的利用概念定义的方法,Karlsruhe大学的KAON工程中的知识图谱映射框架MAFRA。JuanziLi等人针对知识图谱对齐提出的Rimom框架,通过自动组合多种策略提高效果。DanielFaria在2015年的OAEI中参赛的AML知识图谱映射系统就是基于知识图谱概念的知识图谱映射系统。RanaForsati等人提出了一种基于知识图谱映射(HSOMAP)的方法等等;2)数据层融合:实体合并、实体属性合并、冲突检测与解决,国外AidanHogan等人对于大规模,静态的关联数据预料库,讨论了实体整合的可扩展和分布式方法。但是这些方法应用于中文文本的水务领域知识图谱构建效果不佳。
技术实现思路
有鉴于上述现有技术的不足,本专利技术的目的在于提供一种基于中文文本的水务领域知识图谱构建方法,旨在解决智慧水务信息融合的问题。本专利技术解决其技术问题所采取的技术方案是:一种中文文本的水务领域知识图谱构建方法,该方法主要包括如下步骤:步骤1:在java系统中构建水务概念词库,将构建的词库放入word文本中。步骤2:将构建好的水务概念词库放入mysql数据库中构建概念层次关系,并对不合理的信息进行修改。步骤3:构建好的概念层次关系在protégé系统中实现可视化并挂接水务数据库表以及水务文本,得到最终的水务领域知识图谱。进一步的,本专利技术步骤1所述的构建水务概念词库的方法,其步骤具体包括:步骤1-1:使用python从水务博客以及水务文档中爬取一些水务文本。步骤1-2:用python中的jieba工具对抽取的水务文本进行文本分词。步骤1-3:用python中的stopwords工具对分词后的文本进行停用词去除,组成水务相关概念词。步骤1-4:用TF-IDF方法对水务相关概念词分别进行权重计算,设置一个权重阈值,保留权重大于阈值的概念词。进一步的,本专利技术步骤2所述的构建概念层次关系的方法,其步骤具体包括:步骤2-1:输出的概念词与CN-Dbpedie接口连接,提取出概念词的上级词汇,构建概念的等级结构层次关系,并保存到数据库中,根据备选概念词和专家知识对概念等级结构进行修改。步骤2-2:用jena工具将保存到数据库中的概念信息表写成owl文件。进一步的,本专利技术步骤3所述的在protégé中实现可视化并挂接水务信息的方法,其步骤具体包括:步骤3-1:将owl文件导入到protégé软件中,实现水务领域知识图谱的可视化。步骤3-2:运用语义相似度算法挂接水务结构化数据库表以及非结构化水务文本,以完善水务领域知识图谱,形成最终的水务知识图谱。进一步的,本专利技术步骤1-4所述的用TF-IDF选取水务相关概念词方法,其步骤具体包括:步骤1-4-1:计算词语ti的词频其中ni,j是词语ti在文档dj中出现的次数,∑knk,j是在文档dj中所有字词的出现次数之和。步骤1-4-2:计算逆向文件频率其中|D|为语料库中的文档总数,|{j:ti∈dj}|为包含该词的文档数。步骤1-4-3:计算tf-idf值:TF-IDFi,j=TFi,j×IDFi。步骤1-4-4:令i=i+1重复前四步,计算出所有文档中每个词的tf-idf值。步骤1-4-5:根据概念词权重值情况设定一个阈值,保留权重大于阈值的概念词。进一步的,本专利技术步骤3-2所述的运用语义相似度算法挂接水务结构化数据库表以及非结构化水务文本,其步骤具体包括:步骤3-2-1:分别用编辑距离算法、Jaccard算法以及欧氏距离算法计算结构化数据库表与水务知识图谱概念词之间的相似度。步骤3-2-2:分别用TF-IDF+余弦相似度算法、LSI算法以及LDA算法计算水务文本与水务知识图谱概念词之间的相似度。步骤3-2-3:分别计算结构化数据库表以及水务文本挂接算法结果的查准率P、召回率R以及精确值和召回率的调和均值F,以评估算法,计算公式分别如下:查准率:召回率:精确值和召回率的调和均值:步骤3-2-4:选取评估结果最好的一种结构化数据库表挂接算法以及一种非结构化水务文本的挂接算法,分别在水务知识图谱中对这两种数据进行挂接,得到最终完善的水务知识图谱。本专利技术能够应用于水务领域知识图谱的构建。有益效果:1.本专利技术在水务概念词抽取阶段,面对大量水务博客信息以及水务文本,能够抽取大量特定的水务概念词,为水务知识图谱的构建打下坚实的基础。2.本专利技术在水务概念词层次结构关系构建阶段,根据概念词在CN-Dbpedia中的上位类型信息,可以得到该概念词对应的上级概念,解决了水务知识图谱层次关系方面构建的难题。3.本专利技术在水务领域知识图谱完善阶段,挂接大量水务结构化数据库表以及非结构化的文本,对水务知识图谱做内容上的补充。附图说明图1为本专利技术一种基于中文文本的水务领域知识图谱构建方法的流程图。图2为步骤4的具体流程图。图3为步骤8的具体流程图。图4以及图5为步骤8-3的结果图。图6为水务领域知识图谱部分展开图。具体实施方式本专利技术提供一种基于中文文本的水务领域知识图谱构建方法,为使本专利技术的目的、技术方案及效果更加清楚、明确,以下对本专利技术进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。请参阅图1。图1为本专利技术一种一种基于中文文本的水务领域知识图谱构建方法较佳实施例的流程图,如图所示,其实施步骤,包括如下:步骤1:在java系统中构建水务概念词库,将构建的词库放入word文本中。步骤2:将构建好的水务概念词库放入mysql数据库中构建概念层次关系,并对不合理的信息进行修改。步骤3:构建好的概念层次关系在protégé系统中实现可视化并挂接水务数据库表以及水务文本,得到最终的水务领域知识图谱。由图4可以看出,基于编辑距离算法的挂接结构化数据库表的准确率、召回率以及F值都是最高的。由图5可以看出,虽然LDA算法的召回率没有LSI算法高,但是其准确率以及F值比其它两种算法都搞。所以结合两种结果可以看出本专利技术提出的结构化数据库表以及水务文本的挂接算法对于水务知识图谱的完善具有较好的效果。应当理解的是,本专利技术的应用不限本文档来自技高网
...

【技术保护点】
1.一种中文文本的水务领域知识图谱构建方法,其特征在于:该方法主要包括如下步骤:步骤1:在java系统中构建水务概念词库,将构建的词库放入word文本中;步骤2:将构建好的水务概念词库放入mysql数据库中构建概念层次关系,并对不合理的信息进行修改;步骤3:构建好的概念层次关系在protégé系统中实现可视化并挂接水务数据库表以及水务文本,得到最终的水务领域知识图谱。

【技术特征摘要】
1.一种中文文本的水务领域知识图谱构建方法,其特征在于:该方法主要包括如下步骤:步骤1:在java系统中构建水务概念词库,将构建的词库放入word文本中;步骤2:将构建好的水务概念词库放入mysql数据库中构建概念层次关系,并对不合理的信息进行修改;步骤3:构建好的概念层次关系在protégé系统中实现可视化并挂接水务数据库表以及水务文本,得到最终的水务领域知识图谱。2.根据权利要求1所述的一种中文文本的水务领域知识图谱构建方法,其特征在于:步骤1所述的构建水务概念词库的方法,其步骤具体包括:步骤1-1:使用python从水务博客以及水务文档中爬取一些水务文本;步骤1-2:用python中的jieba工具对抽取的水务文本进行文本分词;步骤1-3:用python中的stopwords工具对分词后的文本进行停用词去除,组成水务相关概念词;步骤1-4:用TF-IDF方法对水务相关概念词分别进行权重计算,设置一个权重阈值,保留权重大于阈值的概念词。3.根据权利要求1所述的一种中文文本的水务领域知识图谱构建方法,其特征在于:步骤2所述的构建概念层次关系的方法,其步骤具体包括:步骤2-1:输出的概念词与CN-Dbpedie接口连接,提取出概念词的上级词汇,构建概念的等级结构层次关系,并保存到数据库中,根据备选概念词和专家知识对概念等级结构进行修改;步骤2-2:用jena工具将保存到数据库中的概念信息表写成owl文件。4.根据权利要求1所述的一种中文文本的水务领域知识图谱构建方法,其特征在于:步骤3所述的在protégé中实现可视化并挂接水务信息的方法,其步骤具体包括:步骤3-1:将owl文件导入到protégé软件中,实现水务领域知识图谱的可视化;步骤3-2:运用语义相...

【专利技术属性】
技术研发人员:吕田田闫健卓
申请(专利权)人:北京工业大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1