一种融合信息获取和三元组抽取的知识图谱构建方法技术

技术编号:33087790 阅读:68 留言:0更新日期:2022-04-15 10:55
本发明专利技术涉及一种融合信息获取和三元组抽取的知识图谱构建方法,包括以下步骤:S1:定时利用爬虫技术从指定的网页中爬取海洋相关的包括新闻在内的文本内容;S2:利用自然语言处理工具对文本内容进行实体抽取及关系抽取,得到新闻的三元组,之后将新闻的三元组存储进数据库中;S3:根据数据库中的三元组构建知识图谱,并在数据浏览器中实现知识图谱的可视化;S4:根据可视化的知识图谱获取知识的关联。上述方案中,融合了信息获取和三元组抽取来构建知识图谱,将整个流程构建成为一个端到端的任务,减少用户使用成本;构建出海洋知识图谱,进而从零散数据中发现知识,挖掘事物的关联性,帮助组织机构做出指导性的决策。帮助组织机构做出指导性的决策。帮助组织机构做出指导性的决策。

【技术实现步骤摘要】
一种融合信息获取和三元组抽取的知识图谱构建方法


[0001]本专利技术涉及领域,更具体地,涉及一种融合信息获取和三元组抽取的知识图谱构建方法。

技术介绍

[0002]随着全球一体化的持续推进,更好更快的发展海洋产业一直以来都是国家的首要战略目标。而海洋产业作为一个宽泛的领域,其中包含海洋渔业、海洋经济、海洋军事、海洋环保等等的产业方向。由于各产业之间既存在着一定的联系,但又由于各自的特点存在一定的差异,所以各产业之间如何做到信息贯通与联动利用,就成为了发展海洋产业的一个瓶颈。伴随着技术的发展,知识图谱作为一种揭示知识领域的动态发展规律,为学科研究提供切实的、有价值的参考的工具,渐渐进入了人们的视野。现阶段,关于海洋产业知识库的工作由于其信息的专业性导致还基本处于空白,因此构建一个新兴海洋产业大规模语义知识库就成为了需要。
[0003]知识图谱是真实世界的语义表示,其中每一个节点代表实体,连接节点的边则对应实体之间的关系,异构数据通过整合表达为知识,所谓知识就是点或边对应的信息。知识图谱用关系来组织所有的实体,形成有向图结构,而图的表达映本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种融合信息获取和三元组抽取的知识图谱构建方法,其特征在于,包括以下步骤:S1:定时利用爬虫技术从指定的网页中爬取海洋相关的包括新闻在内的文本内容;S2:利用自然语言处理工具对文本内容进行实体抽取及关系抽取,得到新闻的三元组,之后将新闻的三元组存储进数据库中;S3:根据数据库中新闻的三元组构建知识图谱,并在数据浏览器中实现知识图谱的可视化;S4:根据可视化的知识图谱获取知识的关联。2.根据权利要求1所述的一种融合信息获取和三元组抽取的知识图谱构建方法,其特征在于,步骤S1包括以下步骤:S11:设置目标爬虫地址,对网站的html语言进行简单解析,按照模板完成爬虫的框架,得到新闻;S12:根据新闻的URL作为标识在数据库中进行查找,以此来判断该新闻是否重复;S13:为了简化简化用户操作,设定定时功能,使得爬虫程序按照用户的设置定期爬取指定网站的新闻。3.根据权利要求2所述的一种融合信息获取和三元组抽取的知识图谱构建方法,其特征在于,在步骤S12中,初始数据集的构建和爬取指定类型的新闻及其始末页在爬取到重复新闻时,跳过本条新闻,继续下一条新闻;当爬取到重复新闻时,说明该新闻类型的二级网址已经爬取完成,之后进行下一个类型的二级网址爬取。4.根据权利要求3所述的一种融合信息获取和三元组抽取的知识图谱构建方法,其特征在于,步骤S2包括以下步骤:S21:构建关系三元组数据表,对字段进行解析并存储;S22:在读取在信息获取阶段所获得的位于数据库的数据时,首先读取新闻标题字段的数据进缓存中,对已经读取进缓存的新闻标题进行词性标注;S23:对新闻的句子进行句法分析,为句子中的每个词语维护一个保存句法依存儿子节点的字典;S24:利用S21和S22的结果对句子进行语义分析并对语义角色进行标注;S25:借助S21,S22和S23的结果进行三元组抽取;S26:筛选掉重复的三元组关系并用正则表达式去掉意义的标点符号,随后将三元组写入三元组表中,并将新闻的三元组存储至数据库中。5.根据权利要求4所述的一种融合信息获取和三元组抽取的知识图谱构建方法,其特征在于,在步骤S22中,在三元组抽取前先检查该数据是否已经被抽取,若已经被抽取,则跳过;若没被抽取,则利用自然语言处理平台进行分词处理,而分词就是将连续的字序列按照一定的规范重新组合成词序列的过程;词性标注是是语料库语言学中将语料库内单词的词性按其含义和上下文内容进行标记的文本数据处理技术。6.根据权利要求5所述的一种融合信息获取和三元组抽取的知识图谱构建方法,其特征...

【专利技术属性】
技术研发人员:程良伦叶海明张伟文
申请(专利权)人:广东工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1