一种茶叶知识图谱的构建方法技术

技术编号:34266000 阅读:36 留言:0更新日期:2022-07-24 14:56
本发明专利技术提供一种茶叶知识图谱的构建方法,其能够对茶叶产业中的命名实体进行识别,借助茶叶专家经验完成本体构建,结合双向长短时记忆网络及条件随机场模型,自动提取非结构化数据特征,提高知识抽取效率,构建出茶叶品种、茶叶产品、茶树生长环境、茶树育种、茶园建设、茶园修剪、鲜叶采摘等茶叶生产过程中13个环节的知识图谱,该构建方法包括如下步骤:建立茶叶领域知识图谱数据库;构建茶叶知识图谱本体,定义出每个二级图谱的实体、关系和属性;抽取数据,采用网络爬虫和数据解析的方式对半结构化数据进行抽取;采用BERT_B I LSTM_CRF模型对非结构化数据抽取;将抽取出来的实体、关系和属性作为实体关系三元组数据存入知识库内;储存、展示数据。展示数据。展示数据。

A construction method of tea knowledge map

【技术实现步骤摘要】
一种茶叶知识图谱的构建方法


[0001]本专利技术涉及知识图谱应用领域,具体而言,涉及一种茶叶知识图谱的构建方法。

技术介绍

[0002]知识图谱是一种结构化的语义知识库,用于描述客观世界中概念与实体间的关系,一般以“实体—关系—实体”的三元组形式表示。知识图谱擅于描述实体间的关系,将领域的异构知识结构化,很好的解决了领域内数据缺失、碎片化及孤岛化的问题,在医疗、互联网、金融等领域得到广泛使用。但是现有的农业方面构建出的图谱出现规模小,体系不完整,缺少自主演进手段等问题,且尚未有学者针对茶叶产业构建完整的知识图谱体系。
[0003]目前农业领域用于构建特定领域知识图谱的主要方法主要包括以下两类:
[0004]一是利用网络爬虫技术,以半结构化数据为主构建特定领域知识图谱。此类方法数据获取完全依赖于互联网已建成的行业百科网站,对于没有构建行业网站的特定领域则无法复制,方法普适性差、局限性强。且通过爬虫手段抽取的关系数据,只能获取网站数据的既定关系,无法对实体间未知关系进行预测,方法的智能化程度低,无法实现图谱的自主演进。
[本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种茶叶知识图谱的构建方法,其特征在于,所述构建方法包括如下步骤:建立茶叶领域知识图谱数据库,所述茶叶领域知识图谱数据库包括百科网站数据库、茶叶百科全书数据库组合构成的通用数据库,以及茶叶专家数据库构成的特定数据库,提取所述通用数据库和所述特定数据库中的半结构化数据和非结构化数据;构建茶叶知识图谱本体,根据所述茶叶领域知识图谱数据库构建出茶叶全生产过程的茶叶知识图谱,所述茶叶全生产过程的茶叶知识图谱包括13大类一级图谱,每一大类所述一级图谱下细分出多个二级图谱,同时定义出每个所述二级图谱的实体、关系和属性;抽取数据,采用网络爬虫和数据解析的方式对所述半结构化数据进行抽取;采用BERT_BILSTM_CRF模型对所述非结构化数据抽取;将抽取出来的实体、关系和属性作为实体关系三元组数据存入知识库内;储存和展示数据,利用D3.js可视化框架将数据可视化,并将形成的知识图谱存储于Neo4j图数据库中。2.根据权利要求1所述的茶叶知识图谱的构建方法,其特征在于,所述茶叶知识图谱的构建方法具体包括:将百科网站数据库和茶叶百科全书数据库中的数据相结合,利用双向长短时记忆网络及随机场模型提取茶叶产业文本信息的特征,同时借助茶叶专家数据库中的茶叶专家经验对茶叶产业三元组数据的抽取,形成茶叶知识图谱。3.根据权利要求1所述的茶叶知识图谱的构建方法,其特征在于,所述13大类一级图谱为:茶叶品种、茶叶产品、茶树生长环境、茶树育种、茶园建设、茶园水分管理、茶园耕作管理、茶园施肥、茶园修剪、鲜叶采摘、茶叶灾害防治技术、茶树病害和茶树虫害。4.根据权利要求1所述的茶叶知识图谱的构建方法,其特征在于,所述实体、关系和属性根据茶叶生长特性定义而成。5....

【专利技术属性】
技术研发人员:刘永波高文波陈春燕黄强何鹏许钰莎
申请(专利权)人:四川省农业科学院农业信息与农村经济研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1