一种基于BERT的水稻表型组学知识图谱关系提取方法及系统技术方案

技术编号:26422549 阅读:51 留言:0更新日期:2020-11-20 14:19
本发明专利技术公开了一种基于BERT的水稻表型组学知识图谱关系提取方法及系统,包括如下步骤:首先,使用植物本体论对于水稻表型组学数据进行关系分类,获得关系数据集;其次,将关系数据集转化为词向量、位置向量以及句子向量表示,输入BERT模型进行训练与测试,生成关系抽取模型;最后,将需要抽取的水稻表型组学文本与实体输入关系抽取模型,返回相应的关系,本发明专利技术构建了水稻表型组学专用数据集,使用多种向量表示作为输入,能够更好对句子内部以及句间关系特征进行提取,提升水稻表型组学知识图谱关系提取的效率和性能。

【技术实现步骤摘要】
一种基于BERT的水稻表型组学知识图谱关系提取方法及系统
本专利技术涉及一种水稻表型组学知识图谱关系提取方法及系统,尤其涉及一种基于BERT的水稻表型组学知识图谱关系提取方法及系统。
技术介绍
作为重要作物的水稻,其表型组学研究是植物生物学的研究热点,水稻表型数据的高通量以及其高维且海量的数据特征对于数据的快速检索和知识的有效提取提出了更高的技术要求。对于水稻表型组学实体之间的复杂关系进行提取到水稻表型组学知识图谱的构建。目前,在知识图谱中还缺乏专业的水稻表型组学关系提取相关的产品。如AgriKG等的农业领域的知识图谱仍然无法对于水稻的表型、环境、基因之间的关系进行有效的提取。上述的农业领域知识图谱缺乏针对水稻植物表型组学的关系提取功能,很难精确地提取水稻表型组学内部的关系与联系。
技术实现思路
专利技术目的:本专利技术的第一目的为提供一种能够有效将基因、环境、表型通过关系联系起来的基于BERT的水稻表型组学知识图谱关系提取方法,本专利技术的第二目的为提供该基于BERT的水稻表型组学知识图谱关系提取方法的系统。技术方案:本专利技术的种基于BERT的水稻表型组学知识图谱关系提取方法,包括如下步骤:(1)根据植物本体论将水稻表型组学关系数据集划分为isa、haspart、hasamorphologytrait、developfrom、participate、regulate和other;(2)将关系数据集进行词向量、位置向量以及段落向量的提取;(3)将词向量、位置向量以及段落向量输入到BERT预训练模型进行训练,建立关系抽取模型;(4)用户在关系抽取展示网站中输入句子以及句子中的实体,等待反馈;(5)Django框架中的视图函数在后端提取句子序列的词向量、位置向量以及段落向量,形成特征序列;(6)BERT关系抽取模型将特征序列作为模型输入,输出isa、haspart、hasamorphologytrait、developfrom、participate、regulate和other中概率最高的关系类型;(7)视图函数将后端关系类型名显示到网页前端中,如果用户已经登录,则记录用户的该条搜索记录。进一步地,步骤(1)中,数据格式为实体1-实体2-关系-句子。数据包含如下内容数据:术语名称、术语ID、术语定义、父术语和链接。将水稻表型组学关系数据划分为7种关系:(a)isa,用来表示父术语以及子术语之间的关系,表示A是B的子类型或亚型;(b)haspart,用来表示A物质的每个实例都有部分B的实例;(c)hasamorphologytrait,表示A通过B的形态特征表现出来;(d)developfrom,表示A从B发育而来,B的世系可以追溯到A;(e)participate,表示实体A的每个实例都参与开发B的某些实例;(f)regulate,A对B有调节或调控作用;(g)other,表示其它关系。步骤(3)中,BERT预训练模型使用Transformer的编码器来进行编码,编码器框架使用了层叠结构。对于输入的向量序列,BERT预训练模型使用具有双向自注意力机制的Transformer编码器来进行处理;在编码器输出后进入全连接层与激活函数构成的分类层,从而输出相应的关系概率。BERT预训练模型使用Softmax分类器来进行分类任务,关系分类的概率P的计算公式如下:P=softmax(CWT),式中,C为编码器的输出向量,W为分类层。步骤(7)中,使用Django框架来进行展示网页前端构建。Django框架使用MTV模式来完成前端以及后端的耦合。本专利技术的基于BERT的水稻表型组学知识图谱关系提取系统,包括提取特征向量模块、数据处理模块和网站,将水稻表型组学关系数据集载入到提取特征向量模块,数据处理模块模型根据提取的特征向量进行训练形成BERT关系抽取模型;用户在网站中输入句子以及句子中的两个实体;数据处理模块输出关系类型;网站显示关系类型名称。有益效果:与现有技术相比,本专利技术具有如下显著优点:(1)在水稻表型组学关系分类中引入植物本体论来作为分类依据,能够有效将基因、环境、表型通过关系联系起来,对于水稻表型组学数据进行分类;(2)使用词向量、位置向量以及段落向量三者结合的特征序列作为输入,相比传统的词向量以及位置向量作为输入能够更好的获取句子间的特征关系;(3)使用BERT的双向自注意力模型进行特征抽取,能够更好对于上下文的语义特征进行获取。附图说明图1为本专利技术的BERT的预处理示意图;图2为自注意力机制结构图;图3为BERT模型结构图;图4为系统处理流程;图5为各部件连接关系;图6为产品工作流程图。具体实施方式下面结合实施例对本专利技术的技术方案作进一步说明。一、数据集获取本专利技术的关系数据集主要来自两个部分,国家水稻数据中心以及维基数据中文语料库,使用到了Scrapy爬虫框架完成水稻数据中心本体系统以及维基关系数据集的网页爬取。在对水稻表型数据本体系统网站进行爬取之后,生成的水稻本体数据集中的每一条数据包含了五项内容数据:术语名称、术语ID、术语定义、父术语、链接。对维基百科属性关系网站进行爬取之后,获得了包含了两个实体以及关系的三元组,但是由于爬取的关系数据仅仅包含三元组,不包含句子,无法进行关系抽取模型的训练,还需要使用包含句子的语料库进行句子和实体的对齐,以获得包含句子的关系四元组。语料对齐可以分为两步:1)首先获取维基百科中文语料库,使用数据清洗工具WikiExtractor进行数据的清洗处理,去除其中的繁体字以及异常符号,生成简体中文的维基百科语料,每组语料包含一个标题实体以及包含这个实体的多个句子;2)将Neo4j数据库中的三元组与语料库中的句子进行对齐,获得了包含三元组中两个实体的句子。在以上处理完成之后,获得了能够进行关系分类处理的水稻表型组学数据,数据包括水稻表型本体系统部分以及维基百科语料库部分。在水稻表型组学数据的分类问题上,本文参照了植物本体论(PlantOntology)中对于植物表型组学的分类,通过关系分类将水稻的解剖结构,形态,生长发育与植物基因数据联系起来,对于水稻表型组学数据进行分类。本体指的是在某一领域内的实体与其相互间关系的形式化表达,作为一种能对于语义以及知识进行描述的工具,在知识图谱方面获得了应用。植物本体论描述了植物的内部解剖结构、外表形态结构等表型组学数据,并且提供了植物基因数据库,将基因、环境、表型通过关系联系起来。本文依据其分类规则,将水稻表型组学数据分为了7种分类:(1)isa,用来表示父术语以及子术语之间的关系,表示A是B的子类型或亚型。(2)haspart,用来表示A物质的每个实例都有一部分B的实例。(3)hasamorphologytrait,表本文档来自技高网...

【技术保护点】
1.一种基于BERT的水稻表型组学知识图谱关系提取方法,包括如下步骤:/n(1)根据植物本体论将水稻表型组学关系数据集划分不同关系,关系类型包括is a、has part、has a morphology trait、develop from、participate、regulate和other;/n(2)将所述关系数据集进行词向量、位置向量以及段落向量的提取;/n(3)将所述词向量、位置向量以及段落向量输入到BERT预训练模型进行训练,建立关系抽取模型;/n(4)用户在关系抽取展示网站中输入句子以及句子中的实体,等待反馈;/n(5)Django框架中的视图函数在后端提取句子序列的词向量、位置向量以及段落向量,形成特征序列;/n(6)BERT关系抽取模型将所述特征序列作为模型输入,输出is a、has part、has amorphology trait、develop from、participate、regulate和other中概率最高的关系类型;/n(7)视图函数将后端关系类型名显示到网页前端中,如果用户已经登录,则记录用户的该条搜索记录。/n

【技术特征摘要】
1.一种基于BERT的水稻表型组学知识图谱关系提取方法,包括如下步骤:
(1)根据植物本体论将水稻表型组学关系数据集划分不同关系,关系类型包括isa、haspart、hasamorphologytrait、developfrom、participate、regulate和other;
(2)将所述关系数据集进行词向量、位置向量以及段落向量的提取;
(3)将所述词向量、位置向量以及段落向量输入到BERT预训练模型进行训练,建立关系抽取模型;
(4)用户在关系抽取展示网站中输入句子以及句子中的实体,等待反馈;
(5)Django框架中的视图函数在后端提取句子序列的词向量、位置向量以及段落向量,形成特征序列;
(6)BERT关系抽取模型将所述特征序列作为模型输入,输出isa、haspart、hasamorphologytrait、developfrom、participate、regulate和other中概率最高的关系类型;
(7)视图函数将后端关系类型名显示到网页前端中,如果用户已经登录,则记录用户的该条搜索记录。


2.根据权利要求1所述基于BERT的水稻表型组学知识图谱关系提取方法,其特征在于:步骤(1)中,所述数据格式为实体1-实体2-关系-句子。


3.根据权利要求1所述基于BERT的水稻表型组学知识图谱关系提取方法,其特征在于,步骤(1)中,所述数据包含如下内容数据:术语名称、术语ID、术语定义、父术语和链接。


4.根据权利要求1所述基于BERT的水稻表型组学知识图谱关系提取方法,其特征在于,步骤(1)中,将所述水稻表型组学关系数据划分为7种关系:
(a)isa,用来表示父术语以及子术语之间的关系,表示A是B的子类型或亚型;
(b)haspart,用来表示A物质的每个实例都有部分B的实例;
(c)hasamorphologytrait,表示A通过B的形态特征表现出来;
(...

【专利技术属性】
技术研发人员:袁培森李润隆徐焕良
申请(专利权)人:南京农业大学
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1