语义融合和知识蒸馏的农业实体识别方法和装置制造方法及图纸

技术编号:30895654 阅读:18 留言:0更新日期:2021-11-22 23:37
本发明专利技术提供一种语义融合和知识蒸馏的农业实体识别方法和装置,其中方法包括:确定待识别文本;将所述待识别文本输入至实体识别学生模型,得到所述实体识别学生模型输出的农业实体识别结果;其中,所述实体识别学生模型是对教师模型进行知识蒸馏得到的;所述教师模型是基于样本文本及其样本农业实体识别结果训练得到的;所述教师模型用于对所述样本文本进行多层次语义提取,得到语义融合信息编码,并基于语义融合信息编码,识别所述样本文本中的样本农业实体。本发明专利技术提高了农业实体识别的准确性。确性。确性。

【技术实现步骤摘要】
语义融合和知识蒸馏的农业实体识别方法和装置


[0001]本专利技术涉及自然语言处理
,尤其涉及一种语义融合和知识蒸馏的农业实体识别方法和装置。

技术介绍

[0002]随着农业互联网的发展与农业从业人员的新老更替,需要进行农业知识的快速传播和应用,以解决农业技术人员不足的问题。目前,农业知识服务主要由互联网搜索和人工专家来完成,人工专家问答存在效率低,受技术专家资源稀缺的限制。同时,互联网上大量的农业知识以非结构化文本的形式存在,大大影响了农业知识获取的效率。因此,自动化农业知识服务亟需自动化地组织互联网上的非结构化农业知识,使之成为结构化的农业知识图谱,通过农业知识图谱实现自动化农业问答。
[0003]农业信息抽取是实现农业知识服务的基础。命名实体识别是农业信息抽取的基础任务,命名实体识别是指识别出文本中的实体指称项及类别。基于农业实体识别可抽取文本中的关键信息,构建农业知识图谱,实现农业知识结构化。
[0004]现有的农业实体识别方法往往使用模板匹配或者基于传统机器学习的方法,这些方法存在误差累积和传递等问题,以及需要手工构造特征的问题。当前在通用领域,基于深度学习的实体识别方法成为了主流,但是需要大量的标注样本。而农业领域,实体识别标注数据稀缺,需要人工标注实体识别数据,因此农业实体识别往往很难应用基于深度学习的方法。

技术实现思路

[0005]本专利技术提供一种语义融合和知识蒸馏的农业实体识别方法和装置,用以解决现有技术中准确性不足的缺陷。
[0006]本专利技术提供一种基于语义融合和知识蒸馏的农业实体识别方法,包括:
[0007]确定待识别文本;
[0008]将所述待识别文本输入至实体识别学生模型,得到所述实体识别学生模型输出的农业实体识别结果;
[0009]其中,所述实体识别学生模型是对教师模型进行知识蒸馏得到的;所述教师模型是基于样本文本及其样本农业实体识别结果训练得到的;
[0010]所述教师模型用于对所述样本文本进行多层次语义提取,得到语义融合信息编码,并基于语义融合信息编码,识别所述样本文本中的样本农业实体。
[0011]根据本专利技术提供的一种基于语义融合和知识蒸馏的农业实体识别方法,所述对所述样本文本进行多层次语义提取,得到语义融合信息编码,具体包括:
[0012]基于所述教师模型的多个语义提取层,对所述样本文本进行语义提取,得到各个语义提取层输出的语义信息向量;
[0013]基于所述教师模型的注意力层,对各个语义提取层输出的语义信息向量进行注意
力变换,得到各个语义提取层输出的语义信息向量的注意力权重;
[0014]基于各个语义提取层输出的语义信息向量及其注意力权重,确定所述语义融合信息编码。
[0015]根据本专利技术提供的一种基于语义融合和知识蒸馏的农业实体识别方法,所述基于语义融合信息编码,识别所述样本文本中的样本农业实体,具体包括:
[0016]基于所述教师模型的教师上下文语义提取层,对所述语义融合信息编码进行上下文语义信息提取,得到教师上下文语义特征;
[0017]基于所述教师模型的教师实体识别层,对所述教师上下文语义特征进行实体识别,得到教师实体识别结果。
[0018]根据本专利技术提供的一种基于语义融合和知识蒸馏的农业实体识别方法,所述对教师模型进行知识蒸馏,具体包括:
[0019]基于所述实体识别学生模型的学生上下文语义提取层,对所述样本文本中每一样本分词的词向量进行上下文语义信息提取,得到学生上下文语义特征;
[0020]基于所述实体识别学生模型的学生实体识别层,对所述学生上下文语义特征进行实体识别,得到学生实体识别结果;
[0021]基于所述学生上下文语义特征、所述教师上下文语义特征、所述学生实体识别结果、所述教师实体识别结果以及所述样本文本的样本农业实体识别结果,更新所述实体识别学生模型的参数。
[0022]根据本专利技术提供的一种基于语义融合和知识蒸馏的农业实体识别方法,所述实体识别学生模型的损失函数包括语义提取差异损失、实体识别差异损失和实体识别损失;
[0023]其中,所述语义提取差异损失表征所述学生上下文语义特征与所述教师上下文语义特征之间的差异;
[0024]所述实体识别差异损失表征所述学生实体识别结果与所述教师实体识别结果之间的差异;
[0025]所述实体识别损失表征所述学生实体识别结果与所述样本文本的样本农业实体识别结果之间的差异。
[0026]根据本专利技术提供的一种基于语义融合和知识蒸馏的农业实体识别方法,所述样本文本的样本农业实体识别结果是基于如下步骤确定的:
[0027]遍历农业知识图谱中的所有实体,基于各个实体的实体名称和实体别名,构建各个实体对应的前缀树;
[0028]对所述样本文本进行句子切分后,将所述样本文本的每一分句与各个实体对应的前缀树进行最大前缀匹配,得到所述样本文本的样本农业实体识别结果。
[0029]根据本专利技术提供的一种基于语义融合和知识蒸馏的农业实体识别方法,所述农业知识图谱是基于如下步骤构建的:
[0030]获取农业相关网页数据;
[0031]基于预设规则,对所述农业相关网页数据进行正则匹配,得到所述农业相关网页数据中的三元组结构信息;
[0032]基于所述三元组结构信息,构建所述农业知识图谱。
[0033]本专利技术还提供一种基于语义融合和知识蒸馏的农业实体识别装置,包括:
[0034]文本确定单元,用于确定待识别文本;
[0035]实体识别单元,用于将所述待识别文本输入至实体识别学生模型,得到所述实体识别学生模型输出的农业实体识别结果;
[0036]其中,所述实体识别学生模型是对教师模型进行知识蒸馏得到的;所述教师模型是基于样本文本及其样本农业实体识别结果训练得到的;
[0037]所述教师模型用于对所述样本文本进行多层次语义提取,得到语义融合信息编码,并基于语义融合信息编码,识别所述样本文本中的样本农业实体。
[0038]本专利技术还提供一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述任一种所述基于语义融合和知识蒸馏的农业实体识别方法的步骤。
[0039]本专利技术还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述基于语义融合和知识蒸馏的农业实体识别方法的步骤。
[0040]本专利技术提供的语义融合和知识蒸馏的农业实体识别方法和装置,教师模型通过对样本文本进行多层次语义提取,得到语义融合信息编码,并基于语义融合信息编码,识别样本文本中的样本农业实体,在此基础上,利用知识蒸馏的方式生成实体识别学生模型,提高了农业实体识别的准确性。
附图说明
[0041]为了更清楚地说明本专利技术或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于语义融合和知识蒸馏的农业实体识别方法,其特征在于,包括:确定待识别文本;将所述待识别文本输入至实体识别学生模型,得到所述实体识别学生模型输出的农业实体识别结果;其中,所述实体识别学生模型是对教师模型进行知识蒸馏得到的;所述教师模型是基于样本文本及其样本农业实体识别结果训练得到的;所述教师模型用于对所述样本文本进行多层次语义提取,得到语义融合信息编码,并基于语义融合信息编码,识别所述样本文本中的样本农业实体。2.根据权利要求1所述的基于语义融合和知识蒸馏的农业实体识别方法,其特征在于,所述对所述样本文本进行多层次语义提取,得到语义融合信息编码,具体包括:基于所述教师模型的多个语义提取层,对所述样本文本进行语义提取,得到各个语义提取层输出的语义信息向量;基于所述教师模型的注意力层,对各个语义提取层输出的语义信息向量进行注意力变换,得到各个语义提取层输出的语义信息向量的注意力权重;基于各个语义提取层输出的语义信息向量及其注意力权重,确定所述语义融合信息编码。3.根据权利要求1所述的基于语义融合和知识蒸馏的农业实体识别方法,其特征在于,所述基于语义融合信息编码,识别所述样本文本中的样本农业实体,具体包括:基于所述教师模型的教师上下文语义提取层,对所述语义融合信息编码进行上下文语义信息提取,得到教师上下文语义特征;基于所述教师模型的教师实体识别层,对所述教师上下文语义特征进行实体识别,得到教师实体识别结果。4.根据权利要求3所述的基于语义融合和知识蒸馏的农业实体识别方法,其特征在于,所述对教师模型进行知识蒸馏,具体包括:基于所述实体识别学生模型的学生上下文语义提取层,对所述样本文本中每一样本分词的词向量进行上下文语义信息提取,得到学生上下文语义特征;基于所述实体识别学生模型的学生实体识别层,对所述学生上下文语义特征进行实体识别,得到学生实体识别结果;基于所述学生上下文语义特征、所述教师上下文语义特征、所述学生实体识别结果、所述教师实体识别结果以及所述样本文本的样本农业实体识别结果,更新所述实体识别学生模型的参数。5.根据权利要求4所述的基于语义融合和知识蒸馏的农业实体识别方法,其特征在于,所述实体识别学...

【专利技术属性】
技术研发人员:李亮德康孟珍王秀娟华净王飞跃
申请(专利权)人:中国科学院自动化研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1