一种基于双词典的农作物病虫害命名实体识别方法技术

技术编号:39332565 阅读:24 留言:0更新日期:2023-11-12 16:07
本发明专利技术公开了一种基于双词典的农作物病虫害命名实体识别方法,以BiLSTM

【技术实现步骤摘要】
一种基于双词典的农作物病虫害命名实体识别方法


[0001]本专利技术涉及农作物病虫害与知识图谱领域,具体涉及一种基于双词典的农作物病虫害命名实体识别方法。

技术介绍

[0002]农业作为我国第一产业,在我国经济体系中占有重要比重。但是,农作物病虫害的发生严重威胁着各类农作物的生产,对我国的农业经济发展有着重大影响。如今是信息化时代,构建农作物病虫害智能问答系统可以有效帮助农业工作者及时了解农作物病虫害的产生原因以及得到相应的解决办法。而命名实体识别(Name entity recognition,NER)是从文本中自动挖掘知识的关键技术,也是构建知识图谱和智能问答系统等下游任务的基础。因此,准确识别农作物病虫害领域中的实体对于保障农业健康发展、方便农业工作者具有重要意义。
[0003]近年来,已有部分专家学者对农作物病虫害命名实体识别做出研究。李想等人(2017)将词性、偏旁部首等特征及语料间上下文关系考虑在内,结合CRF模型对农作物、病虫害和农药3种实体类别进行识别;郭旭超等人(2020)将部首特征集成到字符嵌入中作为模型输入,以CN本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于双词典的农作物病虫害命名实体识别方法,其特征在于,包括以下步骤:S1:将收集的农作物病虫害数据按照所设置的实体类别进行标注,并制作农业词典;S2:将S1中标注好的数据集按照模型要求进行预处理,并将农业词典输入到Glove模型中得到农业词向量文件;S3:将LEBERT模型中的BERT模型替换为RoBERTa模型得到LE

RoBERTa模型;S4:将S2中所得字符数据输入到LE

RoBERTa模型中,利用农业词向量文件作为外部词典对字符进行增强,最终得到融合后的字

词对向量;S5:将GCNet模型加入到SoftLexicon模型中,利用注意力池化操作处理四个集合的词向量表示,学习不同词集的权重,形成GC

SoftLexicon模型;S6:同时,将S2中所得字符数据和农业词向量文件输入到GC

SoftLexicon模型中,通过GCNet注意力模型找出与字符最相关的词集,并将其融合起来,得到加权融合后的字向量;S7:将S4得到的字

词对向量和S6得到的加权后的字符向量融合起来作为最终字符向量输入;S8:将S7得到的字符向量输入到BiLSTM

CRF层,最终得到农作物病虫害实体识别最优结果。2.如权利要求1中所述的一种基于双词典的农作物病虫害命名实体识别方法,其特征在于,所述步骤S1中共设计实体类别有13种,且按照“BMESO”标注方法进行标注。3.如权利要求1中所述的一种基于双词典的农作物病虫害命名实体识别方法,其特征在于,所述步骤S2中共获得19136个标注好的命名实体,且得到维度为100的农业词向量文件。4.如权利要求1中所述的一种基于双词典的农作物病虫害命名实体识别方法,其特征在于,所述步骤S3中将LEBERT模型中的BERT模型替换为RoBERTa模型。5.如权利要求1中所述的一种基于双词典的农作物病虫害命名实...

【专利技术属性】
技术研发人员:朱西平高昂陈怡男陈惠芬吕园园梁琳郭露肖丽娟杨欢
申请(专利权)人:西南石油大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1