一种高精度的农产品分类方法及系统技术方案

技术编号:23512794 阅读:29 留言:0更新日期:2020-03-18 00:06
本发明专利技术公开了一种高精度的农产品分类方法及系统,包括建立农产品分类体系步骤、确定训练样本步骤、建模步骤、测试步骤和分类步骤,其中,建模步骤使用深度循环神经网络进行建模,将农产品品类用数字编号进行表示,将训练集样本中处理后的农产品名称与对应标记的分类编号导入到深度循环神经网络中,根据农产品分类体系中不同类别的农产品分别进行模型训练。分类步骤:根据测试步骤的结果决定是否将训练好的模型作为最终的分类模型。本发明专利技术通过深度循环神经网络建模,将模型运用到农产品文本分类中去,在自建农产品品类体系中满足分类精度要求,分类效率高,在海量数据下能够快速解析完数据,对后续数据处理、数据应用等有极大作用。

A high precision classification method and system of agricultural products

【技术实现步骤摘要】
一种高精度的农产品分类方法及系统
本专利技术涉及一种农产品品种分类方法,涉及品类库的建立与短文本分类技术,属于自然语言处理领域。
技术介绍
农产品是农业中生产的物品,农产品和人们的生活息息相关,其直接影响到人们的生活品质。在日常生活中,大量产品需要进行归类处理,方便后续进行海量数据的分析和建模,需要精准的归到某一具体农产品的类别,所以需要一种高精度/分类具体且明确的农产品品类分类系统。在现有文本分类中,没有专门针对农产品的短文本分类,农产品体系繁多需要建立独有的农产品体系,而且农产品名称中有干扰词多、重复词频繁等特点,在具体分类中需要单独处理这些干扰点。
技术实现思路
本专利技术将各种干扰相似名称进行高精度的分类到各个品类中去,解决传统文本分类精度低,错误范围集中,分类效率低下等问题,从而能将获得的各类农产品数据进行统一分类管理与数据处理。本专利技术的目的是通过以下技术方案来实现的:一种高精度的农产品分类方法,包括:建立农产品分类体系步骤:按照农产品的品类进行划分,并建立农产品分类体系;确定训练样本步骤:根据覆盖所有品类的农产品标记出数据集样本,并将数据集样本划分为训练集和测试集;建模步骤:使用深度循环神经网络进行建模,将农产品品类用数字编号进行表示,将训练集样本中处理后的农产品名称与对应标记的分类编号导入到深度循环神经网络中,根据农产品分类体系中不同类别的农产品分别进行模型训练;测试步骤:模型训练完成后,将测试集数据导入模型中去,测试出模型分类精度;分类步骤:根据测试步骤的结果决定是否将训练好的模型作为最终的分类模型;如果分类精度达不到要求,则返回建模步骤重新建模,之后再回到测试步骤;当测试步骤的分类精度满足要求后,将测试步骤所用的模型作为最终的分类模型。作为优选方式,农产品分类体系共分为三级:一级大类、二级分类和三级小类;一级大类包括畜禽、蔬菜、草药养生、茶饮、花卉植物、粮油、水果、水产、坚果、其他农产品10种大类,二级分类包括46种分类种类划分,三级小类为1044种具体种类。如:百合花属于花卉植物(一级分类)-草本植物(二级分类)-百合花(三级分类)。作为优选方式,确定训练样本步骤中,采用关键词标记和/或正则标记数据集样本,覆盖所有三级农产品分类,将这些数据以9:1比例分为训练集与测试集。作为优选方式,本专利技术方法还包括文本预处理步骤:建立适用于农产品停用词库,农产品停用词库用于对所有的解析名称去除掉其中的停用词,减少解析干扰词汇,提高解析精度。作为优选方式,本专利技术方法还包括词典向量化步骤:建立农产品专属词典,将文本进行分词处理,并统计其中的词频。作为优选方式,将专属词典文本向量化以后,使用TF-IDF过滤常见且无关紧要的词,针对农产品名称特性,标记出容易受到影响的关键词,建立语料库,降低相应词汇的重要性,保留影响分类的词,并且计算其词权重性;TF-IDF中TF为词频,由某个词在文本中出现次数/文本总词数得到;TF-IDF中IDF为逆词频,由log得到,TF-IDF为词频*逆词频。作为优选方式,在建模步骤中,具体模型训练步骤为:每个词进入embedding后,进入LSTM层,经过一个时间序列后得到n个隐藏LSTM神经单元的向量,再进入池化层后,得到一个向量n2,进入Softmax层,得到类别分布概率向量,取其中最大值为最终预测结果。作为优选方式,分类精度包括模型每个层级分类的精度与整体精度,当模型每个层级分类的精度与整体精度均满足要求后,将测试步骤所用的模型作为最终的分类模型。一种高精度的农产品分类系统,包括:农产品分类模块:设置有农产品分类规则,且用于存放农产品分类结果;样本集模块:提供数据集样本,且数据集样本被划分为训练集和测试集;训练模块:用于利用数据集样本中的训练集对深度循环神经网络进行训练,获得训练好的模型;测试模块:用于通过测试集中的样本对训练模块中训练好的模型进行测试,并输出测试结果;精度验证模块:根据测试模块中的测试结果与预期的精度值进行比较,如果分类精度达不到要求,则返回建模步骤重新建模,之后再回到测试步骤;当测试步骤的分类精度满足要求后,将测试步骤所用的模型作为最终的分类模型;识别结果模块:对于待分类的农产品通过精度验证模块确定好的分类模型进行分类。作为优选方式,本专利技术系统还包括停用词库模块,样本集模块的数据集样本中一旦出现停用词库模块中的词,则将该词从数据集样本中去除。本专利技术的有益效果是:本专利技术通过深度循环神经网络建模,并将模型运用到农产品文本分类中去,在自建农产品品类体系中能够达到每个层级97%以上精度,并且分类效率高,在海量数据下能够快速解析完所有数据,对后续的数据处理、数据应用等有极大作用。附图说明图1为自建农产品体系示意图;图2为本专利技术的流程示意图;图3为关键词标记和/或正则标记示例。具体实施方式下面结合附图进一步详细描述本专利技术的技术方案,但本专利技术的保护范围不局限于以下所述。本专利技术采用循环神经网络进行农产品文本分类模型训练,但由于循环神经网络只能依据之前时刻的时序信息来预测下一时刻的输出,在实际运用中,需要加上未来的状态进行分类的预测,基于上下文进行判断,增加分类的精准度,所以本专利技术用到了深度循环神经网络(DeepRNN)建立语言模型。实施例一如图2所示,一种高精度的农产品分类方法,包括:建立农产品分类体系步骤:按照农产品的品类进行划分,并建立农产品分类体系;如图1所示,为自建农产品分类体系示意图。确定训练样本步骤:根据覆盖所有品类的农产品标记出数据集样本,并将数据集样本划分为训练集和测试集;建模步骤:使用深度循环神经网络进行建模,将农产品品类用数字编号进行表示,将训练集样本中处理后的农产品名称与对应标记的分类编号导入到深度循环神经网络中,根据农产品分类体系中不同类别的农产品分别进行模型训练;测试步骤:模型训练完成后,将测试集数据导入模型中去,测试出模型分类精度;分类步骤:根据测试步骤的结果决定是否将训练好的模型作为最终的分类模型;如果分类精度达不到要求,则返回建模步骤重新建模,之后再回到测试步骤;当测试步骤的分类精度满足要求后,将测试步骤所用的模型作为最终的分类模型。本专利技术通过深度循环神经网络建模,并将模型运用到农产品文本分类中去,在自建农产品品类体系中能够达到每个层级97%以上精度,并且分类效率高,在海量数据下能够快速解析完所有数据,对后续的数据处理、数据应用等有极大作用。本专利技术解决了传统文本分类精度低,错误范围集中,分类效率低下等问题。实施例二本实施例中的农产品分类体系共分为三级:一级大类、二级分类和三级小类;一级大类包括畜禽、蔬菜、草药养生、茶饮、花卉植物、粮油、水果、水产、坚果、其他农产品10种大类,二级分类包括本文档来自技高网...

【技术保护点】
1.一种高精度的农产品分类方法,其特征在于,包括:/n建立农产品分类体系步骤:按照农产品的品类进行划分,并建立农产品分类体系;/n确定训练样本步骤:根据覆盖所有品类的农产品标记出数据集样本,并将数据集样本划分为训练集和测试集;/n建模步骤:使用深度循环神经网络进行建模,将农产品品类用数字编号进行表示,将训练集样本中处理后的农产品名称与对应标记的分类编号导入到深度循环神经网络中,根据农产品分类体系中不同类别的农产品分别进行模型训练;/n测试步骤:模型训练完成后,将测试集数据导入模型中去,测试出模型分类精度;/n分类步骤:根据测试步骤的结果决定是否将训练好的模型作为最终的分类模型;/n如果分类精度达不到要求,则返回建模步骤重新建模,之后再回到测试步骤;当测试步骤的分类精度满足要求后,将测试步骤所用的模型作为最终的分类模型。/n

【技术特征摘要】
1.一种高精度的农产品分类方法,其特征在于,包括:
建立农产品分类体系步骤:按照农产品的品类进行划分,并建立农产品分类体系;
确定训练样本步骤:根据覆盖所有品类的农产品标记出数据集样本,并将数据集样本划分为训练集和测试集;
建模步骤:使用深度循环神经网络进行建模,将农产品品类用数字编号进行表示,将训练集样本中处理后的农产品名称与对应标记的分类编号导入到深度循环神经网络中,根据农产品分类体系中不同类别的农产品分别进行模型训练;
测试步骤:模型训练完成后,将测试集数据导入模型中去,测试出模型分类精度;
分类步骤:根据测试步骤的结果决定是否将训练好的模型作为最终的分类模型;
如果分类精度达不到要求,则返回建模步骤重新建模,之后再回到测试步骤;当测试步骤的分类精度满足要求后,将测试步骤所用的模型作为最终的分类模型。


2.根据权利要求1所述的一种高精度的农产品分类方法,其特征在于:农产品分类体系共分为三级:一级大类、二级分类和三级小类;一级大类包括畜禽、蔬菜、草药养生、茶饮、花卉植物、粮油、水果、水产、坚果、其他农产品10种大类,二级分类包括46种分类种类划分,三级小类为1044种具体种类。


3.根据权利要求2所述的一种高精度的农产品分类方法,其特征在于:确定训练样本步骤中,采用关键词标记和/或正则标记数据集样本,覆盖所有三级农产品分类,将这些数据以9:1比例分为训练集与测试集。


4.根据权利要求1所述的一种高精度的农产品分类方法,其特征在于:它还包括文本预处理步骤:建立适用于农产品停用词库,农产品停用词库用于对所有的解析名称去除掉其中的停用词,减少解析干扰词汇,提高解析精度。


5.根据权利要求1所述的一种高精度的农产品分类方法,其特征在于:它还包括词典向量化步骤:建立农产品专属词典,将文本进行分词处理,并统计其中的词频。


6.根据权利要求5所述的一种高精度的农产品分类方法,其特征在于:将专属词典...

【专利技术属性】
技术研发人员:杨承鑫
申请(专利权)人:成都市映潮科技股份有限公司
类型:发明
国别省市:四川;51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1