一种高精度的农产品分类方法及系统技术方案

技术编号：23512794 阅读：39 留言：0更新日期：2020-03-18 00:06

本发明专利技术公开了一种高精度的农产品分类方法及系统，包括建立农产品分类体系步骤、确定训练样本步骤、建模步骤、测试步骤和分类步骤，其中，建模步骤使用深度循环神经网络进行建模，将农产品品类用数字编号进行表示，将训练集样本中处理后的农产品名称与对应标记的分类编号导入到深度循环神经网络中，根据农产品分类体系中不同类别的农产品分别进行模型训练。分类步骤：根据测试步骤的结果决定是否将训练好的模型作为最终的分类模型。本发明专利技术通过深度循环神经网络建模，将模型运用到农产品文本分类中去，在自建农产品品类体系中满足分类精度要求，分类效率高，在海量数据下能够快速解析完数据，对后续数据处理、数据应用等有极大作用。

A high precision classification method and system of agricultural products

全部详细技术资料下载

【技术实现步骤摘要】
一种高精度的农产品分类方法及系统
本专利技术涉及一种农产品品种分类方法，涉及品类库的建立与短文本分类技术，属于自然语言处理领域。
技术介绍
农产品是农业中生产的物品，农产品和人们的生活息息相关，其直接影响到人们的生活品质。在日常生活中，大量产品需要进行归类处理，方便后续进行海量数据的分析和建模，需要精准的归到某一具体农产品的类别，所以需要一种高精度/分类具体且明确的农产品品类分类系统。在现有文本分类中，没有专门针对农产品的短文本分类，农产品体系繁多需要建立独有的农产品体系，而且农产品名称中有干扰词多、重复词频繁等特点，在具体分类中需要单独处理这些干扰点。
技术实现思路
本专利技术将各种干扰相似名称进行高精度的分类到各个品类中去，解决传统文本分类精度低，错误范围集中，分类效率低下等问题，从而能将获得的各类农产品数据进行统一分类管理与数据处理。本专利技术的目的是通过以下技术方案来实现的：一种高精度的农产品分类方法，包括：建立农产品分类体系步骤：按照农产品的品类进行划分，并建立农产品分类体系；确定训练样本步骤：根据覆盖所有品类的农产品标记出数据集样本，并将数据集样本划分为训练集和测试集；建模步骤：使用深度循环神经网络进行建模，将农产品品类用数字编号进行表示，将训练集样本中处理后的农产品名称与对应标记的分类编号导入到深度循环神经网络中，根据农产品分类体系中不同类别的农产品分别进行模型训练；测试步骤：模型训练完成后，将测试集数据导入模型中去，测试出模型...

【技术保护点】
1.一种高精度的农产品分类方法，其特征在于，包括：/n建立农产品分类体系步骤：按照农产品的品类进行划分，并建立农产品分类体系；/n确定训练样本步骤：根据覆盖所有品类的农产品标记出数据集样本，并将数据集样本划分为训练集和测试集；/n建模步骤：使用深度循环神经网络进行建模，将农产品品类用数字编号进行表示，将训练集样本中处理后的农产品名称与对应标记的分类编号导入到深度循环神经网络中，根据农产品分类体系中不同类别的农产品分别进行模型训练；/n测试步骤：模型训练完成后，将测试集数据导入模型中去，测试出模型分类精度；/n分类步骤：根据测试步骤的结果决定是否将训练好的模型作为最终的分类模型；/n如果分类精度达不到要求，则返回建模步骤重新建模，之后再回到测试步骤；当测试步骤的分类精度满足要求后，将测试步骤所用的模型作为最终的分类模型。/n

【技术特征摘要】
1.一种高精度的农产品分类方法，其特征在于，包括：
建立农产品分类体系步骤：按照农产品的品类进行划分，并建立农产品分类体系；
确定训练样本步骤：根据覆盖所有品类的农产品标记出数据集样本，并将数据集样本划分为训练集和测试集；
建模步骤：使用深度循环神经网络进行建模，将农产品品类用数字编号进行表示，将训练集样本中处理后的农产品名称与对应标记的分类编号导入到深度循环神经网络中，根据农产品分类体系中不同类别的农产品分别进行模型训练；
测试步骤：模型训练完成后，将测试集数据导入模型中去，测试出模型分类精度；
分类步骤：根据测试步骤的结果决定是否将训练好的模型作为最终的分类模型；
如果分类精度达不到要求，则返回建模步骤重新建模，之后再回到测试步骤；当测试步骤的分类精度满足要求后，将测试步骤所用的模型作为最终的分类模型。

2.根据权利要求1所述的一种高精度的农产品分类方法，其特征在于：农产品分类体系共分为三级：一级大类、二级分类和三级小类；一级大类包括畜禽、蔬菜、草药养生、茶饮、花卉植物、粮油、水果、水产、坚果、其他农产品10种大类，二级分类包括46种分类种类划分，三级小类为1044种具体种类。

3.根据权利要求2所述的一种高精度的农产品分类方法，其特征在于：确定训练样本步骤中，采用关键词标记和/或正则标记数据集样本，覆盖所有三级农产品分类，将这些数据以9：1比例分为训练集与测试集。

4.根据权利要求1所述的一种高精度的农产品分类方法，其特征在于：它还包括文本预处理步骤：建立适用于农产品停用词库，农产品停用词库用于对所有的解析名称去除掉其中的停用词，减少解析干扰词汇，提高解析精度。

5.根据权利要求1所述的一种高精度的农产品分类方法，其特征在于：它还包括词典向量化步骤：建立农产品专属词典，将文本进行分词处理，并统计其中的词频。

6.根据权利要求5所述的一种高精度的农产品分类方法，其特征在于：将专属词典...

【专利技术属性】
技术研发人员：杨承鑫，
申请(专利权)人：成都市映潮科技股份有限公司，
类型：发明
国别省市：四川;51

全部详细技术资料下载我是这个专利的主人