一种基于深度卷积的水稻知识文本分类方法技术

技术编号:27133858 阅读:31 留言:0更新日期:2021-01-25 20:28
本发明专利技术公开了一种基于深度卷积的水稻知识文本分类方法,包括以下步骤:S1.通过采用Python爬虫框架,爬取知网专家在线系统和种植问答网的关于水稻病虫害、草害药害以及栽培管理的中文文本问答数据;S2.采用Word2Vec中的Skip

【技术实现步骤摘要】
一种基于深度卷积的水稻知识文本分类方法


[0001]本专利技术涉及数据处理
,特别涉及一种基于深度卷积的水稻知识文本分类方法。

技术介绍

[0002]从农业文本数据中提取出水稻的草害药害、病虫害以及栽培管理等数据是典型的文本分类问题,其对文本关键信息抽取、文本数据挖掘以及农业智能问答等均具有十分重要的意义。魏芳芳等根据农业文本数据特征,构建农业行业词库,并通过特征词筛选和权重计算,构建一种基于线性支持向量机的中文农业文本分类模型,该方法并未考虑数据集线性不可分的情况,存在一定的局限性。对于中文文本分类,尤其是农业文本,存在着数据冗余性、稀疏性和规范性差等特征,采用传统的机器学习方法对大数据量的农业文本进行分类难度较大,且适应性差,特征工程复杂。
[0003]随着计算机技术的迅猛发展,深度卷积神经网络(CNN)、循环神经网络(RNN)和胶囊网络(CapsNet)等深度学习技术逐渐成为目前主流的分类方法。现今国内外学者采用深度学习技术在英文和中文文本分类上开展了大量的研究。金宁等使用TF-IDF和Word2Vec方法相结合生成词向量,构建BiGRU_MulCNN农业问答问句分类模型。贾旭东等采用多头注意力胶囊网络对英文文本进行分类,分类准确率较高。以上研究表明,相比传统的文本分类方法,深度学习技术在文本分类中具有更好的分类效果。
[0004]文本分词处理:相对英文文本,中文文本的处理相对复杂。中文字与字之间没有间隔,并且单个汉字具有的意义也明显弱于词组,因此采用Jieba方法对水稻知识文本进行分词处理,并去除文本中无用符号和停用词等。与此同时,中文分词结果深受分词词库的影响,为提高水稻知识文本分词精度,减少错分、漏分和误分情况,在搜狗农业语料库基础上构建水稻相关语料库,进而扩大Jieba分词基础词库,提高对水稻病虫害、草害药害和栽培管理等专业词汇的辨识度。
[0005]文本向量化处理:由于网络模型无法对自然语言进行直接训练学习,并且中文文本语句中存在大量的语义信息、上下文依赖信息和语序信息等,直接采用中文文本将无法保留这些信息的完整性,因此将中文文本转换为多维且连续的向量至关重要。采用Word2Vec[27]的Skip-Gram模型对水稻知识文本进行向量化处理。
[0006]ResNet-18网络结构:建立特征提取层网络是解决文本分类问题的前提基础,而CNN在图像和文本特征提取问题上取得了较好的提取精度。ResNet是CNN的典型代表,其残差模块(包括直接映射和残差部分)的设计理念使得随着网络层数的增加,网络发生退化的现象得以解决,且在ILSVRC 2015竞赛中其分类和特征提取的效果上得到了充分肯定。
[0007]ResNet-18网络多用于图像分类,其采用多个3
×
3的二维卷积核Conv2D从图像矩阵的行维度和列维度进行特征提取,但文本向量是由规定长度的词向量按一定顺序构建的向量矩阵,所以从矩阵的行维度卷积(即从左至右移动)没有实际意义。因此采用多个大小为n的一维卷积核(Conv1D)仅从向量矩阵的列维度进行卷积。但由上图可知,ResNet-18被
采用一维最大池化方法(Maxpooling1D)的池化层分割为3个部分,前两部分由17个大小为7和3、通道数为8、16、32和64的卷积层构成,后一部分仅采用1个通道数为4的全连接层。显然直接将上述ResNet网络结构用于水稻知识文本特征提取有较多不适的地方。首先相比图像具有颜色和形状等规律性特征,水稻知识每一类数据均由几十个甚至更多的关键词组成,生成的文本向量具有一定复杂性,因此仅采用[3Conv1D,3Conv1D]结构的残差模块无法较为精准地提取文本特征。其次水稻知识文本向量具有较大离散性和稀疏性,直接采用18个权重层的ResNet网络结构易造成过拟合。

技术实现思路

[0008]为解决以上所述的技术问题,本专利技术提供了一种基于深度卷积的水稻知识文本分类方法,解决了文本特征提取不准确和网络层次加深导致模型分类性能变差的技术问题。
[0009]本专利技术的技术方案为:
[0010]一种基于深度卷积的水稻知识文本分类方法,包括以下步骤:
[0011]S1.通过采用Python爬虫框架,爬取知网专家在线系统和种植问答网的关于水稻病虫害、草害药害以及栽培管理的中文文本问答数据;
[0012]S2.采用Word2Vec中的Skip-Gram模型对水稻知识文本进行向量化处理,词向量维度大小为100,训练窗口设置为5,同时与One-Hot、TF-IDF和Hashing向量化模型进行对比分析;
[0013]S3.构建文本特征提取网络;
[0014]S4.构建文本分类网络。
[0015]可优选地,所述步骤S3包括步骤:
[0016]S31.面向卷积通道对ResNet的残差模块进行更改与设计:
[0017]首先将ResNet的单通道卷积组调整为多通道卷积组,用以减少文本特征的表征性瓶颈,即减少信息损失;
[0018]其次通过增加大小为1的卷积核对文本向量进行降维,并加入非线性,进而降低网络模型参数和提高网络的表达能力,共设计了4种残差模块结构;
[0019]S32.为对比残差模块结构对文本分类的影响,共配置了4种水稻知识文本分类网络结构,并通过后续试验分析,筛选分类性能较高的残差结构;
[0020]与此同时,在保持较优残差结构不变的前提下,通过增加残差模块数量探究网络层次对分类精度的影响。
[0021]可优选地,所述4种残差模块结构的结构式分别为(1)(2)(3)(4)所示:
[0022][0023][0024][0025][0026]基于上述4种残差模块结构,配置了4种水稻知识文本分类网络结构,
[0027]残差模块结构(1)配置网络结构Embedding-A-Maxpool/2-FC/128-FC/4-softmax,
[0028]残差模块结构(2)配置网络结构Embedding-B-Maxpool/2-FC/128-FC/4-softmax,
[0029]残差模块结构(3)配置网络结构Embedding-C-Maxpool/2-FC/128-FC/4-softmax,
[0030]残差模块结构(4)配置网络结构Embedding-D-Maxpool/2-FC/128-FC/4-softmax。
[0031]可优选地,所述步骤S4采用所述4种水稻知识文本分类网络结构,采用胶囊网络替代池化层,并结合所述4种残差网络结构,构建面向问答系统的水稻知识文本分类模型。
[0032]本专利技术相对于现有技术,有以下有益效果:
[0033]专利技术为解决文本特征提取不准确和网络层次加深导致模型分类性能变差等问题。
[0034]本专利技术基于ResNet[24]和Inception V[25]网络结构的基本原理,以Top-1准确率为判断标准,分别从网络模块结构和网络层次进行分析,筛选具有最佳本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于深度卷积的水稻知识文本分类方法,其特征在于,包括以下步骤:S1.通过采用Python爬虫框架,爬取知网专家在线系统和种植问答网的关于水稻病虫害、草害药害以及栽培管理的中文文本问答数据;S2.采用Word2Vec中的Skip-Gram模型对水稻知识文本进行向量化处理,词向量维度大小为100,训练窗口设置为5,同时与One-Hot、TF-IDF和Hashing向量化模型进行对比分析;S3.构建文本特征提取网络;S4.构建文本分类网络。2.根据权利要求1所述的基于深度卷积的水稻知识文本分类方法,其特征在于,所述步骤S3包括步骤:S31.面向卷积通道对ResNet的残差模块进行更改与设计:首先将ResNet的单通道卷积组调整为多通道卷积组,用以减少文本特征的表征性瓶颈,即减少信息损失;其次通过增加大小为1的卷积核对文本向量进行降维,并加入非线性,进而降低网络模型参数和提高网络的表达能力,共设计了4种残差模块结构;S32.为对比残差模块结构对文本分类的影响,共配置了4种水稻知识文本分类网络,并通过后续试验分析,筛选分类性能较高的残差结构;与此同时,在保持较优残差结构不变的前提下,通过增加残差模块数量探究网络层次对分类精度的影响。3.根据权利...

【专利技术属性】
技术研发人员:许童羽冯帅赵冬雪
申请(专利权)人:沈阳农业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1